TALN / Recital / DEFT 2010 : Quand le TAL s’invite à Montréal 26 août 2010 Par: Benoît TROUVILLIEZ Introduction Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu. Déroulement des conférences Les trois conférences se sont déroulées en deux temps principaux : Du 19 au 22, les journées ont été consacrées aux conférences TALN et Recital dont les différentes présentations étaient mélangées. Souvent, les présentations Recital étaient soit placées en début de séance, soit en fin. Chaque séance durait en moyenne deux heures avec une pause entre chacune. La journée du 23 fut consacrée à la conférence DEFT seule. La tâche “Défi Fouille de Texte” de cette année était consacrée à l’annotation de textes issus de journaux. Ces annotations étaient temporelles (décennie de publication de l’article) et géographiques (pays de publication et nom du journal). Les thèmes abordés Beaucoup de thèmes différents du TAL ont été abordés. Parmi ceux qui ont le plus de succès (et qui m’ont le plus intéressés) : La fouille d’opinions La correction automatique (orthographique et syntaxique) Analyse morpho-syntaxique et syntaxique Traduction automatique et résumés de textes Extraction de textes (entitées nommées, indices temporelles, détermination de l’auteur) Intéraction entre le TAL et le TIL Quelques présentations…. Parmi les présentations qui nous ont été faites, quelques unes m’ont plus intéressées que les autres, en partie par leur adéquation avec mon sujet de recherche. Je vais donc ici vous présenter brièvement ces articles ainsi que les points qui ont retenu mon attention et vous invite à les lire pour avoir plus de précisions. Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues Auteur : Holger Schwenk Cette présentation concernait la traduction automatique statistique. Dans ce domaine, le plus important est de disposer de corpus de textes dans la langue en question qui soient suffisamment conséquents. Pour y parvenir, l’auteur a utilisé un site internet spécialisé dans la capitalisation de données linguistiques : le Linguistic Data Consortium (LDC) qui capitalise des données linguistiques dans de multiples langues dont le français. Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français Auteurs : Pascal Denis et Benoit Sagot Développé par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut concurrent de TreeTagger mais en libre. D’après leur papier, ils sont au moins aussi bon que TreeTagger et même meilleur dans certains cas (les mots inconnus dans le lexique semblent mieux traités par MElt que par TreeTagger (91% de réussite pour MElt contre 75% pour TreeTagger)). Le formalisme utilisé par MElt pour effectuer le POS Tagging a par ailleurs été retenu pour le modèle pré-entrainé français (fremalt) de l’analyseur syntaxique Malt Parser (Attention à ne pas confondre Malt et MElt). Une approche hybride traduction/correction pour la normalisation des SMS Auteurs : Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon et Cédrick Fairon Présentation intéressante montrant une méthode pour redresser un texte écrit en langage SMS au moyen d’un algorithme d’apprentissage. Cette algorithme procède lors de sa phase d’apprentissage par alignement entre un texte écrit en langage SMS et son homologue écrit dans un français tout à fait correct. Cette approche par apprentissage pour effectuer de la correction orthographique est assez intéressante mais elle nécessite de disposer d’un corpus d’alignement assez important pour avoir un modèle robuste en sortie de la phase d’apprentissage. Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia Auteurs : Guillaume Wisniewski, Aurélien Max et François Yvon Présentation de l’élaboration d’un corpus de fautes d’orthographes / corrections élaboré à partir des révisions de Wikipédia. La démarche de création est assez simple : on doit dans un premier temps distinguer ce que l’on appelle les révisions mineures et les révisions majeures faites sur wikipédia. On pose alors le prédicat qu’une révision mineure est souvent associée à la correction d’une erreur d’orthographe dans le texte. Afin de valider ces considérations, l’étude a consisté à vérifier que les termes écrits dans la révision de départ étaient inconnus tandis que leurs homologues dans la révisions d’arrivée étaient connus. Ce qui est assez intéressant, c’est que ce travail a donné lieu à la réalisation d’un corpus de corrections orthographiques disponible gratuitement : le Wicopaco. Il est toutefois à noter que ce corpus a été extrait de manière automatique et n’a pas fait l’objet d’une validation manuelle. Il est donc nécessaire de prévoir des imperfections dont les auteurs citent par exemple les spams. Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique générique Auteur : Baptiste Chardon Présentation d’un travail sur l’extraction d’adjectifs d’opinions à partir de textes de critiques de restaurants. Dans ces textes, les auteurs expriment leurs opinions à l’aide d’adjectifs qualifiant le restaurant. On cherche alors à identifier d’une part la polarité du texte, c’est à dire à déterminer si son auteur est favorable ou non au restaurant qu’il évoque, et à identifier d’autre part, les adjectifs qui expriment cette opinion. Cela est réalisé manuellement par des annotateurs sur un corpus d’entraînement. Leur travail est ensuite mis en commun afin d’extraire les points d’accord qui serviront de données à l’algorithme d’apprentissage. Celui-ci va alors, pour chaque terme étiqueté, attribuer une polarité d’opinion en fonction du marquage de ce terme par les annotateurs. Une étude est ensuite menée pour mesurer la généricité de la ressource obtenue. Comment formule-t-on une réponse en langue naturelle ? Auteurs : Anne Garcia-fernandez, Sophie Rosset et Anne Vilnat Une présentation sur la génération de langue naturelle dans le cadre d’un système de questions réponses. L’article nous présente la notion d’élément information-réponse et étudie sa position dans un texte généré en langue naturelle. La table ronde : Du TAL au TIL Animée par : Guy Lapalme, Michael Zock, Éric Brunelle et Christian Boitet Ce débat a permis d’introduire la notion de TIL et sa place dans la communauté du TAL. TIL est un acronyme pour “Traitement Intéractif de la Langue”. Contrairement à l’automatique, l’interactif privilégie le contact entre l’humain et la machine. Le but final étant de permettre à la machine d’apprendre grâce à ces échanges. Bien sûr, tout bon système “intelligent” doit permettre à l’utilisateur d’ignorer les requêtes de la machine et doit donc permettre aux algorithmes déployés de fonctionner aussi bien en disposant de beaucoup d’informations en provenance de l’utilisateur qu’avec très peu d’informations. En cela, les systèmes de TAL et de TIL sont complémentaires : le TIL permet d’offrir la possibilité au traitement assisté par ordinateur de bénéficier de l’apport de l’interaction homme / machine tandis que le TAL apporte au système sa capacité à s’adapter au manque d’informations dans le cadre d’un refus d’interaction tout en étant capable de garantir le meilleur résultat possible dans ces conditions. Réécriture de graphes de dépendances pour l’interface syntaxe-sémantique Auteurs : Guillaume Bonfante, Bruno Guillaume, Mathieu Morey et Guy Perrier Cette présentation concernait le passage de textes écrit en langage naturelle vers une représentation formelle et logique de la sémantique de ces derniers. Pour cela, les auteurs nous proposent de passer par une analyse syntaxique puis sémantique pour obtenir au final une représentation logique de la sémantique. Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering Auteur : Benoît Trouvilliez (moi ) Il s’agit de l’article que j’ai présenté lors de cette conférence. Il traite de mes travaux sur la fouille d’opinions par clustering. J’y présente différents traitements sémantiques visant à construire une représentation sémantique de la phrase exprimée afin d’en extraire les idées dégagées. Ce travail s’inscrit dans le cadre de l’application Onyme Opinions développée par la société. Mots clefs : conférence Recital, DEFT, RECITAL, TAL, TALN Cette entrée a été publiée le Jeudi 26 août 2010 à 8 h 46 min, et rangée dans Conférences, TAL, TALN. Vous pouvez suivre les réponses à cette entrée via son flux RSS 2.0. Vous pouvez laisser un commentaire, ou faire un rétrolien depuis votre site. Connexion... Profil annuler Inscrivez-vous avec Twitter Inscrivez-vous avec Facebook ou Nom E-mailNon publié Site internet + 8 = quatorze Commentaire

DEFT 2010 : Quand le TAL s’invite à Montréal

26 août 2010

Par: Benoît TROUVILLIEZ

Introduction

Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu.

Déroulement des conférences

Les trois conférences se sont déroulées en deux temps principaux :

Du 19 au 22, les journées ont été consacrées aux conférences TALN et Recital dont les différentes présentations étaient mélangées. Souvent, les présentations Recital étaient soit placées en début de séance, soit en fin. Chaque séance durait en moyenne deux heures avec une pause entre chacune.
La journée du 23 fut consacrée à la conférence DEFT seule. La tâche “Défi Fouille de Texte” de cette année était consacrée à l’annotation de textes issus de journaux. Ces annotations étaient temporelles (décennie de publication de l’article) et géographiques (pays de publication et nom du journal).

Les thèmes abordés

Beaucoup de thèmes différents du TAL ont été abordés. Parmi ceux qui ont le plus de succès (et qui m’ont le plus intéressés) :

La fouille d’opinions
La correction automatique (orthographique et syntaxique)
Analyse morpho-syntaxique et syntaxique
Traduction automatique et résumés de textes
Extraction de textes (entitées nommées, indices temporelles, détermination de l’auteur)
Intéraction entre le TAL et le TIL

Quelques présentations….

Parmi les présentations qui nous ont été faites, quelques unes m’ont plus intéressées que les autres, en partie par leur adéquation avec mon sujet de recherche. Je vais donc ici vous présenter brièvement ces articles ainsi que les points qui ont retenu mon attention et vous invite à les lire pour avoir plus de précisions.

Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues

Auteur : Holger Schwenk

Cette présentation concernait la traduction automatique statistique. Dans ce domaine, le plus important est de disposer de corpus de textes dans la langue en question qui soient suffisamment conséquents. Pour y parvenir, l’auteur a utilisé un site internet spécialisé dans la capitalisation de données linguistiques : le Linguistic Data Consortium (LDC) qui capitalise des données linguistiques dans de multiples langues dont le français.

Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français

Auteurs : Pascal Denis et Benoit Sagot

Développé par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut concurrent de TreeTagger mais en libre. D’après leur papier, ils sont au moins aussi bon que TreeTagger et même meilleur dans certains cas (les mots inconnus dans le lexique semblent mieux traités par MElt que par TreeTagger (91% de réussite pour MElt contre 75% pour TreeTagger)). Le formalisme utilisé par MElt pour effectuer le POS Tagging a par ailleurs été retenu pour le modèle pré-entrainé français (fremalt) de l’analyseur syntaxique Malt Parser (Attention à ne pas confondre Malt et MElt).

Une approche hybride traduction/correction pour la normalisation des SMS

Auteurs : Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon et Cédrick Fairon

Présentation intéressante montrant une méthode pour redresser un texte écrit en langage SMS au moyen d’un algorithme d’apprentissage. Cette algorithme procède lors de sa phase d’apprentissage par alignement entre un texte écrit en langage SMS et son homologue écrit dans un français tout à fait correct. Cette approche par apprentissage pour effectuer de la correction orthographique est assez intéressante mais elle nécessite de disposer d’un corpus d’alignement assez important pour avoir un modèle robuste en sortie de la phase d’apprentissage.

Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Auteurs : Guillaume Wisniewski, Aurélien Max et François Yvon

Présentation de l’élaboration d’un corpus de fautes d’orthographes / corrections élaboré à partir des révisions de Wikipédia. La démarche de création est assez simple : on doit dans un premier temps distinguer ce que l’on appelle les révisions mineures et les révisions majeures faites sur wikipédia. On pose alors le prédicat qu’une révision mineure est souvent associée à la correction d’une erreur d’orthographe dans le texte. Afin de valider ces considérations, l’étude a consisté à vérifier que les termes écrits dans la révision de départ étaient inconnus tandis que leurs homologues dans la révisions d’arrivée étaient connus.
Ce qui est assez intéressant, c’est que ce travail a donné lieu à la réalisation d’un corpus de corrections orthographiques disponible gratuitement : le Wicopaco. Il est toutefois à noter que ce corpus a été extrait de manière automatique et n’a pas fait l’objet d’une validation manuelle. Il est donc nécessaire de prévoir des imperfections dont les auteurs citent par exemple les spams.

Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique générique

Auteur : Baptiste Chardon

Présentation d’un travail sur l’extraction d’adjectifs d’opinions à partir de textes de critiques de restaurants. Dans ces textes, les auteurs expriment leurs opinions à l’aide d’adjectifs qualifiant le restaurant. On cherche alors à identifier d’une part la polarité du texte, c’est à dire à déterminer si son auteur est favorable ou non au restaurant qu’il évoque, et à identifier d’autre part, les adjectifs qui expriment cette opinion. Cela est réalisé manuellement par des annotateurs sur un corpus d’entraînement. Leur travail est ensuite mis en commun afin d’extraire les points d’accord qui serviront de données à l’algorithme d’apprentissage. Celui-ci va alors, pour chaque terme étiqueté, attribuer une polarité d’opinion en fonction du marquage de ce terme par les annotateurs. Une étude est ensuite menée pour mesurer la généricité de la ressource obtenue.

Comment formule-t-on une réponse en langue naturelle ?

Auteurs : Anne Garcia-fernandez, Sophie Rosset et Anne Vilnat

Une présentation sur la génération de langue naturelle dans le cadre d’un système de questions réponses. L’article nous présente la notion d’élément information-réponse et étudie sa position dans un texte généré en langue naturelle.

La table ronde : Du TAL au TIL

Animée par : Guy Lapalme, Michael Zock, Éric Brunelle et Christian Boitet

Ce débat a permis d’introduire la notion de TIL et sa place dans la communauté du TAL. TIL est un acronyme pour “Traitement Intéractif de la Langue”. Contrairement à l’automatique, l’interactif privilégie le contact entre l’humain et la machine. Le but final étant de permettre à la machine d’apprendre grâce à ces échanges. Bien sûr, tout bon système “intelligent” doit permettre à l’utilisateur d’ignorer les requêtes de la machine et doit donc permettre aux algorithmes déployés de fonctionner aussi bien en disposant de beaucoup d’informations en provenance de l’utilisateur qu’avec très peu d’informations.
En cela, les systèmes de TAL et de TIL sont complémentaires : le TIL permet d’offrir la possibilité au traitement assisté par ordinateur de bénéficier de l’apport de l’interaction homme / machine tandis que le TAL apporte au système sa capacité à s’adapter au manque d’informations dans le cadre d’un refus d’interaction tout en étant capable de garantir le meilleur résultat possible dans ces conditions.

Réécriture de graphes de dépendances pour l’interface syntaxe-sémantique

Auteurs : Guillaume Bonfante, Bruno Guillaume, Mathieu Morey et Guy Perrier

Cette présentation concernait le passage de textes écrit en langage naturelle vers une représentation formelle et logique de la sémantique de ces derniers. Pour cela, les auteurs nous proposent de passer par une analyse syntaxique puis sémantique pour obtenir au final une représentation logique de la sémantique.

Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering

Auteur : Benoît Trouvilliez (moi )

Il s’agit de l’article que j’ai présenté lors de cette conférence. Il traite de mes travaux sur la fouille d’opinions par clustering. J’y présente différents traitements sémantiques visant à construire une représentation sémantique de la phrase exprimée afin d’en extraire les idées dégagées. Ce travail s’inscrit dans le cadre de l’application Onyme Opinions développée par la société.

Mots clefs : conférence Recital, DEFT, RECITAL, TAL, TALN

Cette entrée a été publiée le Jeudi 26 août 2010 à 8 h 46 min, et rangée dans Conférences, TAL, TALN. Vous pouvez suivre les réponses à cette entrée via son flux RSS 2.0. Vous pouvez laisser un commentaire, ou faire un rétrolien depuis votre site.

Blog Onyme

TALN / Recital / DEFT 2010 : Quand le TAL s’invite à Montréal

Introduction

Déroulement des conférences

Les thèmes abordés

Quelques présentations….

Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues

Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français

Une approche hybride traduction/correction pour la normalisation des SMS

Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique générique

Comment formule-t-on une réponse en langue naturelle ?

La table ronde : Du TAL au TIL

Réécriture de graphes de dépendances pour l’interface syntaxe-sémantique

Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering

A voir

Articles récents

Mots clés

Catégories

Onyme sur Twitter

Blog Onyme

Introduction

Déroulement des conférences

Les thèmes abordés

Quelques présentations….

Profil annuler

A voir

Articles récents

Mots clés

Catégories

Onyme sur Twitter