Par: Benoît TROUVILLIEZ

Introduction

Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu.

Déroulement des conférences

Les trois conférences se sont déroulées en deux temps principaux :

  • Du 19 au 22, les journées ont été consacrées aux conférences TALN et Recital dont les différentes présentations étaient mélangées. Souvent, les présentations Recital étaient soit placées en début de séance, soit en fin. Chaque séance durait en moyenne deux heures avec une pause entre chacune.
  • La journée du 23 fut consacrée à la conférence DEFT seule. La tâche “Défi Fouille de Texte” de cette année était consacrée à l’annotation de textes issus de journaux. Ces annotations étaient temporelles (décennie de publication de l’article) et géographiques (pays de publication et nom du journal).

Les thèmes abordés

Beaucoup de thèmes différents du TAL ont été abordés. Parmi ceux qui ont le plus de succès (et qui m’ont le plus intéressés) :

  • La fouille d’opinions
  • La correction automatique (orthographique et syntaxique)
  • Analyse morpho-syntaxique et syntaxique
  • Traduction automatique et résumés de textes
  • Extraction de textes (entitées nommées, indices temporelles, détermination de l’auteur)
  • Intéraction entre le TAL et le TIL

Quelques présentations….

Parmi les présentations qui nous ont été faites, quelques unes m’ont plus intéressées que les autres, en partie par leur adéquation avec mon sujet de recherche. Je vais donc ici vous présenter brièvement ces articles ainsi que les points qui ont retenu mon attention et vous invite à les lire pour avoir plus de précisions.

Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues

Auteur : Holger Schwenk

Cette présentation concernait la traduction automatique statistique. Dans ce domaine, le plus important est de disposer de corpus de textes dans la langue en question qui soient suffisamment conséquents. Pour y parvenir, l’auteur a utilisé un site internet spécialisé dans la capitalisation de données linguistiques : le Linguistic Data Consortium (LDC) qui capitalise des données linguistiques dans de multiples langues dont le français.

Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français

Auteurs : Pascal Denis et Benoit Sagot

Développé par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut concurrent de TreeTagger mais en libre. D’après leur papier, ils sont au moins aussi bon que TreeTagger et même meilleur dans certains cas (les mots inconnus dans le lexique semblent mieux traités par MElt que par TreeTagger (91% de réussite pour MElt contre 75% pour TreeTagger)). Le formalisme utilisé par MElt pour effectuer le POS Tagging a par ailleurs été retenu pour le modèle pré-entrainé français (fremalt) de l’analyseur syntaxique Malt Parser (Attention à ne pas confondre Malt et MElt).

Une approche hybride traduction/correction pour la normalisation des SMS

Auteurs : Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon et Cédrick Fairon

Présentation intéressante montrant une méthode pour redresser un texte écrit en langage SMS au moyen d’un algorithme d’apprentissage. Cette algorithme procède lors de sa phase d’apprentissage par alignement entre un texte écrit en langage SMS et son homologue écrit dans un français tout à fait correct. Cette approche par apprentissage pour effectuer de la correction orthographique est assez intéressante mais elle nécessite de disposer d’un corpus d’alignement assez important pour avoir un modèle robuste en sortie de la phase d’apprentissage.

Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Auteurs : Guillaume Wisniewski, Aurélien Max et François Yvon

Présentation de l’élaboration d’un corpus de fautes d’orthographes / corrections élaboré à partir des révisions de Wikipédia. La démarche de création est assez simple : on doit dans un premier temps distinguer ce que l’on appelle les révisions mineures et les révisions majeures faites sur wikipédia. On pose alors le prédicat qu’une révision mineure est souvent associée à la correction d’une erreur d’orthographe dans le texte. Afin de valider ces considérations, l’étude a consisté à vérifier que les termes écrits dans la révision de départ étaient inconnus tandis que leurs homologues dans la révisions d’arrivée étaient connus.
Ce qui est assez intéressant, c’est que ce travail a donné lieu à la réalisation d’un corpus de corrections orthographiques disponible gratuitement : le Wicopaco. Il est toutefois à noter que ce corpus a été extrait de manière automatique et n’a pas fait l’objet d’une validation manuelle. Il est donc nécessaire de prévoir des imperfections dont les auteurs citent par exemple les spams.

Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique générique

Auteur : Baptiste Chardon

Présentation d’un travail sur l’extraction d’adjectifs d’opinions à partir de textes de critiques de restaurants. Dans ces textes, les auteurs expriment leurs opinions à l’aide d’adjectifs qualifiant le restaurant. On cherche alors à identifier d’une part la polarité du texte, c’est à dire à déterminer si son auteur est favorable ou non au restaurant qu’il évoque, et à identifier d’autre part, les adjectifs qui expriment cette opinion. Cela est réalisé manuellement par des annotateurs sur un corpus d’entraînement. Leur travail est ensuite mis en commun afin d’extraire les points d’accord qui serviront de données à l’algorithme d’apprentissage. Celui-ci va alors, pour chaque terme étiqueté, attribuer une polarité d’opinion en fonction du marquage de ce terme par les annotateurs. Une étude est ensuite menée pour mesurer la généricité de la ressource obtenue.

Comment formule-t-on une réponse en langue naturelle ?

Auteurs : Anne Garcia-fernandez, Sophie Rosset et Anne Vilnat

Une présentation sur la génération de langue naturelle dans le cadre d’un système de questions réponses. L’article nous présente la notion d’élément information-réponse et étudie sa position dans un texte généré en langue naturelle.

La table ronde : Du TAL au TIL

Animée par : Guy Lapalme, Michael Zock, Éric Brunelle et Christian Boitet

Ce débat a permis d’introduire la notion de TIL et sa place dans la communauté du TAL. TIL est un acronyme pour “Traitement Intéractif de la Langue”. Contrairement à l’automatique, l’interactif privilégie le contact entre l’humain et la machine. Le but final étant de permettre à la machine d’apprendre grâce à ces échanges. Bien sûr, tout bon système “intelligent” doit permettre à l’utilisateur d’ignorer les requêtes de la machine et doit donc permettre aux algorithmes déployés de fonctionner aussi bien en disposant de beaucoup d’informations en provenance de l’utilisateur qu’avec très peu d’informations.
En cela, les systèmes de TAL et de TIL sont complémentaires : le TIL permet d’offrir la possibilité au traitement assisté par ordinateur de bénéficier de l’apport de l’interaction homme / machine tandis que le TAL apporte au système sa capacité à s’adapter au manque d’informations dans le cadre d’un refus d’interaction tout en étant capable de garantir le meilleur résultat possible dans ces conditions.

Réécriture de graphes de dépendances pour l’interface syntaxe-sémantique

Auteurs : Guillaume Bonfante, Bruno Guillaume, Mathieu Morey et Guy Perrier

Cette présentation concernait le passage de textes écrit en langage naturelle vers une représentation formelle et logique de la sémantique de ces derniers. Pour cela, les auteurs nous proposent de passer par une analyse syntaxique puis sémantique pour obtenir au final une représentation logique de la sémantique.

Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering

Auteur : Benoît Trouvilliez (moi :) )

Il s’agit de l’article que j’ai présenté lors de cette conférence. Il traite de mes travaux sur la fouille d’opinions par clustering. J’y présente différents traitements sémantiques visant à construire une représentation sémantique de la phrase exprimée afin d’en extraire les idées dégagées. Ce travail s’inscrit dans le cadre de l’application Onyme Opinions développée par la société.

Mots clefs : , , , ,