Blog Onyme
IntroductionLes conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu. Déroulement des conférencesLes trois conférences se sont déroulées en deux temps principaux :
Les thèmes abordésBeaucoup de thèmes différents du TAL ont été abordés. Parmi ceux qui ont le plus de succès (et qui m’ont le plus intéressés) :
Quelques présentations….Parmi les présentations qui nous ont été faites, quelques unes m’ont plus intéressées que les autres, en partie par leur adéquation avec mon sujet de recherche. Je vais donc ici vous présenter brièvement ces articles ainsi que les points qui ont retenu mon attention et vous invite à les lire pour avoir plus de précisions. Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolinguesAuteur : Holger Schwenk Cette présentation concernait la traduction automatique statistique. Dans ce domaine, le plus important est de disposer de corpus de textes dans la langue en question qui soient suffisamment conséquents. Pour y parvenir, l’auteur a utilisé un site internet spécialisé dans la capitalisation de données linguistiques : le Linguistic Data Consortium (LDC) qui capitalise des données linguistiques dans de multiples langues dont le français. Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du françaisAuteurs : Pascal Denis et Benoit Sagot Développé par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut concurrent de TreeTagger mais en libre. D’après leur papier, ils sont au moins aussi bon que TreeTagger et même meilleur dans certains cas (les mots inconnus dans le lexique semblent mieux traités par MElt que par TreeTagger (91% de réussite pour MElt contre 75% pour TreeTagger)). Le formalisme utilisé par MElt pour effectuer le POS Tagging a par ailleurs été retenu pour le modèle pré-entrainé français (fremalt) de l’analyseur syntaxique Malt Parser (Attention à ne pas confondre Malt et MElt). Une approche hybride traduction/correction pour la normalisation des SMSAuteurs : Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon et Cédrick Fairon Présentation intéressante montrant une méthode pour redresser un texte écrit en langage SMS au moyen d’un algorithme d’apprentissage. Cette algorithme procède lors de sa phase d’apprentissage par alignement entre un texte écrit en langage SMS et son homologue écrit dans un français tout à fait correct. Cette approche par apprentissage pour effectuer de la correction orthographique est assez intéressante mais elle nécessite de disposer d’un corpus d’alignement assez important pour avoir un modèle robuste en sortie de la phase d’apprentissage. Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de WikipédiaAuteurs : Guillaume Wisniewski, Aurélien Max et François Yvon Présentation de l’élaboration d’un corpus de fautes d’orthographes / corrections élaboré à partir des révisions de Wikipédia. La démarche de création est assez simple : on doit dans un premier temps distinguer ce que l’on appelle les révisions mineures et les révisions majeures faites sur wikipédia. On pose alors le prédicat qu’une révision mineure est souvent associée à la correction d’une erreur d’orthographe dans le texte. Afin de valider ces considérations, l’étude a consisté à vérifier que les termes écrits dans la révision de départ étaient inconnus tandis que leurs homologues dans la révisions d’arrivée étaient connus. Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique génériqueAuteur : Baptiste Chardon Présentation d’un travail sur l’extraction d’adjectifs d’opinions à partir de textes de critiques de restaurants. Dans ces textes, les auteurs expriment leurs opinions à l’aide d’adjectifs qualifiant le restaurant. On cherche alors à identifier d’une part la polarité du texte, c’est à dire à déterminer si son auteur est favorable ou non au restaurant qu’il évoque, et à identifier d’autre part, les adjectifs qui expriment cette opinion. Cela est réalisé manuellement par des annotateurs sur un corpus d’entraînement. Leur travail est ensuite mis en commun afin d’extraire les points d’accord qui serviront de données à l’algorithme d’apprentissage. Celui-ci va alors, pour chaque terme étiqueté, attribuer une polarité d’opinion en fonction du marquage de ce terme par les annotateurs. Une étude est ensuite menée pour mesurer la généricité de la ressource obtenue. Comment formule-t-on une réponse en langue naturelle ?Auteurs : Anne Garcia-fernandez, Sophie Rosset et Anne Vilnat Une présentation sur la génération de langue naturelle dans le cadre d’un système de questions réponses. L’article nous présente la notion d’élément information-réponse et étudie sa position dans un texte généré en langue naturelle. La table ronde : Du TAL au TILAnimée par : Guy Lapalme, Michael Zock, Éric Brunelle et Christian Boitet Ce débat a permis d’introduire la notion de TIL et sa place dans la communauté du TAL. TIL est un acronyme pour “Traitement Intéractif de la Langue”. Contrairement à l’automatique, l’interactif privilégie le contact entre l’humain et la machine. Le but final étant de permettre à la machine d’apprendre grâce à ces échanges. Bien sûr, tout bon système “intelligent” doit permettre à l’utilisateur d’ignorer les requêtes de la machine et doit donc permettre aux algorithmes déployés de fonctionner aussi bien en disposant de beaucoup d’informations en provenance de l’utilisateur qu’avec très peu d’informations. Réécriture de graphes de dépendances pour l’interface syntaxe-sémantiqueAuteurs : Guillaume Bonfante, Bruno Guillaume, Mathieu Morey et Guy Perrier Cette présentation concernait le passage de textes écrit en langage naturelle vers une représentation formelle et logique de la sémantique de ces derniers. Pour cela, les auteurs nous proposent de passer par une analyse syntaxique puis sémantique pour obtenir au final une représentation logique de la sémantique. Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clusteringAuteur : Benoît Trouvilliez (moi ) Il s’agit de l’article que j’ai présenté lors de cette conférence. Il traite de mes travaux sur la fouille d’opinions par clustering. J’y présente différents traitements sémantiques visant à construire une représentation sémantique de la phrase exprimée afin d’en extraire les idées dégagées. Ce travail s’inscrit dans le cadre de l’application Onyme Opinions développée par la société. Mots clefs : conférence Recital, DEFT, RECITAL, TAL, TALN |