Blog Onyme » Conférences

TALN 2014 : Marseille sous le signe de l’innovation en TAL pour les 20 ans de TALN

Benoît TROUVILLIEZ — Tue, 27 May 2014 09:48:49 +0000

Un petit billet pour vous faire part de la tenue prochaine de la conférence TALN, édition 2014. Comme tous les ans depuis 2010, j’y assisterai mais cette édition réserve quelques surprises.

Attention, teasing…

TALN / RECITAL / Ateliers : le cœur de l’évènement

Cette édition très particulière se déroulera à Marseille du 1er au 4 juillet 2014. La conférence RECITAL, destinée à la présentation de travaux de jeunes chercheurs, se tiendra comme habituellement en même temps ainsi que les ateliers DEFT, SemDis, FondamenTAL, TALaf et RLTLN qui auront lieu le premier jour : le mardi 1er juillet.

Mais alors quoi d’inhabituel / d’exceptionnel? Marseille est la ville d’origine de la conférence où se sont déroulés les trois premières éditions de 1994 à 1996 : il y a donc tout juste 20 ans cette année!!

Après ce bref moment historique, revenons au cœur du contenu de la présente édition de la conférence : 46 articles ont d’ores et déjà été acceptés (on en attend d’autres) dont 34 articles longs à TALN, 6 présentations orales à RECITAL et 6 présentations posters à RECITAL.

Voici comme tous les ans ma petite pré-liste personnelle d’articles choisis (même s’il est difficile d’avoir un choix très arrêté uniquement en connaissant le titre ) :

Quoc-Khanh Do, Alexandre Allauzen and François Yvon. Modèles de langue neuronaux: une comparaison de plusieurs stratégies d’apprentissage
Maud Pironneau, Éric Brunelle and Simon Charest. Correction automatique par résolution d’anaphores pronominales
Iris Eshkol, Isabelle Tellier, Yoann Dupont and Ilaine Wang. Peut-on bien chunker avec de mauvaises étiquettes POS ?
Morgane Marchand, Olivier Mesnard, Romaric Besançon and Anne Vilnat. Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d’opinion au niveau du texte
Marion Baranes and Benoît Sagot. Normalisation de textes par analogie: le cas des mots inconnus

Et le lien vers la liste intégrale des articles acceptés.

Le salon de l’innovation en TAL : le grand évènement des 20 ans de TALN

En plus des activités habituelles se tiendra cette année le salon de l’innovation en TAL le vendredi 4 juillet. Ce salon, dont les frais d’accès sont compris dans les frais d’inscription à TALN, se tiendra en marge de la conférence pour célébrer l’anniversaire de la conférence en réunissant lors de cette journée tous les acteurs de l’innovation en TAL, des domaines privés et publics en France.

L’occasion de rencontrer et d’échanger avec d’autres acteurs du TAL sur les enjeux, les défis, les opportunités, … que constitue le traitement automatique des langues dans les logiciels d’aujourd’hui et de demain.

Toujours plus loin, toujours plus grand, toujours plus profond,…

Afin de marquer encore davantage l’évènement des 20 ans de TALN et parce qu’une conférence ne saurait être réussie sans une activité de loisir, une sortie plongée est organisée pour les amateurs de ce sport.

De la plongée baptême accompagné d’un moniteur à celle autonome pour les expérimentés : tout a été prévu. Vous pourrez donc y participer si cela vous tente à la double condition de payer un supplément (et oui ce n’est pas compris dans le prix de la conférence) et d’arriver une journée avant puisque l’excursion est prévue pour le lundi 30 juin après midi.

Un moment fun et inoubliable en perspective!

Un dernier mot?

Les inscriptions sont déjà ouvertes et comme d’habitude un tarif préférentiel s’applique pour ceux qui s’inscrivent tôt (avant le 6 juin). Ne tardez donc pas si le TAL et l’innovation dans ce secteur vous intéressent. Toutes les informations utiles et le formulaire d’inscription sont sur le site de la conférence.

Si vous souhaitez faire de la plongée, vous devez également procéder à une inscription séparée et ce au plus vite car les places sont limitées : http://www.taln2014.org/site/activite-sociale/

Si vous le souhaitez, vous pouvez également lire (ou relire) les billets concernant les éditions précédentes de la conférence :

Je vous dis donc à très bientôt à Marseille pour les 20 ans de TALN
et n’hésitez pas à nous suivre durant l’évènement sur Twitter
@Onyme_fr et @trouvilliez

TALN 2013 : Les Sables d’Olonne

Benoît TROUVILLIEZ — Fri, 29 Mar 2013 08:16:24 +0000

Un petit billet court pour vous faire part de la tenue prochaine de la conférence TALN, édition 2013.

Cette édition se déroulera aux Sables d’Olonne du 17 au 21 juin 2013. La conférence RECITAL, destinée à la présentation de travaux de jeunes chercheurs, se tiendra comme habituellement en même temps. Toutes les informations sont sur le site de la conférence

La première liste d’articles est déjà publiée (le contenu des articles n’est pas encore disponible) : les articles longs TALN 2013. Une petite liste personnelle d’articles choisis parmi eux :

Isabelle Tellier and Yoann Dupont. Apprentissage symbolique et statistique pour le chunking : comparaison et combinaisons
Quentin Pradet, Jeanne Baguenier-Desormeaux, Gaël de Chalendar and Laurence Danlos. WoNeF : amélioration, extension et évaluation d’une traduction française automatique de WordNet
Nicolas Hernandez and Florian Boudin. Construction automatique d’un large corpus libre annoté morpho-syntaxiquement en français
Anca-Roxana Simon, Guillaume Gravier and Pascale Sébillot. Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique
Franck Sajous, Nabil Hathout and Basilio Calderone. GLÀFF, un Gros Lexique À tout Faire du Français
Wei Wang, Romaric Besançon, Olivier Ferret and Brigitte Grau. Regroupement sémantique de relations pour l’extraction d’information non supervisée

L’ouverture des inscriptions est attendue très prochainement avec comme d’habitude un tarif préférentiel pour ceux qui s’inscrivent tôt.

A suivre les articles courts TALN 2013 et les articles longs et courts RECITAL 2013. Avis aux amateurs de Traitement Automatique des Langues….

Si vous le souhaitez, vous pouvez également lire (ou relire) les billets concernant les éditions précédentes de la conférence :

JEP-TALN 2012 : Retour sur la conférence de Grenoble

Benoît TROUVILLIEZ — Tue, 19 Jun 2012 08:14:19 +0000

Introduction

Comme je l’avais annoncé dans le blog en Avril, l’édition 2012 de la conférence TALN – RECITAL s’est déroulée à Grenoble du 04 au 08 Juin. Cette année était pourtant particulière… Je vous propose un petit tour d’horizon sur cette conférence.

Sommaire

JEP-TALN, c’est quoi?
Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF
Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d’un mot inconnu
The Origin and Distribution of Complexity of Phonological Structure
Plus?

JEP-TALN, c’est quoi?

JEP-TALN (raccourci de JEP-TALN-RECITAL), ce sont deux conférences qui se déroulent sur le même lieu et en même temps tous les 4 ans. Si elles ont chacune une histoire qui leur est propre, les conférences se rejoignent sur la volonté de traiter du langage naturel.

TALN-RECITAL

TALN (Traitement Automatique du Langage Naturel) – RECITAL (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues)

Elle est organisée tous les ans sous l’égide de l’ATALA (Association pour le Traitement Automatique des Langues). J’ai eu l’occasion d’assister aux deux précédentes éditions qui se sont tenues à Montréal et Montpellier en 2010 et 2011. Le domaine de la conférence est l’étude et le traitement automatique du langage naturel dans son ensemble. Cependant, le traitement du langage naturel sous sa forme “écrite” est bien souvent sur représenté par rapport aux autres styles de canaux utilisés par le langage naturel tel que les canaux oraux ou gestuels.

JEP

JEP (Journées d’Études sur la Parole)

Elle est organisée tous les deux ans sous l’égide de l’AFCP (Association Francophone de la Communication Parlée). Le domaine de la conférence se situe sur l’étude et le traitement de la langue parlée (la parole).

JEP-TALN-RECITAL

Lorsque l’on réunit les deux conférences, cela donne une grande conférence sur le traitement de la langue aussi bien écrite que parlée organisée sous l’égide des deux associations tous les 4 ans : JEP-TALN.

Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF

Auteur : Vincent Claveau
Conférence : TALN, pp 85-98
PDF / Bibtex

Ce premier exposé est une prise de position dans le domaine de la recherche d’informations. C’est un papier de la conférence TALN mais qui a été présenté lors de la session commune du mardi matin. Je l’ai trouvé particulièrement intéressant car il reprend les grandes méthodes utilisées fréquemment dans le domaine et les comparent à des méthodes plus récentes en s’interrogeant sur la pertinence des anciennes méthodes par rapport aux anciennes. J’ai particulièrement apprécié la mise en compétition de la très célèbre pondération TF-IDF avec des méthodes telles que l’Okapi BM-25. L’auteur est en tous cas clairement en faveur de l’Okapi qu’il juge comme “un TF-IDF amélioré“.

Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d’un mot inconnu

Auteur : Marion Baranes
Conférence : RECITAL, pp 95-108
PDF / Bibtex

Cet exposé d’un travail de thèse aborde le problème de la détermination de la langue des mots d’un texte. Cette détermination s’effectue dans le cadre (et dans le but) d’une correction orthographique. Si certains correcteurs sont capables de détecter la langue globale d’un texte, il est beaucoup plus rare qu’ils s’intéressent à la langue de chaque mot. Pourtant comment traiter correctement des mots anglais si on les prend pour des mots français sous le prétexte que la majorité du texte est dans cette langue? Le travail présenté ici vise donc à repérer dans des textes français des mots anglais afin de ne pas proposer une correction erronée de ces mots. L’un des buts futurs de la thèse est d’étendre les travaux à d’autres langues. Une soumission en perspective à RECITAL 2013?

The Origin and Distribution of Complexity of Phonological Structure

Auteur : Ian Maddieson
Conférence : Invités, pp 7-7
PDF / Bibtex

Un exposé invité dans le domaine de la parole. A l’origine prévu en anglais (l’auteur étant anglophone, d’origine américaine), l’exposé a finalement été réalisé en français!! Je tiens du coup à souligner cet effort réalisé par l’auteur qui a par ailleurs une assez bonne maîtrise du français parlé. L’auteur nous a présenté dans un premier temps, ce qu’il faut entendre par complexité de la phonologie d’une langue et surtout les différents critères permettant de l’apprécier. Par exemple, le nombre de consonances, le nombre de voyelles ou encore les tonalités, sont autant de critères allant dans ce sens. Si l’on pourrait penser de prime abord que toutes les langues parlées ont la même complexité, il n’en ai finalement rien. On observe au contraire des complexités différentes d’une langue à l’autre et surtout des différences dans les différents critères énoncés pour juger de cette complexité. Une théorie intéressante qui nous a été présentée repose sur l’idée qu’il existe un lien entre les caractéristiques phonologiques d’une langue et le milieu naturel dans lequel elle est utilisée. Ainsi, il existerait une correspondance entre les caractéristiques des langues parlées et le fait que le milieu soit dégagé, montagneux, arboré,…

Plus?

Je ne fais malheureusement ici qu’un très (trop?) rapide tour d’horizon des nombreux exposés dont j’aurais pu parler. Si vous êtes intéressés pour en savoir davantage, la conférence met à disposition en ligne les actes de la conférences. N’hésitez donc pas…

Les ressources sont déjà disponibles en ligne :

TALN 2012 : Grenoble

Benoît TROUVILLIEZ — Wed, 18 Apr 2012 07:15:15 +0000

Un petit billet court pour vous faire part de la tenue prochaine de la conférence TALN, édition 2012.

Cette édition se déroulera à Grenoble du 4 au 8 juin 2012. Les inscriptions sont ouvertes et un tarif préférentiel d’inscription est proposé jusqu’au 1er mai : site de la conférence

Si le Traitement Automatique des Langues vous intéresse, c’est une conférence à ne pas manquer!!

Edit : La conférence est passée!! Si vous l’avez manquée, vous pouvez encore lire le petit retour que j’ai rédigée.

Ateliers 2011 sur les Terminologies et l’Intelligence Artificielle (TIA) – la Perspective Lemon

Benoît TROUVILLIEZ — Mon, 05 Mar 2012 11:55:57 +0000

Introduction

Ce nouvel article a pour but de vous faire partager un peu plus mon expérience sur les ateliers (workshops) de la conférence TIA, édition 2011 auxquels j’ai pu assister début novembre 2011 à Paris. Il s’agit de la suite d’un premier billet publié en fin d’année dernière.

TIA

J’ai présenté en détails la conférence dans le premier billet. Je vous invite donc à vous y reporter.

Ontology Lexicalisation : The lemon Perspective

Auteurs : Paul Buitelaar et al
pdf/bib

Comme promis lors du premier billet, je vous présente aujourd’hui la perspective lemon. Lemon est ici un acronyme pour LExical Model for ONtologies (modèle lexical pour des ontologies) dont nous allons voir l’intérêt dans deux cas d’utilisation présentés dans le papier.

Qu’est ce qu’une ontologie?
Pour comprendre l’intérêt rappelons d’abord ce qu’est une ontologie dans le sens où on l’entend ici. Il s’agit de manière générale d’une ressource permettant la description d’un domaine au travers de ses concepts et des liens existants entre eux. L’auteur prend l’exemple d’une ontologie basée sur le domaine du tourisme et décrivant par conséquent (et entre autres) les monuments historiques et les œuvres d’art. Si vous voulez entrer un peu plus dans les détails de ce qu’est une ontologie, vous pouvez consulter cet autre billet du blog.

Le problème de l’extraction d’informations à partir de textes
Le premier problème posé suppose alors qu’il faille extraire des informations pertinentes de textes par rapport à un domaine décrit par une ontologie. L’auteur nous montre alors que ce problème n’est simple à résoudre qu’à la condition que l’ontologie emploie les même termes que le texte. Dans son exemple, l’ontologie décrit les monuments historiques en tant qu’”édifice historique”. Par conséquent, un texte commençant par “l’édifice historique de l’université de Barcelone….” sera aisément reconnu comme pertinent. Par contre, si le texte mentionne “l’édifice reconnu monument historique national…”, la pertinence est de ce fait moins triviale.

Le problème de la recherche d’informations dans l’ontologie et la gestion du multilinguisme
Le deuxième problème posé concerne l’interrogation de la connaissance enregistrée dans l’ontologie en langage naturel. Un exemple est alors pris sur l’ontologie par une requête simple : “Qui a peint Mona Lisa?”. Encore une fois, si l’ontologie décrit pour les peintures la notion de peindre, cette requête ne présente (à priori) pas de difficultés particulières sous condition qu’elle décrive bien l’œuvre “Mona Lisa” et pas “La Joconde”. Mais dans le cas où l’ontologie comporte uniquement la description des artistes pour chaque œuvre, cela suppose d’être capable d’établir un lien entre l’action de peindre et la notion d’artiste… Cette deuxième problématique introduit également des réflexions concernant la gestion du multilinguisme. Que la question soit posée dans n’importe quelle langue, l’élément de réponse est invariant (seule la manière de l’exprimer va changer). La gestion du multilinguisme n’est cependant pas triviale si on ne dispose pas d’informations concernant les liens existants entre peint, painted, pinto’,…

La perspective lemon
En quoi le lemon va alors nous aider? Le but est de créer un lien entre les ontologies (comme celle prise en exemple auparavant) et des ressources lexicales. Typiquement, chaque entité (ou concepts) de l’ontologie est mappé sur les sens lexicaux permettant la réalisation du concept ontologique. Dans l’exemple des artistes de l’ontologie du tourisme, l’entité artiste peut ainsi mappée sur sur le sens lexical “qui réalise une œuvre d’art”. Ce sens lexical trouve sa réalisation dans des entrées lexicales comme par exemple l’entrée “peintre” qui elle même est réalisée au travers de formes lexicales comme “peintre” ou “peintres”. Il est alors possible d’établir des liens entre les différents sens lexicaux.

Cela me fait penser à quelque chose…
Si vous avez déjà lu des billets dans le blog (et particulièrement ceux traitant de Wordnet et de lemmatisation), ces notions doivent vous donner une impression de déjà vu. Cela est normal puisque Wordnet est une ressource lexicale gérant des entrées et des sens lexicaux mais dans un contexte généraliste. Ici, le but est d’obtenir une ressource semblable à wordnet sur ces points mais spécifique au domaine traité par l’ontologie et plus spécifiquement à l’ontologie elle même. L’ajout de la notion des formes lexicales relate aux travaux de lemmatisation que nous avons également étudié auparavant.

GWC 2012 : Conférence sur les Wordnets à Matsue au Japon…

Benoît TROUVILLIEZ — Mon, 13 Feb 2012 10:42:20 +0000

Introduction

Un petit billet pour vous faire un retour d’expérience de la conférence GWC 2012 à laquelle j’ai pu participer en ce début d’année.

La conférence et ma présentation

Citation : Benoît Trouvilliez (2012). Linking specific and generalist knowledge – Building terminological resources from sales catalogues and generalist resources. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Comme je l’avais annoncé en fin d’année dernière, j’ai présenté un article à la conférence GWC, édition 2012, qui s’est déroulée à Matsue au Japon du 9 au 13 janvier 2012. Le but de ce deuxième article est de vous faire un rapide retour sur quelques unes des choses dont j’ai entendu parler là bas et qui ont particulièrement retenues mon attention.

Avant toute chose, une première information statistique : nous n’étions “que” trois projets francophones à présenter nos travaux sur Wordnet à la conférence GWC. Le “que” que j’emploie ici est relatif car bien que ce chiffre soit relativement faible, si l’on prend en compte la distance à parcourir pour s’y rendre, cela montre au contraire un certain intérêt de la communauté francophone pour Wordnet. En comparaison, seul deux projets japonnais nous ont été présentés alors que nous étions sur place. Cela s’explique en partie par la difficulté d’appliquer le principe de Wordnet sur la langue japonnaise.

Pour ceux qui ne connaissent pas Wordnet, j’ai écris un billet sur ces ressources.

Pourquoi faut-il de nouveaux domaines pour Wordnet?

Citation : Xiaojuan Ma and Christiane Fellbaum (2012). Rethinking WordNet’s Domains. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Cette thématique abordée par les développeurs de Wordnet sous la forme d’une question a retenue particulièrement mon attention par sa correspondance avec un constat que nous avions nous même fait sur les domaines du Wordnet Domains : ils sont assez généralistes, plutôt vagues et de ce fait difficilement exploitables dans un contexte industrielle où l’on chercherait à identifier des thématiques précises.

Le but de l’étude présentée est donc à la fois de montrer ce manque de domaines exploitables à un niveau industrielle mais aussi de donner les premières pistes pour identifier de nouveaux domaines de manière semi automatique dans les synsets de Wordnet. Une piste intéressante concerne l’utilisation de ressources en ligne comme Wikipedia par exemple. A suivre….

Enrichissement automatique du WOLF

Citation : Sagot Benoît et Fišer Darja (2012). Automatic extension of WOLF. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Nous avons déjà eu l’occasion d’aborder cette ressource qu’est le WOrdnet Libre du Français. La conférence GWC a été l’occasion pour l’équipe de l’Inria qui développe ce projet de nous présenter les dernières avancées de cette ressource pour atteindre la version 0.2. A l’heure où j’écris ces lignes cependant, c’est toujours la version 0.1.5 qui est en ligne sur la page officielle.

Cependant, on peut dire que cette présentation comportait de bonnes nouvelles pour les utilisateurs du WOLF. En effet, entre la version 0.1.5 distribuée actuellement et la nouvelle version 0.2, une campagne d’enrichissement de la ressource a été menée. De nouveaux lexèmes ont ainsi été ajoutés automatiquement aux synsets du WOLF. Cela a eu deux impacts notoires sur la ressource :

En premier lieu, un enrichissement des synsets déjà renseignés dans la version 0.1.5. Cet enrichissement ramène le nombre de synsets comportant plusieurs lexèmes à un niveau voisin de celui du wordnet anglais.
En second lieu, une augmentation du nombre de synsets non vides (et donc une diminution des synsets vides). Cela laisse à présager une meilleure finesse de la ressource obtenue puisque plus de sens sont ainsi exprimés au travers des lexèmes.

Des évolutions qui seront donc à suivre de près…

Le mot de la fin…

Et pour conclure cet article, je vous donne le lien vers les photos de la conférence : Plein d’autres photos

Ateliers 2011 sur les Terminologies et l’Intelligence Artificielle (TIA)

Benoît TROUVILLIEZ — Thu, 15 Dec 2011 08:42:11 +0000

Introduction

Ce nouvel article a pour but de vous faire partager mon expérience sur les ateliers (workshops) de la conférence TIA, édition 2011 auxquels j’ai pu assister début novembre à Paris.

TIA

C’est quoi TIA?
D’abord, c’est quoi TIA? C’est l’acronyme de “Terminologies et Intelligence Artificielle”. C’est une conférence qui a lieu tous les deux ans et a pour thème principal la construction de terminologies pour une application dans le cadre de l’intelligence artificielle.

Terminologie? Intelligence artificielle?
Une terminologie est une ressource visant à fournir des connaissances sur ce que l’on appelle des termes. Les termes étant des mots ou parfois des expressions ayant une sémantique propre par rapport à un domaine. Par exemple, le terme souris dans le domaine informatique n’a pas le même sens que le terme souris du domaine animalier. Dans les travaux récents, la terminologie en plus de s’intéresser à l’étude des domaines s’oriente également vers l’étude des applications particulières dans chacun de ces domaines. D’où le lien entre terminologies et intelligence artificielle…

L’intelligence artificielle (IA) désigne les procédés et algorithmes visant à faire réaliser des traitements “complexes” à un ordinateur, traitements réputés réalisables uniquement par des humains. L’apport des terminologies dans les domaines touchés par l’IA est de ce fait considérable. Plus d’infos sur l’IA et autres termes relatifs sur cette page du blog.

Où et quand cela a t-il eu lieu?
La conférence TIA, édition 2011, s’est déroulée à Paris du 8 au 10 novembre. Le workshop auquel j’ai assisté et dont je parle ici s’est déroulé le 10 novembre toute la journée au pôle des langues et civilisations de l’INALCO situé au 65 rue des Grands Moulins à Paris.

Quel est le but de cet article?
Le but n’est pas de vous faire un compte rendu de ce qui a été dit lors du workshop mais uniquement de vous faire partager quelques remarques concernant l’analyse d’opinions.

Où peut on trouver des informations supplémentaires sur l’événement?
Sur le site de l’édition de la conférence. Si vous vous intéressez plus particulièrement aux ateliers, vous pouvez télécharger les proceedings des ateliers.

Construction d’un lexique translingue de sentiments à base de ressources existantes

Auteur : Meng Sun
pdf / bib

Comment construire une ressource pour une langue lorsqu’on en possède dans d’autres langues?
J’ai trouvé cet exposé intéressant car il présentait une application de la transcription de ressources lexicales d’une langue source vers une langue cible à une ressource cherchant à décrire les sentiments comme par exemple le sentiWordnet.

Les deux approches par traduction et par alignement ont été abordées. J’avais déjà eu l’occasion de voir le couplage de ces deux techniques auparavant pour construire une ressource dans une langue cible existante déjà dans une langue source autre que celle désirée. C’était à l’occasion de mes études sur les adaptions du Wordnet de Princeton au français. Le WOLF a été construit dans cette même logique.

Subjectivité et sentiments : l’éclairage de la sémantique de corpus

Auteurs : Évelyne Bourion et Jugurtha Aït-Hamlat
pdf / bib

C’est quoi une sémantique de corpus?
Avant de nous intéresser au contenu de l’exposé, faisons d’abord un détour du côté des différentes sémantiques existantes. Lorsque l’on parle de sémantique, nous pouvons en fait désigner :

la sémantique des mots : Que veut dire tel mot? Le but est de comprendre le sens des mots selon leur contexte dans la phrase (contexte phrastique).
la sémantique des textes : Que veut dire tel texte? On cherche à comprendre le sens au niveau des textes en eu mêmes.
la sémantique de corpus : Que veut dire tel corpus de textes? Le but est de comprendre le sens au niveau du corpus de textes.

Et quel est l’éclairage de la sémantique de corpus pour les sentiments?
Revenons à l’exposé présenté lors du workshop. L’accent a été mis sur l’apport de la sémantique de corpus par rapport à la problématique de subjectivité des sentiments exprimés par un mot.
La question que l’on est alors amenée à se poser est est ce que le corpus joue un rôle sur les sentiments exprimés par un mot et sur la subjectivité de la perception de ce sentiment.

Prenons un exemple pour clarifier la chose. Si l’on prend le mot ‘toujours’, exprime t-il un sentiment? La plupart des personnes diront certainement non car la sémantique du mot ‘toujours’ ne lui prête guère un sens exprimant un sentiment. Si l’on prend maintenant ce mot dans le contexte d’une phrase (contexte phrastique) tel que celui de la phrase “je suis toujours dépendant des drogues”, plus de personnes lui prêteront un sentiment négatif de par le contexte de la phrase dans lequel il est exprimé. Enfin, si l’on prend un corpus de textes exclusivement consacré aux addictions, où le mot toujours n’apparaît que pour désigner “une dépendance de longue durée”, beaucoup de personnes lui prêteront dans ce cas un sentiment négatif.

Cette réflexion laisse à penser que les sentiments exprimés (ou ressentis exprimés) par les mots ne sont pas dépendant tant du mot lui même que du contexte dans lequel nous le percevons. C’est là l’éclairage de la sémantique de corpus…

Et après?

Dans un article ultérieur, nous nous intéresserons à d’autres exposés tel que ceux consacrés aux LEMON (LExical Model for ONtologies).

GWC 2012 : Onyme présente un article sur l’enrichissement de connaissances spécifiques par des ressources généralistes

Benoît TROUVILLIEZ — Mon, 21 Nov 2011 08:54:46 +0000

Introduction

Après un article sur la fouille d’opinions, présenté l’année dernière à la conférence RECITAL à Montréal (Canada), je présente en début d’année prochaine, un second article scientifique (et premier en conférence internationale). Cet article est présenté dans le cadre de la conférence GWC, édition 2012 qui se déroulera à Matsue (Japon). Quelques détails en avant première…

L’auteur

Qui es tu?
Benoît Trouvilliez. J’ai 25 ans et je suis en troisième année de doctorat en contrat Cifre avec la société Onyme et le Centre de Recherche en Informatique de Lens (CRIL). Mon sujet de recherche et de thèse porte sur le traitement automatique des langues (TAL).

L’article

Dans ce cadre, j’ai réalisé des travaux sur l’enrichissement de connaissances spécifiques à un domaine particulier par des ressources généralistes.

C’est quoi ton but?
Le problème initial repose sur le besoin d’interroger un catalogue de produits (se présentant sous la forme d’une base de données) avec des requêtes en langage naturel afin de récupérer les enregistrements (donc les produits) correspondants à une demande précise.

Un exemple?
“Je veux un canapé en cuir de vachette noir” doit me renvoyer les enregistrements du catalogue correspondant à des “canapés” et possédant les deux caractéristiques d’être “noirs” et d’être en “cuir de vachette”.

Mais où est ce que tu as vu un problème au juste?
A première vue, il ne semble n’y avoir aucun problème. Il “suffit” d’identifier dans la requête le terme correspondant au type de produit (un canapé, une lampe, un lit,…) et les termes correspondant à des caractéristiques connues sur le produit (une couleur pour un canapé par exemple)…

Là où les choses se compliquent, c’est quand il n’y a plus de correspondances exactes entre les termes employés dans le catalogue et la demande exprimée. Imaginons à présent la demande “Je veux un drap de bain” et que le catalogue contient des “draps de lits” et des “serviettes”. La démarche donnée précédemment va renvoyer les enregistrements correspondants aux “draps de lits” à cause de la présence de “draps” alors que l’on veut des “serviettes”. Pas top au final cette solution…

Et elle consiste en quoi ta solution?
L’enrichissement des catalogues par des ressources généralistes permet de résoudre ce problème en acquérant la connaissance que les draps de bain sont des serviettes et que c’est donc ce type de produit qui est ici demandé. Dans cet article, je présente une solution s’appuyant sur des ressources linguistiques généralistes, appelées “wordnets”, développées pour plus de 70 langues à travers le monde et listées par la Global Wordnet Association (GWA). Cela me permet de rendre ma solution exploitable dans de nombreuses langues même si son application première est sur le français.

La conférence

C’est à quelle conférence qu’on peut voir cela?
La conférence GWC, édition 2012, qui se déroulera à Matsue au Japon. Elle se tiendra du 9 au 13 janvier 2012. Les inscriptions sont déjà ouvertes!!!

Jamais entendu parler de cette conférence. De quoi s’agit il?
GWC (Global Wordnet Conference) est une conférence internationale qui a lieu tous les deux ans et qui a pour thème les “wordnets” et les travaux qui peuvent être réalisés avec ou sur eux. La conférence est d’ailleurs soutenue par la GWA (Global Wordnet Association). L’édition 2012 est la 6ème édition de cette conférence.

Edit :
Le programme de la conférence est maintenant disponible sur le site web. Je présente mon article le vendredi 13 à partir de 9h30.

TALN / Recital / DEFT 2010 : Quand le TAL s’invite à Montréal

Benoît TROUVILLIEZ — Thu, 26 Aug 2010 06:46:32 +0000

Introduction

Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en contenu.

Déroulement des conférences

Les trois conférences se sont déroulées en deux temps principaux :

Du 19 au 22, les journées ont été consacrées aux conférences TALN et Recital dont les différentes présentations étaient mélangées. Souvent, les présentations Recital étaient soit placées en début de séance, soit en fin. Chaque séance durait en moyenne deux heures avec une pause entre chacune.
La journée du 23 fut consacrée à la conférence DEFT seule. La tâche “Défi Fouille de Texte” de cette année était consacrée à l’annotation de textes issus de journaux. Ces annotations étaient temporelles (décennie de publication de l’article) et géographiques (pays de publication et nom du journal).

Les thèmes abordés

Beaucoup de thèmes différents du TAL ont été abordés. Parmi ceux qui ont le plus de succès (et qui m’ont le plus intéressés) :

La fouille d’opinions
La correction automatique (orthographique et syntaxique)
Analyse morpho-syntaxique et syntaxique
Traduction automatique et résumés de textes
Extraction de textes (entitées nommées, indices temporelles, détermination de l’auteur)
Intéraction entre le TAL et le TIL

Quelques présentations….

Parmi les présentations qui nous ont été faites, quelques unes m’ont plus intéressées que les autres, en partie par leur adéquation avec mon sujet de recherche. Je vais donc ici vous présenter brièvement ces articles ainsi que les points qui ont retenu mon attention et vous invite à les lire pour avoir plus de précisions.

Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues

Auteur : Holger Schwenk

Cette présentation concernait la traduction automatique statistique. Dans ce domaine, le plus important est de disposer de corpus de textes dans la langue en question qui soient suffisamment conséquents. Pour y parvenir, l’auteur a utilisé un site internet spécialisé dans la capitalisation de données linguistiques : le Linguistic Data Consortium (LDC) qui capitalise des données linguistiques dans de multiples langues dont le français.

Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français

Auteurs : Pascal Denis et Benoit Sagot

Développé par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut concurrent de TreeTagger mais en libre. D’après leur papier, ils sont au moins aussi bon que TreeTagger et même meilleur dans certains cas (les mots inconnus dans le lexique semblent mieux traités par MElt que par TreeTagger (91% de réussite pour MElt contre 75% pour TreeTagger)). Le formalisme utilisé par MElt pour effectuer le POS Tagging a par ailleurs été retenu pour le modèle pré-entrainé français (fremalt) de l’analyseur syntaxique Malt Parser (Attention à ne pas confondre Malt et MElt).

Une approche hybride traduction/correction pour la normalisation des SMS

Auteurs : Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon et Cédrick Fairon

Présentation intéressante montrant une méthode pour redresser un texte écrit en langage SMS au moyen d’un algorithme d’apprentissage. Cette algorithme procède lors de sa phase d’apprentissage par alignement entre un texte écrit en langage SMS et son homologue écrit dans un français tout à fait correct. Cette approche par apprentissage pour effectuer de la correction orthographique est assez intéressante mais elle nécessite de disposer d’un corpus d’alignement assez important pour avoir un modèle robuste en sortie de la phase d’apprentissage.

Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Auteurs : Guillaume Wisniewski, Aurélien Max et François Yvon

Présentation de l’élaboration d’un corpus de fautes d’orthographes / corrections élaboré à partir des révisions de Wikipédia. La démarche de création est assez simple : on doit dans un premier temps distinguer ce que l’on appelle les révisions mineures et les révisions majeures faites sur wikipédia. On pose alors le prédicat qu’une révision mineure est souvent associée à la correction d’une erreur d’orthographe dans le texte. Afin de valider ces considérations, l’étude a consisté à vérifier que les termes écrits dans la révision de départ étaient inconnus tandis que leurs homologues dans la révisions d’arrivée étaient connus.
Ce qui est assez intéressant, c’est que ce travail a donné lieu à la réalisation d’un corpus de corrections orthographiques disponible gratuitement : le Wicopaco. Il est toutefois à noter que ce corpus a été extrait de manière automatique et n’a pas fait l’objet d’une validation manuelle. Il est donc nécessaire de prévoir des imperfections dont les auteurs citent par exemple les spams.

Catégorisation automatique d’adjectifs d’opinion à partir d’une ressource linguistique générique

Auteur : Baptiste Chardon

Présentation d’un travail sur l’extraction d’adjectifs d’opinions à partir de textes de critiques de restaurants. Dans ces textes, les auteurs expriment leurs opinions à l’aide d’adjectifs qualifiant le restaurant. On cherche alors à identifier d’une part la polarité du texte, c’est à dire à déterminer si son auteur est favorable ou non au restaurant qu’il évoque, et à identifier d’autre part, les adjectifs qui expriment cette opinion. Cela est réalisé manuellement par des annotateurs sur un corpus d’entraînement. Leur travail est ensuite mis en commun afin d’extraire les points d’accord qui serviront de données à l’algorithme d’apprentissage. Celui-ci va alors, pour chaque terme étiqueté, attribuer une polarité d’opinion en fonction du marquage de ce terme par les annotateurs. Une étude est ensuite menée pour mesurer la généricité de la ressource obtenue.

Comment formule-t-on une réponse en langue naturelle ?

Auteurs : Anne Garcia-fernandez, Sophie Rosset et Anne Vilnat

Une présentation sur la génération de langue naturelle dans le cadre d’un système de questions réponses. L’article nous présente la notion d’élément information-réponse et étudie sa position dans un texte généré en langue naturelle.

La table ronde : Du TAL au TIL

Animée par : Guy Lapalme, Michael Zock, Éric Brunelle et Christian Boitet

Ce débat a permis d’introduire la notion de TIL et sa place dans la communauté du TAL. TIL est un acronyme pour “Traitement Intéractif de la Langue”. Contrairement à l’automatique, l’interactif privilégie le contact entre l’humain et la machine. Le but final étant de permettre à la machine d’apprendre grâce à ces échanges. Bien sûr, tout bon système “intelligent” doit permettre à l’utilisateur d’ignorer les requêtes de la machine et doit donc permettre aux algorithmes déployés de fonctionner aussi bien en disposant de beaucoup d’informations en provenance de l’utilisateur qu’avec très peu d’informations.
En cela, les systèmes de TAL et de TIL sont complémentaires : le TIL permet d’offrir la possibilité au traitement assisté par ordinateur de bénéficier de l’apport de l’interaction homme / machine tandis que le TAL apporte au système sa capacité à s’adapter au manque d’informations dans le cadre d’un refus d’interaction tout en étant capable de garantir le meilleur résultat possible dans ces conditions.

Réécriture de graphes de dépendances pour l’interface syntaxe-sémantique

Auteurs : Guillaume Bonfante, Bruno Guillaume, Mathieu Morey et Guy Perrier

Cette présentation concernait le passage de textes écrit en langage naturelle vers une représentation formelle et logique de la sémantique de ces derniers. Pour cela, les auteurs nous proposent de passer par une analyse syntaxique puis sémantique pour obtenir au final une représentation logique de la sémantique.

Représentation vectorielle de textes courts d’opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering

Auteur : Benoît Trouvilliez (moi )

Il s’agit de l’article que j’ai présenté lors de cette conférence. Il traite de mes travaux sur la fouille d’opinions par clustering. J’y présente différents traitements sémantiques visant à construire une représentation sémantique de la phrase exprimée afin d’en extraire les idées dégagées. Ce travail s’inscrit dans le cadre de l’application Onyme Opinions développée par la société.

Recital 2010 : Onyme présente un article sur la fouille d’opinions

Benoît TROUVILLIEZ — Tue, 15 Jun 2010 08:12:41 +0000

Introduction

Cet article inaugure la catégorie “Conférences” du blog par la présentation de la conférence Recital 2010 à laquelle la société va participer à travers mon article “Représentation vectorielle de textes courts d’Opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering” accepté au format poster.

Présentation de l’auteur et de l’article

Présentation de l’auteur

Avant de vous parler de la conférence, je vais d’abord vous parler de l’auteur (donc de moi) et de mon article.

Je m’appelle Benoît Trouvilliez, j’ai 23 ans et je suis en première année de doctorat en contrat Cifre avec la société Onyme et le Centre de Recherche en Informatique de Lens (CRIL). Mon sujet de recherche et de thèse porte sur le traitement automatique des langues (TAL) et plus précisément sur l’analyse et l’amélioration du moteur d’analyse sémantique d’Onyme par clustering.

Si vous désirez plus d’informations sur ce qu’est l’analyse sémantique, le traitement automatique des langues ou le clustering, vous pouvez vous rendre sur ce billet du blog que j’ai rédigé précédemment.

Dans ce cadre, j’ai été amené à rédiger un article scientifique concernant mes travaux que j’ai soumis à la conférence Recital 2010 qui l’a accepté sous un format poster.

Présentation de l’article

Mon article a pour titre “Représentation vectorielle de textes courts d’Opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering”. Il porte sur la représentation de textes courts d’opinions sur des sujets variés comme les valeurs d’une entreprise, les prestations d’un commerçant ou la pertinence d’un site internet. L’étude a été réalisée principalement dans le contexte de la solution d’analyse d’Opinions et de la satisfaction client d’Onyme.

Un court résumé de cet article est déjà disponible sur le site de la conférence Recital 2010 dans la liste des articles acceptés en tant que poster. La publication complète de l’article sera faite sur ce même site peu après la conférence.

Edit : Mon article est à présent consultable via ce lien direct.

Lors de la conférence, mon article sera présenté sous la forme d’un poster. Un créneau horaire est habituellement réservé durant la conférence pour permettre les échanges entre les visiteurs et les auteurs de posters.

Présentation de la conférence

La conférence Recital (Lien vers l’édition 2010) (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues) est comme son nom complet l’indique une conférence qui s’adresse aux étudiants chercheurs dans le domaine du TAL. Elle est donc l’occasion d’échanges et de publications pour les doctorants et les jeunes chercheurs (ayant obtenus leur doctorat depuis moins d’un an) dans ce domaine. Elle est organisée tous les ans dans un pays francophone sous l’égide de l’ATALA (Association pour le Traitement Automatique des LAngues) conjointement avec la conférence TALN (Traitement Automatique des Langues Naturelles) (Lien vers l’édition 2010) qui s’adresse principalement aux chercheurs expérimentés.

L’ensemble des liens vers les éditions précédentes des deux conférences sont disponibles sur le site de l’ATALA.

L’édition 2010 de TALN et Recital

L’édition 2010 des deux conférences aura lieu à Montréal au Canada du 19 au 22 Juillet 2010. Les inscriptions se font via le site officiel d’une de ces deux conférences ou via ce lien direct. Les deux conférences étant jumelées, l’inscription s’effectue pour les deux en même temps.

Si vous êtes au Canada du côté de Montréal cet été, n’hésitez donc pas à vous inscrire et à venir me rencontrer durant cette conférence.