Par: Benoît TROUVILLIEZ

Introduction

Après un article sur la fouille d’opinions, présenté l’année dernière à la conférence RECITAL à Montréal (Canada), je présente en début d’année prochaine, un second article scientifique (et premier en conférence internationale). Cet article est présenté dans le cadre de la conférence GWC, édition 2012 qui se déroulera à Matsue (Japon). Quelques détails en avant première…

L’auteur

Qui es tu?
Benoît Trouvilliez. J’ai 25 ans et je suis en troisième année de doctorat en contrat Cifre avec la société Onyme et le Centre de Recherche en Informatique de Lens (CRIL). Mon sujet de recherche et de thèse porte sur le traitement automatique des langues (TAL).

L’article

Dans ce cadre, j’ai réalisé des travaux sur l’enrichissement de connaissances spécifiques à un domaine particulier par des ressources généralistes.

C’est quoi ton but?
Le problème initial repose sur le besoin d’interroger un catalogue de produits (se présentant sous la forme d’une base de données) avec des requêtes en langage naturel afin de récupérer les enregistrements (donc les produits) correspondants à une demande précise.

Un exemple?
“Je veux un canapé en cuir de vachette noir” doit me renvoyer les enregistrements du catalogue correspondant à des “canapés” et possédant les deux caractéristiques d’être “noirs” et d’être en “cuir de vachette”.

Mais où est ce que tu as vu un problème au juste?
A première vue, il ne semble n’y avoir aucun problème. Il “suffit” d’identifier dans la requête le terme correspondant au type de produit (un canapé, une lampe, un lit,…) et les termes correspondant à des caractéristiques connues sur le produit (une couleur pour un canapé par exemple)…

Là où les choses se compliquent, c’est quand il n’y a plus de correspondances exactes entre les termes employés dans le catalogue et la demande exprimée. Imaginons à présent la demande “Je veux un drap de bain” et que le catalogue contient des “draps de lits” et des “serviettes”. La démarche donnée précédemment va renvoyer les enregistrements correspondants aux “draps de lits” à cause de la présence de “draps” alors que l’on veut des “serviettes”. Pas top au final cette solution…

Et elle consiste en quoi ta solution?
L’enrichissement des catalogues par des ressources généralistes permet de résoudre ce problème en acquérant la connaissance que les draps de bain sont des serviettes et que c’est donc ce type de produit qui est ici demandé. Dans cet article, je présente une solution s’appuyant sur des ressources linguistiques généralistes, appelées “wordnets”, développées pour plus de 70 langues à travers le monde et listées par la Global Wordnet Association (GWA). Cela me permet de rendre ma solution exploitable dans de nombreuses langues même si son application première est sur le français.

La conférence

C’est à quelle conférence qu’on peut voir cela?
La conférence GWC, édition 2012, qui se déroulera à Matsue au Japon. Elle se tiendra du 9 au 13 janvier 2012. Les inscriptions sont déjà ouvertes!!!

Jamais entendu parler de cette conférence. De quoi s’agit il?
GWC (Global Wordnet Conference) est une conférence internationale qui a lieu tous les deux ans et qui a pour thème les “wordnets” et les travaux qui peuvent être réalisés avec ou sur eux. La conférence est d’ailleurs soutenue par la GWA (Global Wordnet Association). L’édition 2012 est la 6ème édition de cette conférence.

Edit :
Le programme de la conférence est maintenant disponible sur le site web. Je présente mon article le vendredi 13 à partir de 9h30.

Mots clefs : , , , , , , , ,