Par: Benoît TROUVILLIEZ

Introduction

Un petit billet pour vous faire un retour d’expérience de la conférence GWC 2012 à laquelle j’ai pu participer en ce début d’année.

La conférence et ma présentation

Citation : Benoît Trouvilliez (2012). Linking specific and generalist knowledge – Building terminological resources from sales catalogues and generalist resources. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Comme je l’avais annoncé en fin d’année dernière, j’ai présenté un article à la conférence GWC, édition 2012, qui s’est déroulée à Matsue au Japon du 9 au 13 janvier 2012. Le but de ce deuxième article est de vous faire un rapide retour sur quelques unes des choses dont j’ai entendu parler là bas et qui ont particulièrement retenues mon attention.

Avant toute chose, une première information statistique : nous n’étions “que” trois projets francophones à présenter nos travaux sur Wordnet à la conférence GWC. Le “que” que j’emploie ici est relatif car bien que ce chiffre soit relativement faible, si l’on prend en compte la distance à parcourir pour s’y rendre, cela montre au contraire un certain intérêt de la communauté francophone pour Wordnet. En comparaison, seul deux projets japonnais nous ont été présentés alors que nous étions sur place. Cela s’explique en partie par la difficulté d’appliquer le principe de Wordnet sur la langue japonnaise.

Pour ceux qui ne connaissent pas Wordnet, j’ai écris un billet sur ces ressources.

Pourquoi faut-il de nouveaux domaines pour Wordnet?

Citation : Xiaojuan Ma and Christiane Fellbaum (2012). Rethinking WordNet’s Domains. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Cette thématique abordée par les développeurs de Wordnet sous la forme d’une question a retenue particulièrement mon attention par sa correspondance avec un constat que nous avions nous même fait sur les domaines du Wordnet Domains : ils sont assez généralistes, plutôt vagues et de ce fait difficilement exploitables dans un contexte industrielle où l’on chercherait à identifier des thématiques précises.

Le but de l’étude présentée est donc à la fois de montrer ce manque de domaines exploitables à un niveau industrielle mais aussi de donner les premières pistes pour identifier de nouveaux domaines de manière semi automatique dans les synsets de Wordnet. Une piste intéressante concerne l’utilisation de ressources en ligne comme Wikipedia par exemple. A suivre….

Enrichissement automatique du WOLF

Citation : Sagot Benoît et Fišer Darja (2012). Automatic extension of WOLF. In Actes de la 6ème Global Wordnet Conference, Matsue, Japon.

Nous avons déjà eu l’occasion d’aborder cette ressource qu’est le WOrdnet Libre du Français. La conférence GWC a été l’occasion pour l’équipe de l’Inria qui développe ce projet de nous présenter les dernières avancées de cette ressource pour atteindre la version 0.2. A l’heure où j’écris ces lignes cependant, c’est toujours la version 0.1.5 qui est en ligne sur la page officielle.

Cependant, on peut dire que cette présentation comportait de bonnes nouvelles pour les utilisateurs du WOLF. En effet, entre la version 0.1.5 distribuée actuellement et la nouvelle version 0.2, une campagne d’enrichissement de la ressource a été menée. De nouveaux lexèmes ont ainsi été ajoutés automatiquement aux synsets du WOLF. Cela a eu deux impacts notoires sur la ressource :

  • En premier lieu, un enrichissement des synsets déjà renseignés dans la version 0.1.5. Cet enrichissement ramène le nombre de synsets comportant plusieurs lexèmes à un niveau voisin de celui du wordnet anglais.
  • En second lieu, une augmentation du nombre de synsets non vides (et donc une diminution des synsets vides). Cela laisse à présager une meilleure finesse de la ressource obtenue puisque plus de sens sont ainsi exprimés au travers des lexèmes.

Des évolutions qui seront donc à suivre de près…

Le mot de la fin…

Et pour conclure cet article, je vous donne le lien vers les photos de la conférence : Plein d’autres photos

Mots clefs : , , , , , , , ,