Par: Benoît TROUVILLIEZ

Cette étude concerne une version obsolète du WOLF. Veuillez vous référer à ce billet du blog pour une étude sur une version plus récente.


Rappel

Le WOLF (Wordnet Libre du Français) est une ontologie développée pour le français par l’Inria.
Cette ontologie est en licence libre et est développé depuis 2008 à partir de la traduction du Wordnet de Princeton, développé pour la langue anglaise.
Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet WOLF.


Format de distribution et explications

Intéressons nous tout d’abord au format de publication de cette ressource.
Le WOLF est publié sous la forme d’un fichier xml que l’on devra parser avec l’API de parsage xml de notre choix (SAX ou DOM) pour obtenir les informations sémantiques désirées.

Ce fichier xml respecte bien sûr une DTD qui est celle utilisée pour le projet Balkanet, projet de construction de wordnets pour les langues des Balkans.

Cette DTD est présentée ci dessous :

<!--ELEMENT WORDNET - - (SYNSET*) -->
<!--ELEMENT SYNSET - - (ID, POS, SYNONYM, ILR*, BCS?, DEF?, USAGE*,DOMAIN?,SUMO*) -->
<!--ELEMENT ID - - (#PCDATA) -->
<!--ELEMENT POS - - (#PCDATA) -->
<!--ELEMENT SYNONYM - - (LITERAL+) -->
<!--ELEMENT ILR - - (TYPE, #PCDATA) -->
<!--ELEMENT BCS - - (#PCDATA) -->
<!--ELEMENT DEF - - (#PCDATA) -->>
<!--ELEMENT USAGE - - (#PCDATA) -->
<!--ELEMENT LITERAL - - (#PCDATA, SENSE) -->
<!--ELEMENT TYPE - - (#PCDATA) -->
<!--ELEMENT SENSE - - (#PCDATA) -->

L’ontologie se compose donc d’un noeud principal : Wordnet ayant pour fils des noeuds Synset.
Chacun de ces noeuds représente une unité de sens pour le français. Ce principe de synsets vient de l’ontologie anglaise Wordnet de Princeton et a été explicité sur la page de présentation des ontologies.
A ce titre, chaque synset se compose :

  • d’un identifiant unique, présent dans sa sous balise ID. Cet identifiant est en fait le même que celui du synset original dans le Wordnet de Princeton.
  • une fonction grammaticale, présente dans la balise POS. Tous les mots composant un synset partagent la même fonction grammaticale.
  • une liste de mots (ou encore lexèmes), présente dans la balise Synonym. Elle représente la liste des mots composants le synset.
  • une liste de liens avec les autres synsets, présente dans la balise ILR. Les identifiants des synsets sont utilisés pour décrire les liens.
  • une note BCS, indiquant l’importance du synset. 1 : très important, 2 : important, 3 : relativement important, vide : peu important.
  • les autres balises indiquent, optionnellement, une définition, des exemples ou encore des renseignements par rapport à la traduction du synset depuis le Wordnet de Princeton.

Tests du WOLF

Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins.
Afin d’avoir une première idée sans avoir à élaborer une stratégie de test complexe, nous avons opté pour une analyse manuelle d’une liste de mots :
- pomme
- salaire
- bagage
- politesse
Cette liste n’est bien sûr pas exhaustive mais constitue l’avantage d’être suffisamment courte pour permettre une analyse manuelle complète.

Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés dans le WOLF :
£ indique la généricité ;
+ signifie la spécificité ;
rien signifie que c’est un synonyme.

Lexème pomme

pomme : pomme, murphy, £ légume à racine, £ légume
pomme : frite, frites, fries, pommes allumettes, pomme, £ pomme/murphy
pomme : pomme de terre, pomme, solanum tuberosum, £ plante grimpante/vigne

Lexème salaire

salaire : salarié, traitement, salaire, rémunération, gaine, £ paiement
salaire : salaire, gaine, £ paiement
salaire : salaire, gaine, £ conséquence (lui même hyponyme de résultat)

Lexème bagage

bagage : colis, bagage, £conteneur/récipient

Lexème politesse

Lexème non trouvé dans le WOLF. Il n’y a donc aucun lien existant.

Analyse

Dans ces différents tests, nous voyons que les résultats obtenus sont pertinents sur certains points mais moins sur d’autres. Ainsi, en terme de généralisation, le WOLF semble relativement pertinent. En fait, seul le lexème pomme semble erroné dans ce domaine. On voit ainsi qu’une pomme est considérée comme un légume. Elle est aussi considérée comme un légume à racines ou comme une plante grimpante. De manière générale, il semble y avoir une confusion entre la pomme (le fruit) et la pomme de terre.
Au niveau du lexème salaire, par contre, on a bien le rapprochement entre avec paiement et avec conséquence dans le contexte de résultat.
Pour un bagage, le WOLF trouve un rapprochement avec un conteneur.

En ce qui concerne les synonymes, il y a également des liens de synonymie intéressants qui ont été trouvés.
On peut par exemple citer, salaire et rémunération ou encore colis et bagage. Mais comme pour les liens de généralisation, des erreurs sont également commises. Comme par exemples, la confusion entre le salaire et le salarié ou les pommes et les pommes de terre.

On doit également noter la présence dans les résultats de mots anglais francisés ou latins.


Conclusions

Le WOLF est une ressource ontologique intéressante sur deux points. Le premier est qu’elle propose un lien direct avec l’ontologie Wordnet de Princeton via les identifiants des synsets. Cela permet d’obtenir facilement un couplage entre cette ressource et le Wordnet anglais qui a servi à la construire. Cela est notamment utile dans le cadre de traitements multis lingues. Le deuxième concerne sa licence. Ressource libre, il est possible de la modifier comme on le souhaite pour qu’elle réponde au mieux à nos besoins.
Cependant, il s’agit d’une ressource “jeune” n’ayant pas encore fait l’objet de traitements manuels (en tout cas pas dans la version à ce jour publiée). Les études sont actuellement menées dans ce sens par l’équipe de l’Inria en charge du projet.
C’est pourquoi les évolutions de cette ressource seront suivies avec attention mais que pour le moment, nous avons opté pour l’étude d’autres ressources ontologiques dans le but d’en trouver une plus fiable pour nos traitements.

Mots clefs : , , , ,