Par: Benoît TROUVILLIEZ
Cette étude concerne une version obsolète du WOLF. Veuillez vous référer à ce
billet du blog pour une étude sur une version plus récente.
Rappel
Le WOLF (Wordnet Libre du Français) est une ontologie développée pour le français par l’Inria.
Cette ontologie est en licence libre et est développé depuis 2008 à partir de la traduction du Wordnet de Princeton, développé pour la langue anglaise.
Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet WOLF.
Format de distribution et explications
Intéressons nous tout d’abord au format de publication de cette ressource.
Le WOLF est publié sous la forme d’un fichier xml que l’on devra parser avec l’API de parsage xml de notre choix (SAX ou DOM) pour obtenir les informations sémantiques désirées.
Ce fichier xml respecte bien sûr une DTD qui est celle utilisée pour le projet Balkanet, projet de construction de wordnets pour les langues des Balkans.
Cette DTD est présentée ci dessous :
<!--ELEMENT WORDNET - - (SYNSET*) -->
<!--ELEMENT SYNSET - - (ID, POS, SYNONYM, ILR*, BCS?, DEF?, USAGE*,DOMAIN?,SUMO*) -->
<!--ELEMENT ID - - (#PCDATA) -->
<!--ELEMENT POS - - (#PCDATA) -->
<!--ELEMENT SYNONYM - - (LITERAL+) -->
<!--ELEMENT ILR - - (TYPE, #PCDATA) -->
<!--ELEMENT BCS - - (#PCDATA) -->
<!--ELEMENT DEF - - (#PCDATA) -->>
<!--ELEMENT USAGE - - (#PCDATA) -->
<!--ELEMENT LITERAL - - (#PCDATA, SENSE) -->
<!--ELEMENT TYPE - - (#PCDATA) -->
<!--ELEMENT SENSE - - (#PCDATA) -->
L’ontologie se compose donc d’un noeud principal : Wordnet ayant pour fils des noeuds Synset.
Chacun de ces noeuds représente une unité de sens pour le français. Ce principe de synsets vient de l’ontologie anglaise Wordnet de Princeton et a été explicité sur la page de présentation des ontologies.
A ce titre, chaque synset se compose :
- d’un identifiant unique, présent dans sa sous balise ID. Cet identifiant est en fait le même que celui du synset original dans le Wordnet de Princeton.
- une fonction grammaticale, présente dans la balise POS. Tous les mots composant un synset partagent la même fonction grammaticale.
- une liste de mots (ou encore lexèmes), présente dans la balise Synonym. Elle représente la liste des mots composants le synset.
- une liste de liens avec les autres synsets, présente dans la balise ILR. Les identifiants des synsets sont utilisés pour décrire les liens.
- une note BCS, indiquant l’importance du synset. 1 : très important, 2 : important, 3 : relativement important, vide : peu important.
- les autres balises indiquent, optionnellement, une définition, des exemples ou encore des renseignements par rapport à la traduction du synset depuis le Wordnet de Princeton.
Tests du WOLF
Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins.
Afin d’avoir une première idée sans avoir à élaborer une stratégie de test complexe, nous avons opté pour une analyse manuelle d’une liste de mots :
- pomme
- salaire
- bagage
- politesse
Cette liste n’est bien sûr pas exhaustive mais constitue l’avantage d’être suffisamment courte pour permettre une analyse manuelle complète.
Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés dans le WOLF :
£ indique la généricité ;
+ signifie la spécificité ;
rien signifie que c’est un synonyme.
Lexème pomme
pomme : pomme, murphy, £ légume à racine, £ légume
pomme : frite, frites, fries, pommes allumettes, pomme, £ pomme/murphy
pomme : pomme de terre, pomme, solanum tuberosum, £ plante grimpante/vigne
Lexème salaire
salaire : salarié, traitement, salaire, rémunération, gaine, £ paiement
salaire : salaire, gaine, £ paiement
salaire : salaire, gaine, £ conséquence (lui même hyponyme de résultat)
Lexème bagage
bagage : colis, bagage, £conteneur/récipient
Lexème politesse
Lexème non trouvé dans le WOLF. Il n’y a donc aucun lien existant.
Analyse
Dans ces différents tests, nous voyons que les résultats obtenus sont pertinents sur certains points mais moins sur d’autres. Ainsi, en terme de généralisation, le WOLF semble relativement pertinent. En fait, seul le lexème pomme semble erroné dans ce domaine. On voit ainsi qu’une pomme est considérée comme un légume. Elle est aussi considérée comme un légume à racines ou comme une plante grimpante. De manière générale, il semble y avoir une confusion entre la pomme (le fruit) et la pomme de terre.
Au niveau du lexème salaire, par contre, on a bien le rapprochement entre avec paiement et avec conséquence dans le contexte de résultat.
Pour un bagage, le WOLF trouve un rapprochement avec un conteneur.
En ce qui concerne les synonymes, il y a également des liens de synonymie intéressants qui ont été trouvés.
On peut par exemple citer, salaire et rémunération ou encore colis et bagage. Mais comme pour les liens de généralisation, des erreurs sont également commises. Comme par exemples, la confusion entre le salaire et le salarié ou les pommes et les pommes de terre.
On doit également noter la présence dans les résultats de mots anglais francisés ou latins.
Conclusions
Le WOLF est une ressource ontologique intéressante sur deux points. Le premier est qu’elle propose un lien direct avec l’ontologie Wordnet de Princeton via les identifiants des synsets. Cela permet d’obtenir facilement un couplage entre cette ressource et le Wordnet anglais qui a servi à la construire. Cela est notamment utile dans le cadre de traitements multis lingues. Le deuxième concerne sa licence. Ressource libre, il est possible de la modifier comme on le souhaite pour qu’elle réponde au mieux à nos besoins.
Cependant, il s’agit d’une ressource “jeune” n’ayant pas encore fait l’objet de traitements manuels (en tout cas pas dans la version à ce jour publiée). Les études sont actuellement menées dans ce sens par l’équipe de l’Inria en charge du projet.
C’est pourquoi les évolutions de cette ressource seront suivies avec attention mais que pour le moment, nous avons opté pour l’étude d’autres ressources ontologiques dans le but d’en trouver une plus fiable pour nos traitements.
Mots clefs : Inria, ontologie, sémantique, test, WOLF
Cette entrée a été publiée le Vendredi 2 avril 2010 à 11 h 57 min, et rangée dans Ressource lexicale, TAL, WOLF. Vous pouvez suivre les réponses à cette entrée via son flux RSS 2.0.
Vous pouvez laisser un commentaire, ou faire un rétrolien depuis votre site.
La version 0.1.5 du WOLF est maintenant disponible en téléchargement sur le site de l’INRIA.
Cette nouvelle version intègre le travail spécifique réalisé sur les synsets adverbiaux en 2009 dont une partie de validation manuelle. Il a fait l’objet d’une publication par l’équipe en charge du projet.
Sagot Benoît, Fort Karën et Venant Fabienne (2009). Extension et couplage de ressources syntaxiques et sémantiques sur les adverbes. In Linguisticæ Investigationes 32(2) (pages 305-315)
[...] par la même équipe en charge des projets WOLF et LEFFF (l’équipe ALPAGE), le MElt Tagger est un étiqueteur morpho-syntaxique qui se veut [...]
L’intention est louable, le projet n’est certes pas terminé mais le projet m’a beaucoup déçu :
- D’une part, leur fichier xml est mal formé. Si ce n’est pas bloquant en soit, pour des professionnels de l’INRIA, ça fait pas très sérieux.
- D’autre part, qu’on t-il fait exactement ? car en ouvrant ce fichier, on retrouve quelques termes en français pour les littérales et encore moins pour les définitions. Tout le reste demeure en anglais.
Le projet est-il abandonné ?
La dernière modification semble être de juin 2010 mais le projet n’est pas beaucoup actif.
Le projet WOLF fait en fait partie d’une série de projets de l’INRIA visant à effectuer des traitements de la langue.
Ces projets sont développés par l’équipe ALPAGE et quelques uns de ceux ci sont évoqués dans le blog comme le LEFFF, le MElt ou le WOLF.
Le projet WOLF est donc développé au fur et à mesure des possibilités et besoins de l’équipe, ce qui peut effectivement paraître peu actif. Cependant, le WOLF reste toujours un projet d’actualité qui devrait donc continuer à évoluer. J’ai d’ailleurs assisté le 20 octobre dernier à la rencontre Iliatech organisée par l’Inria sur le thème du TAL et lors de laquelle le WOLF a été présenté.
Pour le moment, il a été traduit en partie en français à partir du wordnet anglais. Ce qui n’a pu être traduit en français (comme les exemples) a été laissé en anglais. Les synsets n’ayant pu trouver une traduction sont présents mais vides au niveau de leurs litéraux.
Il reste donc effectivement beaucoup de travail avant de disposer d’une ressource complète et fiable. Si vous rechercher cette complétude et fiabilité, je vous conseille pour l’heure de chercher vers d’autres projets ayant fait l’objet d’une validation manuelle comme l’Eurowordnet que je présente dans ce blog.
Tout existe : les choses, le monde — et l’humain. Tout constitue le domaine de l’existant : l’homme seul en est conscient. C’est par cette vertu que lui seul peut accéder à cette autre dimension : être. Exister est donné ; être est voulu. Transcendant le monde de l’existant, le royaume de l’Etre.
Qu’est-ce que l’Etre ? Une réponse possible au moyen d’un outil : Analyse Ontologique
Le projet semble évoluer pas mal cette année. Après la présentation à laquelle j’ai assisté en début d’année, quatre publications et présentations ont eu lieu à la conférence LREC 2012 à Istanbul sur le projet :
Hanoka Valérie et Sagot Benoît (2012). Wordnet creation and extension made simple: A multilingual lexicon-based approach using wiki resources. In Proceedings of LREC 2012, Istanbul, Turquie
Apidianaki Marianna et Sagot Benoît (2012). Applying Cross-Lingual WSD to Wordnet Development. In Proceedings of LREC 2012, Istanbul, Turquie
Gábor Kata, Apidianaki Marianna, Sagot Benoît et Villemonte de La Clergerie Éric (2012). Boosting the Coverage of a Semantic Lexicon by Automatically Extracted Event Nominalizations. In Proceedings of LREC 2012, Istanbul, Turquie
Sagot Benoît et Fišer Darja (2012). Cleaning noisy wordnets. In Proceedings of LREC 2012, Istanbul, Turquie
En attente donc de la publication de la nouvelle release….
La version 1.0 bêta du WOLF est disponible en téléchargement depuis fin octobre.
Un prochain billet sera consacré à cette ressource.
[...] articles proposent déjà des réflexions sur des ontologies existantes, notamment le Wolf et l’EuroWordnet. Nous nous plaçons ici dans une démarche lexicale, définitionnelle, dont [...]
[...] avons déjà eu l’occasion d’aborder cette ressource qu’est le WOrdnet Libre du Français. La conférence GWC a été l’occasion pour l’équipe de l’Inria qui développe [...]
[...] pour jour), je vous présentais la ressource linguistique Wordnet Libre du Français (WOLF) dans un des premiers billets de ce blog. Cette ressource linguistique, développée depuis 2008 pour le français par l’Inria, est en [...]