Par: Benoît TROUVILLIEZ
Rappel
EuroWordnet est un projet visant à construire des ontologies similaires au projet Wordnet de l’université de Princeton pour 8 langues européennes dont le français, sujet de cet étude.
Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet EuroWordnet.
Format de distribution
L’ontologie EuroWordnet est distribuée sous deux formats différents (et ce quelque soit la langue choisie) : sous la forme d’une base de données et sous la forme d’un fichier texte.
Le format de base de données est en fait le format à partir duquel fonctionnent les différents outils de lectures/créations/modifications de Wordnets mis au point pour le projet EuroWordnet.
Le format texte est donc fournit lui pour permettre d’effectuer sur la base de connaissance en dehors de ces logiciels.
Bien que notre étude nous ait conduit à une étude plus approfondie sur le format texte, nous n’en parlerons pas dans cet article pour des raisons de licences. Il est toutefois intéressant de préciser que ce format est suffisamment structuré pour permettre un parcours rapide des liens sémantiques qu’il contient.
Test d’EuroWordnet
Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins.
Afin d’avoir une première idée sans avoir à élaborer une stratégie de test complexe, nous avons opté pour une analyse manuelle d’une liste de mots :
- pomme
- salaire
- bagage
- politesse
Cette liste n’est bien sûr pas exhaustive mais constitue l’avantage d’être suffisamment courte pour permettre une analyse manuelle complète.
Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés :
£ indique la généricité ;
+ signifie la spécificité ;
rien signifie que c’est un synonyme.
Lexeme pomme
pomme : £ fruit comestible (£ fruit)
Lexeme salaire
salaire : rémunération , £ (versement régulier, paiement régulier), + demi-salaire, + salaire minimum
Lexeme bagage
bagage : £ (étui, malette), + (sac de voyage, valise), + bagage à main, + malle
Lexeme politesse
politesse : courtoisie, (savoir-vivre, civilité, courtoisie, bienséance), égards, + attention, + galanterie, £ (attitude, comportement), £ formalité
Résultats
La première chose que l’on peut remarquer est que les résultats fournis semblent être d’une bonne qualité. Aucune erreur grave ne semble en tous cas avoir été commises.
Comme vous l’avez peut être constaté, il s’agit en fait du même test que celui qui avait été mené sur une autre ontologie, le WOLF, dans un précédent article du blog.
Si l’on compare les résultats obtenus avec le WOLF avec ceux-ci, l’amélioration est bien visible. Il n’y a cette fois aucune erreur de traduction. La pomme a bien été reconnue en tant que fruit et il n’y a pas eu de confusions avec la pomme de terre. De même, pour salaire et bagage. Pour politesse, alors que le WOLF ne trouvait aucun lien pour ce lexème, l’EuroWordnet lui connaît trois synonymes (courtoisie, égards et savoir-vivre), deux hyponymes (attention et galanterie) et deux hyperonymes (comportement et formalité).
Conclusion
Dans cette étude, nous avons vu parfaitement les intérêts d’une ressource mature validée manuellement par rapport à une ressource jeune encore en cours de développement. L’EuroWordnet, même si sa licence est assez restrictive, semble constituer une ressource suffisamment fiable pour qu’on puisse l’exploiter dans nos applications. Des validations plus approfondies auront prochainement lieu afin de confirmer cette tendance.
Mots clefs : EuroWordnet, ontologie, sémantique
Cette entrée a été publiée le Vendredi 2 avril 2010 à 15 h 14 min, et rangée dans Ressource lexicale, TAL. Vous pouvez suivre les réponses à cette entrée via son flux RSS 2.0.
Vous pouvez laisser un commentaire, ou faire un rétrolien depuis votre site.
Bonjour,
Excellent blog j’aime beaucoup! EuroWordNet est payant? Pas possible de télécharger pour usage personnel?
Bonjour,
Eurowordnet est en effet une ressource payante. Il n’existe pas de formules gratuites quelque soit l’usage. Il existe cependant plusieurs types de licence (et donc des prix différents) en fonction de l’usage que l’on souhaite en faire. Le prix est également déterminé par les langues que l’on achète. Plus on achète de langues et moins c’est coûteux par langue. Les différents prix pour le français seul sont indiqués sur cette page : http://catalog.elra.info/product_info.php?products_id=550 dans le bandeau de droite. Le principe de réduction par langue achetée est également expliqué.
[...] proposent déjà des réflexions sur des ontologies existantes, notamment le Wolf et l'EuroWordnet. Nous nous plaçons ici dans une démarche lexicale, définitionnelle, dont l'objectif est [...]