Par: Benoît TROUVILLIEZ

Rappel

EuroWordnet est un projet visant à construire des ontologies similaires au projet Wordnet de l’université de Princeton pour 8 langues européennes dont le français, sujet de cet étude.
Un précédent article du blog peut être consulté pour plus de détails sur les ontologies et le projet EuroWordnet.


Format de distribution

L’ontologie EuroWordnet est distribuée sous deux formats différents (et ce quelque soit la langue choisie) : sous la forme d’une base de données et sous la forme d’un fichier texte.
Le format de base de données est en fait le format à partir duquel fonctionnent les différents outils de lectures/créations/modifications de Wordnets mis au point pour le projet EuroWordnet.
Le format texte est donc fournit lui pour permettre d’effectuer sur la base de connaissance en dehors de ces logiciels.
Bien que notre étude nous ait conduit à une étude plus approfondie sur le format texte, nous n’en parlerons pas dans cet article pour des raisons de licences. Il est toutefois intéressant de préciser que ce format est suffisamment structuré pour permettre un parcours rapide des liens sémantiques qu’il contient.


Test d’EuroWordnet

Des tests ont donc été menés sur cette ressources afin de mesurer sa pertinence par rapport à nos besoins.
Afin d’avoir une première idée sans avoir à élaborer une stratégie de test complexe, nous avons opté pour une analyse manuelle d’une liste de mots :
- pomme
- salaire
- bagage
- politesse
Cette liste n’est bien sûr pas exhaustive mais constitue l’avantage d’être suffisamment courte pour permettre une analyse manuelle complète.

Pour présenter simplement les résultats, nous allons utiliser une convention d’écriture pour indiquer les liens trouvés :
£ indique la généricité ;
+ signifie la spécificité ;
rien signifie que c’est un synonyme.

Lexeme pomme

pomme : £ fruit comestible (£ fruit)

Lexeme salaire

salaire : rémunération , £ (versement régulier, paiement régulier), + demi-salaire, + salaire minimum

Lexeme bagage

bagage : £ (étui, malette), + (sac de voyage, valise), + bagage à main, + malle

Lexeme politesse

politesse : courtoisie, (savoir-vivre, civilité, courtoisie, bienséance), égards, + attention, + galanterie, £ (attitude, comportement), £ formalité

Résultats

La première chose que l’on peut remarquer est que les résultats fournis semblent être d’une bonne qualité. Aucune erreur grave ne semble en tous cas avoir été commises.
Comme vous l’avez peut être constaté, il s’agit en fait du même test que celui qui avait été mené sur une autre ontologie, le WOLF, dans un précédent article du blog.
Si l’on compare les résultats obtenus avec le WOLF avec ceux-ci, l’amélioration est bien visible. Il n’y a cette fois aucune erreur de traduction. La pomme a bien été reconnue en tant que fruit et il n’y a pas eu de confusions avec la pomme de terre. De même, pour salaire et bagage. Pour politesse, alors que le WOLF ne trouvait aucun lien pour ce lexème, l’EuroWordnet lui connaît trois synonymes (courtoisie, égards et savoir-vivre), deux hyponymes (attention et galanterie) et deux hyperonymes (comportement et formalité).


Conclusion

Dans cette étude, nous avons vu parfaitement les intérêts d’une ressource mature validée manuellement par rapport à une ressource jeune encore en cours de développement. L’EuroWordnet, même si sa licence est assez restrictive, semble constituer une ressource suffisamment fiable pour qu’on puisse l’exploiter dans nos applications. Des validations plus approfondies auront prochainement lieu afin de confirmer cette tendance.

Mots clefs : , ,