Par: Benoît TROUVILLIEZ

Introduction

Nous avons vu dans le précédent billet que les statistiques publiées sur le projet étaient trop partielles pour nous fournir toutes les clés d’appréciation nécessaire à une évaluation exhaustive de la ressource.

Nous proposons donc ici d’effectuer nos propres mesures sur cette ressource afin d’apporter le complément d’information nécessaire et de le comparer aux valeurs que nous avions pu estimer dans notre précédent billet.

Mais ce n’est pas tout : pour aller encore plus loin, je vous présenterai un outil que nous utilisons pour explorer cette ressource et que vous pouvez vous même utiliser. Alors explorez-le et faites vous votre opinion…

Quelques évaluations complémentaires…

Nous avons utilisé un parser sax afin de parcourir le WOLF en version 1.0 bêta et d’indexer son contenu dans une base de données Postgres. Cette étape nous évite d’avoir à travailler directement avec le fichier xml et rend plus facile l’exploitation du contenu du WOLF par des applications. J’aurai l’occasion de vous parler de cela plus en détail par la suite.

Une fois l’indexation réalisée, il est intéressant d’effectuer quelques requêtes afin d’obtenir des statistiques pertinentes. La table ci-dessous les présente.

Critère d’évaluation Estimation Mesure
# synsets1 non vides 43 240 < x < 56 751 59 091
# synsets vides ayant un synset hyponyme2 non vide N.C. 3 672
# littéraux3 distincts 81 420 55 374
# paires littéral-synset > 81 420 102 672
N.C. dont 95 204 non validées manuellement (92.73% des paires)
N.C. et 7 468 validées manuellement (7.27% des paires)

Peu de paires littéral-synset sont validées manuellement…

Aller plus loin dans l’étude avec notre outil d’exploration

Nos différentes études consacrées au WOLF ont montré qu’une exploration directe de la ressource était la meilleure façon de pouvoir se faire une réelle opinion sur sa qualité et sur son utilisabilité dans nos travaux de recherche. Cela n’est clairement pas des plus simples avec le format xml proposé par l’Inria.

L’indexation dans la base de données nous a permis de réaliser nos propres études statistiques de manière assez simple mais cela reste toujours peu visuel pour une exploration manuelle des résultats d’une requête précise. Partant de ce constat, nous avons réalisé un programme JEE traduisant de manière graphique les résultats remontées par la base de données.

Si aujourd’hui cet outil nous est utile dans nos évaluations de réponses du WOLF à une requête donnée, nous vous proposons de l’utiliser également et de vous faire votre propre opinion sur celui-ci.

Voici donc le point de lancement de notre tout nouveau Onyme Labs!!!

Au menu, l’exploration du WOLF : http://labs.onyme.com/ontologie-explorer

Lorsque vous arrivez sur la page principale, vous commencez par choisir la version du WOLF que vous souhaitez explorer. Vous avez le choix entre les versions alpha 0.1.4 et 0.1.5 ou la version 1.0 bêta.

Le plus intéressant est d’effectuer les mêmes recherches sur les différentes versions afin de les comparer entre elles.

Vous pouvez par exemple essayer de comparer les résultats fournis pour les recherches “jouet” ou “maison”. Ces deux cas illustrent assez bien les statistiques que nous avons donnés et notamment en ce qui concerne l’augmentation de la volumétrie des littéraux présents dans la ressource.

Le cas de “jouet”

Étudions le cas de “jouet”. Nous passons de 1 synset en version 0.1.5 à 7 synsets en version 1.0b (+700%). Si celui proposé par la version 0.1.5, nous semble assez convaincant…

wolf-0.1.5-jouet

Arborescence du synset contenant le terme “jouet” dans le WOLF 0.1.5. Cette arborescence semble correcte.
Un yo-yo est bien un type de jouet qui est lui-même un artefact, un objet,…

…la plupart des nouveaux synsets identifiés dans la version 1.0b sont plus discutables comme par exemple celui présenté ci-dessous.

wolf-1.0b-jouet

Arborescence du synset contenant le terme “jouet” dans le WOLF 1.0b. Cette arborescence semble incorrecte.
Un chien n’est pas vraiment un jouet même s’il s’agit d’un pékinois!! ;)

Le cas de “maison”

Étudions le cas de “maison”. Nous passons de 1 synset à 24 synsets (+2400%). Cette fois, si celui de la version 0.1.5 est assez peu convaincant…

wolf-0.1.5-maison

Arborescence du synset contenant le terme “maison” dans le WOLF 0.1.5. Cette arborescence semble incorrecte.
“maison”, “famille” et “économique”, trois synonymes ?!

…l’un des 24 synsets de la version 1.0b nous semble très correct…

wolf-1.0b-maison

Arborescence du synset contenant le terme “maison” dans le WOLF 1.0b. Cette arborescence semble correcte.
Un ermitage est bien un type d’habitation qui est une construction, un artefact,…

…mais quelque peu perdu parmi les 23 autres propositions nettement moins bonnes, dont celle ci-après.

wolf-1.0b-maison-wrong

Arborescence du synset contenant le terme “maison” dans le WOLF 1.0b. Cette arborescence semble incorrecte.
“abriter” et “rentrer”, des synonymes de “maison” ?!

Nous voyons sur ces exemples les faiblesses de l’expansion automatique du WOLF. Cela a permis de rajouter de la donnée lexicale dans la ressource qui en manquait très clairement dans ses versions alpha mais revers de la médaille, les expansions réalisées de manière contextuelles ont également introduits du bruit au niveau de termes “ayant un lien relatif entre eux” mais n’étant pas des synonymes. Ainsi, il n’est pas rare de voir des expressions telles que “retourner à la maison”, “s’abriter dans la maison” ou encore que “le pékinois est une sorte de chien-jouet” (dans un sens figuré et humoristique) ce qui a amené aux confusions évoquées.

A vous de jouer!!

Rendez-vous sur le Onyme Labs :

Si vous avez des remarques, des suggestions, des impressions, les commentaires de cette page sont ouverts alors n’hésitez pas…

Notes

1 Synset : Correspond dans Wordnet à un ensemble de mots que l’on peut qualifier de synonymes entre eux. Ex : (beau, joli, magnifique) est un synset puisque ces 3 mots sont synonymes. [Retour]
2 Hyponyme : Mot ayant un sens plus spécifique que le mot considéré. Ex : “cerise” est un hyponyme de “fruit” car une cerise est une sorte de fruit. Plus de détails sur le wiktionnaire [Retour]
3 Littéral : Équivalent à un mot [Retour]

Mots clefs : , , , , , , , , , , , , , , , , ,