Blog Onyme
IntroductionNous avons vu dans le précédent billet que les statistiques publiées sur le projet étaient trop partielles pour nous fournir toutes les clés d’appréciation nécessaire à une évaluation exhaustive de la ressource. Nous proposons donc ici d’effectuer nos propres mesures sur cette ressource afin d’apporter le complément d’information nécessaire et de le comparer aux valeurs que nous avions pu estimer dans notre précédent billet. Mais ce n’est pas tout : pour aller encore plus loin, je vous présenterai un outil que nous utilisons pour explorer cette ressource et que vous pouvez vous même utiliser. Alors explorez-le et faites vous votre opinion… Quelques évaluations complémentaires…Nous avons utilisé un parser sax afin de parcourir le WOLF en version 1.0 bêta et d’indexer son contenu dans une base de données Postgres. Cette étape nous évite d’avoir à travailler directement avec le fichier xml et rend plus facile l’exploitation du contenu du WOLF par des applications. J’aurai l’occasion de vous parler de cela plus en détail par la suite. Une fois l’indexation réalisée, il est intéressant d’effectuer quelques requêtes afin d’obtenir des statistiques pertinentes. La table ci-dessous les présente.
Peu de paires littéral-synset sont validées manuellement… Aller plus loin dans l’étude avec notre outil d’explorationNos différentes études consacrées au WOLF ont montré qu’une exploration directe de la ressource était la meilleure façon de pouvoir se faire une réelle opinion sur sa qualité et sur son utilisabilité dans nos travaux de recherche. Cela n’est clairement pas des plus simples avec le format xml proposé par l’Inria. L’indexation dans la base de données nous a permis de réaliser nos propres études statistiques de manière assez simple mais cela reste toujours peu visuel pour une exploration manuelle des résultats d’une requête précise. Partant de ce constat, nous avons réalisé un programme JEE traduisant de manière graphique les résultats remontées par la base de données. Si aujourd’hui cet outil nous est utile dans nos évaluations de réponses du WOLF à une requête donnée, nous vous proposons de l’utiliser également et de vous faire votre propre opinion sur celui-ci.
Lorsque vous arrivez sur la page principale, vous commencez par choisir la version du WOLF que vous souhaitez explorer. Vous avez le choix entre les versions alpha 0.1.4 et 0.1.5 ou la version 1.0 bêta. Le plus intéressant est d’effectuer les mêmes recherches sur les différentes versions afin de les comparer entre elles. Vous pouvez par exemple essayer de comparer les résultats fournis pour les recherches “jouet” ou “maison”. Ces deux cas illustrent assez bien les statistiques que nous avons donnés et notamment en ce qui concerne l’augmentation de la volumétrie des littéraux présents dans la ressource. Le cas de “jouet”Étudions le cas de “jouet”. Nous passons de 1 synset en version 0.1.5 à 7 synsets en version 1.0b (+700%). Si celui proposé par la version 0.1.5, nous semble assez convaincant… Arborescence du synset contenant le terme “jouet” dans le WOLF 0.1.5. Cette arborescence semble correcte.
Un yo-yo est bien un type de jouet qui est lui-même un artefact, un objet,… …la plupart des nouveaux synsets identifiés dans la version 1.0b sont plus discutables comme par exemple celui présenté ci-dessous. Arborescence du synset contenant le terme “jouet” dans le WOLF 1.0b. Cette arborescence semble incorrecte.
Un chien n’est pas vraiment un jouet même s’il s’agit d’un pékinois!! Le cas de “maison”Étudions le cas de “maison”. Nous passons de 1 synset à 24 synsets (+2400%). Cette fois, si celui de la version 0.1.5 est assez peu convaincant… Arborescence du synset contenant le terme “maison” dans le WOLF 0.1.5. Cette arborescence semble incorrecte.
“maison”, “famille” et “économique”, trois synonymes ?! …l’un des 24 synsets de la version 1.0b nous semble très correct… Arborescence du synset contenant le terme “maison” dans le WOLF 1.0b. Cette arborescence semble correcte.
Un ermitage est bien un type d’habitation qui est une construction, un artefact,… …mais quelque peu perdu parmi les 23 autres propositions nettement moins bonnes, dont celle ci-après. Arborescence du synset contenant le terme “maison” dans le WOLF 1.0b. Cette arborescence semble incorrecte.
“abriter” et “rentrer”, des synonymes de “maison” ?! Nous voyons sur ces exemples les faiblesses de l’expansion automatique du WOLF. Cela a permis de rajouter de la donnée lexicale dans la ressource qui en manquait très clairement dans ses versions alpha mais revers de la médaille, les expansions réalisées de manière contextuelles ont également introduits du bruit au niveau de termes “ayant un lien relatif entre eux” mais n’étant pas des synonymes. Ainsi, il n’est pas rare de voir des expressions telles que “retourner à la maison”, “s’abriter dans la maison” ou encore que “le pékinois est une sorte de chien-jouet” (dans un sens figuré et humoristique) ce qui a amené aux confusions évoquées. A vous de jouer!!
Si vous avez des remarques, des suggestions, des impressions, les commentaires de cette page sont ouverts alors n’hésitez pas… Notes1 Synset : Correspond dans Wordnet à un ensemble de mots que l’on peut qualifier de synonymes entre eux. Ex : (beau, joli, magnifique) est un synset puisque ces 3 mots sont synonymes. [Retour] Mots clefs : consultation du WOLF, consultation du Wordnet Libre du Français, consultation en ligne du WOLF, consultation en ligne du Wordnet Libre du Français, évaluation d'une ressource lexicale, évaluation WOLF 1.0 bêta, évaluation WOLF 1.0b, interface graphique du WOLF, interface graphique du Wordnet Libre du Français, labs.onyme.com, Onyme Labs, outil visuel d’exploration du Wordnet Libre du Français, TAL, visualisation graphique du WOLF, visualisation graphique du Wordnet Libre du Français, visualisation graphique en ligne du WOLF, WOLF, WOrdnet Libre du Français |
[Sur le blog] Wordnet Libre du Français 1.0 bêta : Pour l’évaluer, explorez-le vous même!!! http://t.co/ZeTSFCJuID #TAL #WOLF
Outil visuel d’exploration du Wordnet Libre du Français http://t.co/AQZsxHvEZH (cf. http://t.co/UhVu3uTMiK) /via @Onyme_FR
Est ce que vous connaissez l’équivalent de WS4J lien: https://code.google.com/p/ws4j/ pour WOLF?
Le projet WS4J peut être utilisé avec n’importe quel Wordnet à condition d’implémenter un adapter visant à fournir au projet les informations contenues dans ce dernier. Le lien donné sur code.google.com indique dans la partie “requirement” :
[...] Wordnet Libre du Français 1.0 bêta : Pour l’évaluer, explorez-le vous même!!! [...]