Par: Benoît TROUVILLIEZ

Introduction

Le mois de septembre est là et rime avec reprises : reprise du travail, reprise des différentes études, reprise des publications dans le blog,…

Sur ce constat, nous reprenons notre étude sur la version 1.0 bêta du WOLF avec ce deuxième billet consacré à ce sujet. Dans le précédent billet, nous nous sommes arrêtés à une étude comparative menée sur quelques littéraux afin d’évaluer l’évolution de la ressource entre la version alpha 0.1.4 et la version 1.0 bêta.

Cette première étude n’incluait cependant pas vraiment d’éléments statistiques pourtant intéressants à prendre en considération afin d’évaluer les évolutions de la ressource d’une version à l’autre. Nous proposons de remédier à cela dans ce nouveau billet.

Méthodologie et généralités

L’étude qui suit est réalisée uniquement en se fondant sur les éléments statistiques fournis par les différents articles publiés concernant le Wordnet de Princeton (PWN), l’EuroWordnet (EWN) et le WOLF.

Concernant le WOLF, les articles ne sont pas souvent très explicites sur les chiffres statistiques globaux de la ressource obtenue. Bien souvent, seules les évolutions obtenues via leur méthode sont présentées. Il n’est également pas facile de savoir si les erreurs détectées lors des validations ont été retirées ou non.

J’ai alors réuni les différentes informations présentes dans les articles afin d’estimer les évolutions globales de la ressource à chaque étape de son évolution.

Articles et versions du WOLF

Plusieurs articles différents ont été publiés sur le WOLF par l’équipe en charge du projet depuis sa création en 2008. Je vous propose de faire d’abord un récapitulatif de ces articles et d’en profiter pour les mettre en correspondance avec les versions publiées du WOLF (cela n’est pas toujours si simple).

Sagot Benoît et Fišer Darja (2008). Construction d’un wordnet libre du français à partir de ressources multilingues. In TALN 2008, Avignon, France

Article fondateur du projet. Correspond à la version 0.1.4 du WOLF.

Sagot Benoît, Fort Karën et Venant Fabienne (2008). Extension et couplage de ressources syntaxiques et sémantiques sur les adverbes. In Actes du Colloque Lexique et Grammaire 2008, L’Aquila, Italie

Sagot Benoît, Fort Karën et Venant Fabienne (2009). Extension et couplage de ressources syntaxiques et sémantiques sur les adverbes. In Linguisticæ Investigationes 32(2) (pages 305-315)

Premières améliorations de la ressource concernant les adverbes. Correspond à la version 0.1.5 du WOLF.

Sagot Benoît et Fišer Darja (2012). Automatic extension of WOLF. In Actes de la 12ème Global Wordnet Conference, Matsue, Japon

Grosse extension de la ressource. Correspond à la version 0.2 du WOLF.

Gábor Kata, Apidianaki Marianna, Sagot Benoît et Villemonte de La Clergerie Éric (2012). Boosting the Coverage of a Semantic Lexicon by Automatically Extracted Event Nominalizations. In Proceedings of LREC 2012, Istanbul, Turquie

Extension par nominalisation d’évènements. Correspond à la version 0.2.1 du WOLF.

Apidianaki Marianna et Sagot Benoît (2012). Applying Cross-Lingual WSD to Wordnet Development. In Proceedings of LREC 2012, Istanbul, Turquie

Extension par une désambigüisation de mots inter-langues. Correspond à la version 0.2.2 du WOLF.

Hanoka Valérie et Sagot Benoît (2012). Wordnet creation and extension made simple: A multilingual lexicon-based approach using wiki resources. In Proceedings of LREC 2012, Istanbul, Turquie

Extension par une approche fondée sur un lexique multilingue construit à partir de wikis (Wiktionnaries et Wikipédia). Correspond à la version 0.2.5 du WOLF. Les identifiants des synsets du WOLF ont également été migrés de la version 2 à la version 3 du Wordnet de Princeton.

Sagot Benoît et Fišer Darja (2012). Cleaning noisy wordnets. In Proceedings of LREC 2012, Istanbul, Turquie

Nettoyage semi-automatique du WOLF. Correspond à la version 1.0 bêta du WOLF.

Cela étant fait, nous pouvons à présent commencer nos comparaisons au travers des informations fournies.

Nombre de synsets

Le WOLF a toujours contenu l’intégralité des synsets du Wordnet de Princeton d’abord en version 2 puis en version 3. Cela permet de garantir une intégrité de la structure arborescente des synsets du PWN dans le WOLF. Cependant, beaucoup des synsets sont en fait vides (ne contiennent pas de littéral). Nous ne considèrerons dans cette étude que les synsets non-vides comme synsets présents. Nous comparons de plus le nombre de synsets du WOLF à ceux du PWN et à l’EuroWordnet français.

Ressource Version # synsets Evolution
EWN FR 22 121 -
PWN 2.0 115 424 -
3.0 117 658 -
WOLF 0.1.4 32 351 -
0.1.5 32 546 (+195)
0.2 46 351 (+13 805)
0.2.1 46 728 (+377)
0.2.2 50 632 (+3 904)
0.2.5 50 632 < x < 56 751 (< +6 119)
1.0-bêta 43 240 < x < 56 751 (< -7 392)

Nombre de synsets par catégorie grammaticale

Chaque synset possède une catégorie grammaticale parmi nom (N), verbe (V), adjectif (Adj) et adverbe (Adv).

Ressource Version N V Adj Adv
PWN 2.0 79 689 13 508 18 563 3 664
3.0 82 114 13 767 18 156 3 621
WOLF 0.1.4 25 559 1 544 1 562 676
0.1.5 25 559 1 544 1 562 871

Nombre de paires littéral – synset

Cette information n’est pas tout le temps disponible de manière claire dans les articles. Il nous faut alors nous contenter d’une approximation basse selon par exemple le nombre de littéraux distincts dans la ressource. Cette information est équivalente au nombre de littéraux au total contenus dans le wordnet.

Ressource Version # paires littéral – synset Evolution
PWN 2.0 >145 627 -
WOLF 0.1.4 46 741 -
0.1.5 46 411 (-330)
0.2 76 436 (+30 025)
0.2.1 78 789 (+2 353)
0.2.2 >82 693 (>+3 904)
0.2.5 >88 812 (+6 119)
1.0-bêta >81 420 (-7 392)

Validation manuelle

Je n’ai malheureusement pas pu obtenir d’informations précises dans les articles sur la volumétrie de synsets ou mieux sur la volumétrie de paires littéral – synset validées.

Cette donnée apparait pourtant comme clé dans l’évaluation de la pertinence de la ressource obtenue.

Conclusions et perspectives

Le WOLF est une ressource en évolution de par :

  • l’augmentation estimée d’environ 20 000 synsets non vides
  • l’augmentation estimée d’environ 34 000 paires littéral – synset

Nous noterons cependant certains problèmes :

  • un certain manque de documentation sur la ressource. Il n’y par exemple pas d’indications précises sur l’étiquetage réalisé pour indiquer une validation manuelle
  • un manque de synthèse dans les articles quand aux statistiques de la ressource obtenue

Nous pouvons espérer avec la prochaine stabilisation de la ressource qu’un article focalisé sur ces points sera publié, mais en attendant seule une observation et évaluation directe de la ressource peut nous fournir ces informations manquantes mais primordiales dans son évaluation.

Cette étude fera l’objet de notre prochain billet.

Mots clefs : , , , , , , , ,