Blog Onyme
Wordnet Libre du Français 1.0 bêta : Etude statistique11 septembre 2013IntroductionLe mois de septembre est là et rime avec reprises : reprise du travail, reprise des différentes études, reprise des publications dans le blog,… Sur ce constat, nous reprenons notre étude sur la version 1.0 bêta du WOLF avec ce deuxième billet consacré à ce sujet. Dans le précédent billet, nous nous sommes arrêtés à une étude comparative menée sur quelques littéraux afin d’évaluer l’évolution de la ressource entre la version alpha 0.1.4 et la version 1.0 bêta. Cette première étude n’incluait cependant pas vraiment d’éléments statistiques pourtant intéressants à prendre en considération afin d’évaluer les évolutions de la ressource d’une version à l’autre. Nous proposons de remédier à cela dans ce nouveau billet. Méthodologie et généralitésL’étude qui suit est réalisée uniquement en se fondant sur les éléments statistiques fournis par les différents articles publiés concernant le Wordnet de Princeton (PWN), l’EuroWordnet (EWN) et le WOLF. Concernant le WOLF, les articles ne sont pas souvent très explicites sur les chiffres statistiques globaux de la ressource obtenue. Bien souvent, seules les évolutions obtenues via leur méthode sont présentées. Il n’est également pas facile de savoir si les erreurs détectées lors des validations ont été retirées ou non. J’ai alors réuni les différentes informations présentes dans les articles afin d’estimer les évolutions globales de la ressource à chaque étape de son évolution. Articles et versions du WOLFPlusieurs articles différents ont été publiés sur le WOLF par l’équipe en charge du projet depuis sa création en 2008. Je vous propose de faire d’abord un récapitulatif de ces articles et d’en profiter pour les mettre en correspondance avec les versions publiées du WOLF (cela n’est pas toujours si simple).
Article fondateur du projet. Correspond à la version 0.1.4 du WOLF.
Premières améliorations de la ressource concernant les adverbes. Correspond à la version 0.1.5 du WOLF.
Grosse extension de la ressource. Correspond à la version 0.2 du WOLF.
Extension par nominalisation d’évènements. Correspond à la version 0.2.1 du WOLF.
Extension par une désambigüisation de mots inter-langues. Correspond à la version 0.2.2 du WOLF.
Extension par une approche fondée sur un lexique multilingue construit à partir de wikis (Wiktionnaries et Wikipédia). Correspond à la version 0.2.5 du WOLF. Les identifiants des synsets du WOLF ont également été migrés de la version 2 à la version 3 du Wordnet de Princeton.
Nettoyage semi-automatique du WOLF. Correspond à la version 1.0 bêta du WOLF. Cela étant fait, nous pouvons à présent commencer nos comparaisons au travers des informations fournies. Nombre de synsetsLe WOLF a toujours contenu l’intégralité des synsets du Wordnet de Princeton d’abord en version 2 puis en version 3. Cela permet de garantir une intégrité de la structure arborescente des synsets du PWN dans le WOLF. Cependant, beaucoup des synsets sont en fait vides (ne contiennent pas de littéral). Nous ne considèrerons dans cette étude que les synsets non-vides comme synsets présents. Nous comparons de plus le nombre de synsets du WOLF à ceux du PWN et à l’EuroWordnet français.
Nombre de synsets par catégorie grammaticaleChaque synset possède une catégorie grammaticale parmi nom (N), verbe (V), adjectif (Adj) et adverbe (Adv).
Nombre de paires littéral – synsetCette information n’est pas tout le temps disponible de manière claire dans les articles. Il nous faut alors nous contenter d’une approximation basse selon par exemple le nombre de littéraux distincts dans la ressource. Cette information est équivalente au nombre de littéraux au total contenus dans le wordnet.
Validation manuelleJe n’ai malheureusement pas pu obtenir d’informations précises dans les articles sur la volumétrie de synsets ou mieux sur la volumétrie de paires littéral – synset validées. Cette donnée apparait pourtant comme clé dans l’évaluation de la pertinence de la ressource obtenue. Conclusions et perspectivesLe WOLF est une ressource en évolution de par :
Nous noterons cependant certains problèmes :
Nous pouvons espérer avec la prochaine stabilisation de la ressource qu’un article focalisé sur ces points sera publié, mais en attendant seule une observation et évaluation directe de la ressource peut nous fournir ces informations manquantes mais primordiales dans son évaluation. Cette étude fera l’objet de notre prochain billet. Mots clefs : comparaison EuroWordnet et WOLF, comparaison PWN et WOLF, comparaison Wordnet anglais et Wordnet français, comparaison wordnets français, évaluation WOLF, évaluation WOLF 1.0 bêta, évaluation WOLF 1.0b, WOLF, WOrdnet Libre du Français |
[Sur le blog] La suite de notre étude sur le Wordnet Libre du Français : quelques statistiques http://t.co/9xxgJOhGnH #WOLF #TAL