Par: Benoît TROUVILLIEZ

Ontologie

Une ontologie dans son sens le plus large est une structure en forme de graphe permettant d’exprimer des connaissances. Pour cela, deux types d’éléments sont utilisés :
- les concepts : ce sont les nœuds du graphe. De manière général, il s’agit des éléments sur lesquels porte la connaissance.
- les relations : ce sont les arcs du graphe. Elles permettent de définir des liens caractérisés entre les concepts et d’exprimer ainsi une connaissance reliant les concepts mis en jeu.

Dans un cadre sémantique, les concepts de base sont les mots de la langue et les relations correspondent aux différents liens sémantiques pouvant exister dans cette langue entre les mots. Nous citerons pour exemple, la synonymie, l’antonymie ou encore l’hyperonymie (généricité) et l’hyponymie (spécificité).
On parle ainsi souvent “d’arbre sémantique” car la structure obtenue ressemble à un arbre où chaque nœud représente un mot et chaque branche, un lien sémantique existant entre deux unités de sens.
Une ontologie est donc plus pertinente qu’un dictionnaire classique ou même qu’un dictionnaire des synonymes pour représenter la sémantique existante entre les mots d’une langue dans le sens où ce format d’arbre permet une représentation simple mais structurée de tous les liens sémantiques présents dans la langue et le domaine concernée.


Wordnet

Le Wordnet est une ontologie pour la langue anglaise développée par les linguistes de l’Université de Princeton.
Ce projet a débuté en 1995 et est donc maintenant en développement depuis plus de 15 ans.
Deux choses ont contribué à son succès :
- Tout d’abord, la maturité du projet rendue possible grâce à un travail de plus de dix ans.
- La gratuité et l’accès libre aux sources du projet aussi bien pour consultation que pour modification ainsi que la possibilité de redistribution du produit modifié.

La structure du Wordnet repose sur des ensembles de synonymes (“synonym set” en anglais) appelés synset. Chaque synset représente alors un sens, un concept de la langue anglaise. Chacun d’eux contient tous les mots synonymes pouvant exprimer le sens auquel il fait référence. Les liens sémantiques à proprement parler ne relient alors pas les mots entre eux mais les synsets auxquels les mots sont affectés.

Le Wordnet de Princeton est actuellement dans sa troisième révision principale.


Le projet EuroWordnet

Avec le succès du Wordnet de Princeton pour la langue anglaise, est arrivé le souhait pour d’autres linguistes d’autres pays de créer une ontologie aux caractéristiques similaires à celle de Princeton pour d’autres langues du monde. C’est ainsi qu’en 1996, le projet EuroWordnet à l’initiative de l’université d’Amsterdam a été fondé.

Il s’agit sans doute là d’un des projets les plus connus d’ontologies basées sur le Wordnet de Princeton pour les langues d’Europe.

Ce projet a consisté à la réalisation d’ontologies similaires à celle de Princeton pour 8 langues européennes dont le français.
Les différentes ontologies réalisées sont également reliées entre elles par une ontologie de plus haut niveau permettant ainsi de faire “des ponts” entre les langues.

Développé pendant trois ans (1996-1999), on peut maintenant le considérer comme un projet mature et aboutit puisque clôturé depuis maintenant plus de dix ans.

Le majeur inconvénient de ce projet réside dans son accessibilité limité au plus grand nombre. En effet, contrairement au projet de Princeton qui est en diffusion libre et gratuite, celui d’EuroWordnet est soumis à une licence propriétaire restrictive.

Cela explique en grande partie la nette moins grande notoriété de ce projet par rapport à son homologue anglais.

En 2000, soit un an après la fin du projet EuroWordnet, les chercheurs en charge des projet Wordnet et Eurowordnet ont créé la “Global Wordnet Association” destinée à lister et à soutenir les projets visant à créer des ontologies sur la base du Wordnet de Princeton. L’association dénombre actuellement plus de 70 langues à travers le monde possédant un “wordnet”.


Le Wordnet Libre du Français (WOLF)

Le Wordnet Libre du Français (WOLF) est une ontologie généraliste pour la langue française développée au coeur d’un projet de l’Inria.

Ce projet a été débuté officiellement début 2008 et est toujours en cours de développement. Il s’agit donc avant tout d’un projet “jeune” qui n’est donc de ce fait pas totalement abouti et doit encore être amené à évoluer et à s’enrichir.

Pour la réaliser, l’équipe en charge du projet s’est appuyée sur le Wordnet de Princeton.

Contrairement au projet EuroWordnet, le but de l’Inria est de mettre à disposition pour le français comme cela est le cas pour l’anglais, une ontologie généraliste en accès libre et gratuit.

Comme le Wordnet de Princeton est librement utilisable et modifiable, les chercheurs de l’Inria sont partis de ce dernier et ont essayé de traduire au maximum les mots et relations qu’il contient vers le français en s’appuyant sur des ressources linguistiques communes aux deux langues et par traduction au moyen de dictionnaires. Le WOLF fonctionne donc également sur le principe des synsets et les identifiants des synsets dans le WOLF correspondent à leurs homologues dans le Wordnet de Princeton. Il est ainsi possible via cet identifiant de retrouver le synset original à partir duquel la traduction a été effectuée.


L’intégration du WOLF

Comme nous l’avons vu, la licence voulu par l’Inria pour le WOLF nous permet d’étudier précisément son contenu ainsi que d’y effectuer les modifications nécessaires à nos traitements.

Ce type de licence est donc particulièrement adapté à nos besoins en matière de recherche. C’est pourquoi, bien que ce projet ne soit pas aussi mature que son homologue Eurowordnet, nous avons opté dans un premier temps pour des tests sur ce dernier.

Cependant, la ressource n’a pas été intégré dans notre solution telle qu’elle est distribuée. En effet, cette dernière est à la base très complexe et contient beaucoup de sortes de liens.

Afin de gagner du temps, nous avons donc décidé de retirer les liens dont nous ne souhaitions pas faire usage et de ne garder que les liens correspondant à l’antonymie, à la synonymie et à l’hyperonymie. La gestion des autres liens pourra toujours être envisagée par la suite.


Démarches futures

Un article ultérieur portera sur une analyse plus fine du WOLF et de l’EuroWordnet.

Mots clefs : , , ,