Blog Onyme
Ontologies, Wordnet, Eurowordnet et WOLF31 mars 2010OntologieUne ontologie dans son sens le plus large est une structure en forme de graphe permettant d’exprimer des connaissances. Pour cela, deux types d’éléments sont utilisés : Dans un cadre sémantique, les concepts de base sont les mots de la langue et les relations correspondent aux différents liens sémantiques pouvant exister dans cette langue entre les mots. Nous citerons pour exemple, la synonymie, l’antonymie ou encore l’hyperonymie (généricité) et l’hyponymie (spécificité). WordnetLe Wordnet est une ontologie pour la langue anglaise développée par les linguistes de l’Université de Princeton. La structure du Wordnet repose sur des ensembles de synonymes (“synonym set” en anglais) appelés synset. Chaque synset représente alors un sens, un concept de la langue anglaise. Chacun d’eux contient tous les mots synonymes pouvant exprimer le sens auquel il fait référence. Les liens sémantiques à proprement parler ne relient alors pas les mots entre eux mais les synsets auxquels les mots sont affectés. Le Wordnet de Princeton est actuellement dans sa troisième révision principale. Le projet EuroWordnetAvec le succès du Wordnet de Princeton pour la langue anglaise, est arrivé le souhait pour d’autres linguistes d’autres pays de créer une ontologie aux caractéristiques similaires à celle de Princeton pour d’autres langues du monde. C’est ainsi qu’en 1996, le projet EuroWordnet à l’initiative de l’université d’Amsterdam a été fondé. Il s’agit sans doute là d’un des projets les plus connus d’ontologies basées sur le Wordnet de Princeton pour les langues d’Europe. Ce projet a consisté à la réalisation d’ontologies similaires à celle de Princeton pour 8 langues européennes dont le français. Développé pendant trois ans (1996-1999), on peut maintenant le considérer comme un projet mature et aboutit puisque clôturé depuis maintenant plus de dix ans. Le majeur inconvénient de ce projet réside dans son accessibilité limité au plus grand nombre. En effet, contrairement au projet de Princeton qui est en diffusion libre et gratuite, celui d’EuroWordnet est soumis à une licence propriétaire restrictive. Cela explique en grande partie la nette moins grande notoriété de ce projet par rapport à son homologue anglais. En 2000, soit un an après la fin du projet EuroWordnet, les chercheurs en charge des projet Wordnet et Eurowordnet ont créé la “Global Wordnet Association” destinée à lister et à soutenir les projets visant à créer des ontologies sur la base du Wordnet de Princeton. L’association dénombre actuellement plus de 70 langues à travers le monde possédant un “wordnet”. Le Wordnet Libre du Français (WOLF)Le Wordnet Libre du Français (WOLF) est une ontologie généraliste pour la langue française développée au coeur d’un projet de l’Inria. Ce projet a été débuté officiellement début 2008 et est toujours en cours de développement. Il s’agit donc avant tout d’un projet “jeune” qui n’est donc de ce fait pas totalement abouti et doit encore être amené à évoluer et à s’enrichir. Pour la réaliser, l’équipe en charge du projet s’est appuyée sur le Wordnet de Princeton. Contrairement au projet EuroWordnet, le but de l’Inria est de mettre à disposition pour le français comme cela est le cas pour l’anglais, une ontologie généraliste en accès libre et gratuit. Comme le Wordnet de Princeton est librement utilisable et modifiable, les chercheurs de l’Inria sont partis de ce dernier et ont essayé de traduire au maximum les mots et relations qu’il contient vers le français en s’appuyant sur des ressources linguistiques communes aux deux langues et par traduction au moyen de dictionnaires. Le WOLF fonctionne donc également sur le principe des synsets et les identifiants des synsets dans le WOLF correspondent à leurs homologues dans le Wordnet de Princeton. Il est ainsi possible via cet identifiant de retrouver le synset original à partir duquel la traduction a été effectuée. L’intégration du WOLFComme nous l’avons vu, la licence voulu par l’Inria pour le WOLF nous permet d’étudier précisément son contenu ainsi que d’y effectuer les modifications nécessaires à nos traitements. Ce type de licence est donc particulièrement adapté à nos besoins en matière de recherche. C’est pourquoi, bien que ce projet ne soit pas aussi mature que son homologue Eurowordnet, nous avons opté dans un premier temps pour des tests sur ce dernier. Cependant, la ressource n’a pas été intégré dans notre solution telle qu’elle est distribuée. En effet, cette dernière est à la base très complexe et contient beaucoup de sortes de liens. Afin de gagner du temps, nous avons donc décidé de retirer les liens dont nous ne souhaitions pas faire usage et de ne garder que les liens correspondant à l’antonymie, à la synonymie et à l’hyperonymie. La gestion des autres liens pourra toujours être envisagée par la suite. Démarches futuresUn article ultérieur portera sur une analyse plus fine du WOLF et de l’EuroWordnet. Mots clefs : EuroWordnet, ontologie, WOLF, Wordnet |
Took me some time to flick thru the whole comments, but I actually just like the post. It proved to be incredibly useful. It is often neat when you’ll be informed. thanks for this useful article.
Generally I don’t learn post on blogs, however I wish to say that this write-up very pressured me to try and do it! Your writing taste has been amazed me. Thanks, very great article.
I’m not sure where you’re getting your information, but great topic. I needs to spend some time learning more or understanding more. Thanks for magnificent info I was looking for this information for my mission.
Savez-vous comment puis-je utiliser WOLF? Il est fichier XML, mais savez-vous une methode de le lire?
Bonjour,
Dans la théorie, il est possible de le lire avec tout lecteur adapté pour le xml (web browser, éditeurs de textes, …). Dans la pratique, étant donné que le fichier est assez volumineux, cela n’est pas toujours possible.
Dans mes programmes informatiques, j’utilise un parseur SAX pour parcourir le fichier et en extraire les informations que je veux. Contrairement à des parseurs DOM, les parseurs SAX ne requièrent pas de charger le document xml en mémoire vive (ce qui est difficile pour des fichiers volumineux).
Referring Back…
Today is the time if ever you want to read a story like this….
Bonjour,
Je suis intéressé à savoir ou en est le projet d’ontologie WOLF. Comment peut on se procurer l’ontologie ? Quel est son volume ? Est il possible d’en avoir un extrait à des fins de tests ?
Bonjour,
Le WOLF est développé par l’équipe ALPAGE de l’Inria. Il est disponible sur la page officielle du projet : http://alpage.inria.fr/~sagot/wolf.html.
Il est distribué sous la forme d’un fichier xml de 37 MO et est en licence open source (donc tu peux faire des benchmarks sur la version complète sans soucis).
La version courante distribuée est la 0.1.5 mais j’ai pu assister il y a un mois de cela à la présentation des benchmarks internes de la version 0.2 (qui n’est donc pas encore publiquement disponible). D’après le benchmark réalisé en interne par l’équipe de l’Inria, la nouvelle version devrait être plus complète que la version 0.1.5. A suivre….
Si tu veux plus d’infos sur cette présentation, tu peux consulter le billet que j’ai publié en début de semaine concernant cette conférence : http://blog.onyme.com/gwc-2012-retour/
the wonderfull of travel is make your travel have a good time. do forget to visit me.
Hi my friend! I would like to mention that this publish is amazing, wonderful created are available with about all vital information. I’d like to peer a lot more articles like this <a href="http://badcreditpaydayloanspp.com “>money advances.
C’est la grosse galère dans ce domaine niveau langue française !
Wordnet est en anglais, eurowordnet est payant (et très cher !) et enfin wolf pas du tout documenté (à part dire basé sur balkanet…), en franglais et pas à jour je trouve ça vraiment limite… Bref on peut dire qu’il n’y a vraiment rien dans ce domaine pour la langue française.
great post, i like it, thanks so much.
Bonjour,
Oui ce n’est pas le top pour la langue française.
On attend toujours la distribution de la version 0.2 du Wolf qui devrait être un peu plus riche que la version 0.1.5 actuellement distribuée.
Le projet WOLF semble évoluer pas mal cette année. Après la présentation à laquelle j’ai assisté en début d’année, quatre publications et présentations ont eu lieu à la conférence LREC 2012 à Istanbul sur le projet :
Hanoka Valérie et Sagot Benoît (2012). Wordnet creation and extension made simple: A multilingual lexicon-based approach using wiki resources. In Proceedings of LREC 2012, Istanbul, Turquie
Apidianaki Marianna et Sagot Benoît (2012). Applying Cross-Lingual WSD to Wordnet Development. In Proceedings of LREC 2012, Istanbul, Turquie
Gábor Kata, Apidianaki Marianna, Sagot Benoît et Villemonte de La Clergerie Éric (2012). Boosting the Coverage of a Semantic Lexicon by Automatically Extracted Event Nominalizations. In Proceedings of LREC 2012, Istanbul, Turquie
Sagot Benoît et Fišer Darja (2012). Cleaning noisy wordnets. In Proceedings of LREC 2012, Istanbul, Turquie
En attente donc de la publication de la nouvelle release….
If you are first-time to parked domains then you are certainly a Domainbie
Awsome beautifull Website i m big fan of this website Real Estate In Dubai
[...] n’est pas nouveau. En effet, d’autres articles proposent déjà des réflexions sur des ontologies existantes, notamment le Wolf et l’EuroWordnet. Nous nous plaçons ici dans une démarche lexicale, [...]
I do not even know how I ended up here, but I thought this post was great. I do not know who you are but certainly you’re going to a famous blogger if you aren’t already Cheers!
blog.anyme.com is my favorite blog
Thanks for a marvelous posting! I truly enjoyed reading it,
you’re a great author.I will make sure to bookmark your blog and may come back very soon. I want to encourage continue your great job, have a nice evening!
I was quite pleased to discover this article. I want to thank you for taking the time to compose this wonderful read!! I definitely liked every bit of it and I also have this site book marked so that I can return to check out new information in your site.
Howdy! Do you use Twitter? I’d like to follow you if that would be okay.
I’m undoubtedly enjoying your blog and look forward to new updates.
Hi, I do think this is an excellent website. I stumbledupon it I may revisit
once again since i have book-marked it. Money and
freedom is the best way to change, may you be rich and continue
to help others.
I got this web page from my pal who shared with me
on the topic of this site and now this time I
am browsing this web site and reading very informative posts here.
What’s up to every single one, it’s really a nice for me to pay
a quick visit this website, it consists of precious
Information.
Pretty nice post. I just stumbled upon your weblog and wished to
say that I’ve really enjoyed surfing around your blog posts.
After all I will be subscribing to your feed and I hope you write again
very soon!
I was recommended this blog by means of my cousin.
I’m now not certain whether this publish is written by means of him as no one else understand such specified
about my difficulty. You’re wonderful! Thanks!