Par: Benoît TROUVILLIEZ

Introduction

Ce nouvel article a pour but de vous faire partager un peu plus mon expérience sur les ateliers (workshops) de la conférence TIA, édition 2011 auxquels j’ai pu assister début novembre 2011 à Paris. Il s’agit de la suite d’un premier billet publié en fin d’année dernière.

TIA

J’ai présenté en détails la conférence dans le premier billet. Je vous invite donc à vous y reporter.

Ontology Lexicalisation : The lemon Perspective

Auteurs : Paul Buitelaar et al
pdf/bib

Comme promis lors du premier billet, je vous présente aujourd’hui la perspective lemon. Lemon est ici un acronyme pour LExical Model for ONtologies (modèle lexical pour des ontologies) dont nous allons voir l’intérêt dans deux cas d’utilisation présentés dans le papier.

Qu’est ce qu’une ontologie?
Pour comprendre l’intérêt rappelons d’abord ce qu’est une ontologie dans le sens où on l’entend ici. Il s’agit de manière générale d’une ressource permettant la description d’un domaine au travers de ses concepts et des liens existants entre eux. L’auteur prend l’exemple d’une ontologie basée sur le domaine du tourisme et décrivant par conséquent (et entre autres) les monuments historiques et les œuvres d’art. Si vous voulez entrer un peu plus dans les détails de ce qu’est une ontologie, vous pouvez consulter cet autre billet du blog.

Le problème de l’extraction d’informations à partir de textes
Le premier problème posé suppose alors qu’il faille extraire des informations pertinentes de textes par rapport à un domaine décrit par une ontologie. L’auteur nous montre alors que ce problème n’est simple à résoudre qu’à la condition que l’ontologie emploie les même termes que le texte. Dans son exemple, l’ontologie décrit les monuments historiques en tant qu’”édifice historique”. Par conséquent, un texte commençant par “l’édifice historique de l’université de Barcelone….” sera aisément reconnu comme pertinent. Par contre, si le texte mentionne “l’édifice reconnu monument historique national…”, la pertinence est de ce fait moins triviale.

Le problème de la recherche d’informations dans l’ontologie et la gestion du multilinguisme
Le deuxième problème posé concerne l’interrogation de la connaissance enregistrée dans l’ontologie en langage naturel. Un exemple est alors pris sur l’ontologie par une requête simple : “Qui a peint Mona Lisa?”. Encore une fois, si l’ontologie décrit pour les peintures la notion de peindre, cette requête ne présente (à priori) pas de difficultés particulières sous condition qu’elle décrive bien l’œuvre “Mona Lisa” et pas “La Joconde”. Mais dans le cas où l’ontologie comporte uniquement la description des artistes pour chaque œuvre, cela suppose d’être capable d’établir un lien entre l’action de peindre et la notion d’artiste… Cette deuxième problématique introduit également des réflexions concernant la gestion du multilinguisme. Que la question soit posée dans n’importe quelle langue, l’élément de réponse est invariant (seule la manière de l’exprimer va changer). La gestion du multilinguisme n’est cependant pas triviale si on ne dispose pas d’informations concernant les liens existants entre peint, painted, pinto’,…

La perspective lemon
En quoi le lemon va alors nous aider? Le but est de créer un lien entre les ontologies (comme celle prise en exemple auparavant) et des ressources lexicales. Typiquement, chaque entité (ou concepts) de l’ontologie est mappé sur les sens lexicaux permettant la réalisation du concept ontologique. Dans l’exemple des artistes de l’ontologie du tourisme, l’entité artiste peut ainsi mappée sur sur le sens lexical “qui réalise une œuvre d’art”. Ce sens lexical trouve sa réalisation dans des entrées lexicales comme par exemple l’entrée “peintre” qui elle même est réalisée au travers de formes lexicales comme “peintre” ou “peintres”. Il est alors possible d’établir des liens entre les différents sens lexicaux.

Cela me fait penser à quelque chose…
Si vous avez déjà lu des billets dans le blog (et particulièrement ceux traitant de Wordnet et de lemmatisation), ces notions doivent vous donner une impression de déjà vu. Cela est normal puisque Wordnet est une ressource lexicale gérant des entrées et des sens lexicaux mais dans un contexte généraliste. Ici, le but est d’obtenir une ressource semblable à wordnet sur ces points mais spécifique au domaine traité par l’ontologie et plus spécifiquement à l’ontologie elle même. L’ajout de la notion des formes lexicales relate aux travaux de lemmatisation que nous avons également étudié auparavant.

Mots clefs : , , , , ,