Par: Benoît TROUVILLIEZ

Introduction

Le but de cet article est de présenter la conférence sur le web sémantique et le TAL à laquelle j’ai assistée le 25 Mars 2010 dans les locaux de la “Maison Européenne des Sciences de l’Homme et de la Société” de Lille. Cette conférence était organisée dans le cadre du “Printemps des sciences humaines et sociales”, édition 2010.

Elle a été présentée par trois intervenants :

  • Antonio Balvet, Maître de conférences en linguistique à l’Université Lille 3 (laboratoire STL)
  • Thierry Poibeau, Chargé de recherche en informatique au CNRS (Laboratoire LaTTiCe, Université Paris 13)
  • Manuel Zacklad, Professeur titulaire de la chaire « Expressions et cultures au travail » du Conservatoire national des arts et métiers (CNAM, Paris), et chercheur associé à l’Université de Technologie de Troyes (équipe Tech-CICO).

La conférence s’est déroulée en trois exposés distincts :

  • “L’histoire et les fondements du web sémantique” présenté par Antonio Balvet
  • “Du TAL au web sémantique” présenté par Thierry Poibeau
  • “Le Web socio-sémantique” présenté par Manuel Zacklad

Le but de cet article n’est pas de rapporter mot pour mot ce qui a été dit lors de la conférence mais surtout de présenter la notion de web sémantique ainsi que les principaux problèmes, solutions et utilisations de ce dernier.


L’histoire du web sémantique

Dans cette première partie de la conférence, il a surtout été question de présenter le web sémantique. Quelle était la vision de départ? Pourquoi a-t-elle été amenée à évoluer et vers quelle modèle?

La notion de web sémantique a été décrite à l’origine par Tim Berners Lee. Au départ, le challenge consistait à réaliser un web dédié aux machines, dans lequel ces dernières seraient capables de “comprendre” les informations et d’”agir” en conséquence. Ce web sémantique était donc à la base très proche des considérations de l’IA et proposait finalement d’offrir à ces machines inter connectés via le web, la capacité d’accéder à l’information pour effectuer les traitements demandés. La citation qui suit de Tim Berners-Lee exprime ce concept : “J’ai un double rêve pour le Web. D’une part, je le vois devenir un moyen très puissant de coopération entre les êtres humains. Et dans un second temps, j’aimerais que ce soit les ordinateurs qui coopèrent. [...] Quand mon rêve sera réalisé, le Web sera un univers où la fantaisie de l’être humain et la logique de la machine pourront coexister pour former un mélange idéal et puissant.”

Dans cette optique, les connaissances du web devaient être modélisées dans un langage compréhensible et traitable par une machine.
Des technologies tels que le RDF (langage de description), le SPARQL (langage de requête sur le RDF) ou encore l’OWL (langage extension de RDF) ont été mis au point. Grâce au langage RDF et au xml sur lequel il repose, il est possible pour chaque “détenteur” d’informations de partager sa connaissance et de donner la possibilité à un tiers de faire une requête sur sa base de connaissance au moyen de SPARQL. La combinaison de RDF et de SPARQL permet donc d’offrir ce langage compréhensible par les machines.
En ce qui concerne la partie traitement des informations, une machine n’est capable de faire de l’inférence qu’au moyen d’opérations de logique. Ex : Si l’on sait de nos connaissance que Socrate est un Homme et que tous les Hommes sont mortels alors on peut en déduire une nouvelle information qui est que Socrate est mortel. Il s’agit d’un exemple bien connu des chercheurs en IA mais qui résume parfaitement la philosophie de raisonnement voulu pour le web sémantique : un web “intelligent” capable d’apprendre par lui même.

Afin de permettre l’exploitation au maximum de cette capacité de raisonnement, l’idéal est de faire en sorte que toutes les bases de connaissances des différents détenteurs soient inter connectées entre elles afin de former une “super” base de connaissance à partir de laquelle il sera possible de faire une multitude de déductions. Pour cela, les informations doivent alors être indépendantes de la langue dans laquelle elles sont exprimées de manière à ce que n’importe quelle requête émise à partir de n’importe quelle langue puisse trouver sa solution dans cette gigantesque base de connaissance avant que la réponse ne soit renvoyée dans la langue appropriée. Dans ce but, des ontologies universelles permettraient cette indépendance vis à vis de la langue dans laquelle les informations sont exprimées. On arrive alors en quelques sortes à un “savoir universel”. Mais cette vision a également un coût non négligeable par rapport à ce que nous connaissons du web d’aujourd’hui. Ce “savoir universel” implique une cohérence globale entre les connaissances exprimées à travers le web. Or, le web tel que nous le connaissons est surtout un lieu d’échanges de “savoirs différents” dans le sens où chacun est libre de publier sur le web ses propres connaissances. Il est donc faux de penser que l’ensemble des informations du web à l’heure actuelle constituent un savoir universel et cohérent.

Même si cette notion de connaissance universelle semble de moins en moins réalisable, le web sémantique propose tout de même une vision d’avenir intéressante pour le web du futur. Une vision dans lequel les données occuperaient une place plus importante qu’elles n’ont aujourd’hui et dans lequel il serait possible de les exploiter directement sans avoir à passer nécessairement par des vues.
C’est pourquoi, il est de plus en plus courant maintenant de voir le web sémantique comme “le web des données”, c’est à dire un web où il est effectivement possible de décrire dans un formalisme rigoureux des informations afin de les partager facilement.


Du TAL au web sémantique

Dans cette deuxième partie de la conférence, il a surtout été question de savoir comment construire ce web sémantique ou web des données. La question qui se pose surtout est de savoir si l’on doit repartir de rien pour le construire ou si au contraire, on doit s’appuyer sur le web existant et le transformer pour répondre aux exigences du web sémantique.

Depuis maintenant une dizaine d’années que le web est devenu réellement un outil d’accès et de publications de connaissances pour tous, il existe une quantité phénoménale de pages sur le web écrite en langage naturel pur et contenant de nombreuses connaissances exprimées dans des langues très diverses. Ces connaissances, bien que présentent ne sont pas présentées de manière structurée comme le voudrait les considérations du web sémantique. A partir de là, deux solutions s’offrent à nous pour transformer ces informations en connaissances structurées. Soit on le fait manuellement, soit de manière semi-automatique. La première stratégie est assez coûteuse en terme de temps surtout si on veut être exhaustif et transformer l’ensemble de l’information présente à l’heure actuelle. La deuxième présente quant à elle l’avantage de gagner du temps en procédant d’abord à une pré-structuration automatique des connaissances suivi par une étape de validation/complétion manuelle.

Dans cette deuxième optique, les techniques de TAL peuvent aider à atteindre ce but. Des procédés sont déjà par exemple fortement utilisés pour repérer de manière automatique la ou les thématiques d’un texte. Le marquage de nom de personnes ou de lieux, appelée extraction d’entités nommées, en est un exemple. Il est également possible d’y adjoindre des techniques plus proches des considérations de l’analyse sémantique afin de déterminer plus précisément la thématique et même de parvenir à extraire du sens. Des techniques tels que l’analyse de co-occurrence, de lemmatisation ou de stemmatisation peuvent alors être employés pour résoudre le contexte et lever les ambiguïtés de sens. Il est également possible d’utiliser des ressources linguistiques propres à la langue dans laquelle l’information est décrite tels que des ontologies ou thésaurus.

Cette approche présente toutefois l’inconvénient d’être “risquée” dans le sens où ces techniques ne sont pas fiables à 100%. Il n’est ainsi pas rare même dans un contexte plutôt favorable de commettre 30 à 40% d’erreurs. C’est pourquoi dans la plupart des projets utilisant ces techniques, on préfère garder un document “intermédiaire” dans lequel on peut voir le texte de base ainsi que les connaissances mises en évidence par les méthodes de TAL. Ce document permet de conserver un oeil critique sur le résultat final. De même, dans le web sémantique, il conviendra de laisser dans tous les cas un accès aux documents originaux d’où a été extraite l’information afin de pouvoir vérifier dans un second temps l’adéquation entre la connaissance extraite et l’information réelle.

Les techniques de TAL doivent donc avant tout être vues non pas comme un moyen de construire un web sémantique de manière totalement automatisée mais plutôt comme un moyen de nous aider à extraire la “connaissance utile” des pages déjà présentes sur le web d’aujourd’hui afin de les adapter à ce web sémantique.


Le web socio-sémantique

Dans cette troisième partie de la conférence, il a été question de déterminer comment ce web sémantique pouvait être adapté aux réseaux sociaux du web dans ce que l’on appelle le web socio-sémantique.

Dans le web d’aujourd’hui, les réseaux sociaux sont de plus en plus nombreux et surtout sont de plus en plus une source d’informations mais surtout d’échanges entre différentes personnes. Ainsi, chaque message, chaque commentaire, chaque page web créé, chaque document mis en ligne contient des informations sur le savoir et donc la connaissance des individus dont ils sont issus.

Dans cette vision, les considérations du web des données permettent alors de capitaliser les différentes informations présentes dans ces sources variées afin d’en extraire la connaissance globale de l’individu et de le caractériser. Il n’est donc plus question de créer un savoir universel comme cela était à l’origine du web sémantique mais bien un savoir propre permettant de le caractériser.

Dans ce web socio-sémantique, on peut distinguer deux types d’informations/connaissances : des informations d’ordre générales tels que l’état civil des individus (nom, prénom, adresse, …), des informations/connaissances propres à chaque individu de ce web socio-sémantique et qui sont amenées à évoluer au cours du temps (opinions, préférences, ….). Les documents originaux (CV, pages webs, commentaires, …) sont bien sûr conservés et toujours consultables mais il devient alors possible d’y accéder via une recherche par ce web socio-sémantique.

Dans ce type de web sémantique, c’est la connaissance de chacun qui contribue à enrichir la connaissance globale du web sémantique. Les contradictions constatées dans le deuxième type d’informations sont alors vues comme des connaissances en débat ou des connaissances propres aux individus. On perd donc effectivement la notion de connaissance universelle qui était la base du web sémantique à l’origine mais cela permet de rejoindre la tendance actuelle du web : collaboratif et connexioniste, très peu compatible avec un web de connaissances universelles.

Mots clefs : , ,