Par: Benoît TROUVILLIEZ

Introduction

Le but de cet article est d’expliciter les termes “Traitement automatique des langues”, “Intelligence Artificielle”, “Analyse sémantique” et “Clusterings”. Nous montrons notamment quelques exemples de ces différents procédés et expliquons en quoi ils peuvent être utiles pour la société Onyme.

Traitement Automatique des Langues

Le traitement automatique des langues (TAL) ou encore Traitement automatique du langage naturel (TALN) sont des termes encore méconnus du grand public alors qu’ils représentent des traitements informatiques dont les applications deviennent incontournables dans notre monde actuel.

En effet, qui n’a jamais entendu parler de programmes informatiques capables de comprendre le langage des humains et de fournir une réponse adaptée sans qu’aucune intervention extérieure ne soit nécessaire? Même si les robots humanoïdes sont encore bien loin des mythes véhiculés par la science fiction, il n’en demeure pas moins que des applications tels que les logiciels d’aides intelligents comme ceux que l’on peut trouver sur certains sites webs sont eux déjà bien présents dans notre époque.

Les termes TAL et TALN représentent de manière général les traitements informatiques capables de “traiter” de manière automatique (donc uniquement au moyen d’ordinateurs) le langage naturel (les langues parlées par les humains comme le français par exemple).

Bien plus que de la simple reconnaissance de termes (ou mots clés), le but du TAL est réellement de “comprendre” le sens des phrases, les idées qui s’en dégagent et ce de manière à pouvoir “traiter” de la manière la plus optimale et la plus naturelle d’un point de vue humain ces phrases. Dans ce but, il est courant d’associer les notions de TAL et d’analyse sémantique.

Les finalités de ces traitements peuvent être de natures multiples :
- fournir une réponse adaptée à l’idée exprimée dans une question
- effectuer des regroupements entre des phrases/textes similaires dans le but d’en extraire des statistiques
- transformer des textes originaux en textes similaires reprenant les mêmes idées (résumés, traductions,…)
- extraire une ou plusieurs informations précises d’un ou de plusieurs textes
- Et de manière générale, à tous ce qui à trait à la manipulation, classification, compréhension des langages naturels

Le traitement automatique des langues, de par sa nature à permettre aux ordinateurs “de comprendre” les langages humains fait partie des spécialités de ce que l’on appelle l’intelligence artificielle.


Intelligence artificielle

L’intelligence artificielle (IA) représente le concept d’algorithmes informatiques visant à donner aux machines la capacité d’effectuer des “tâches” normalement réalisable uniquement par un être doté d’une intelligence (de faculté de raisonnement).

En d’autres termes, l’intelligence artificielle désigne l’ensemble des algorithmes visant à “simuler” un raisonnement au niveau d’une machine.

Il existe de nombreuses branches dont nous pouvons citer de manière non exhaustive :
- les solveurs SAT. Il s’agit ici de créer un algorithme pour démonter qu’une instance peut être ou non satisfaite.
- les solveurs CSP. Très utilisés pour résoudre des problèmes où plusieurs contraintes doivent être respectées.
- le TAL. Il s’agit d’effectuer des traitements complexes sur des langages humains


Analyse sémantique

L’analyse sémantique représente l’ensemble des procédés visant à analyser le sens des mots et des phrases.

L’analyse sémantique est le plus souvent utilisée comme préambule au traitement automatique des langues.

Il s’agit, en effet, dans un premier temps de “comprendre” les textes au moyen de l’analyse sémantique avant d’effectuer les traitements que l’on souhaite sur ces textes.

De manière générale, l’analyse sémantique va permettre la construction, à partir d’une chaîne de caractères (le texte brut écrit en langage naturel), d’une représentation informatique équivalente de ces textes. L’avantage de ces représentations par rapport aux textes originaux et de pouvoir être exploitables par une machine tout en ayant gardé (du moins dans la théorie) les relations sémantiques des textes de départ.


Clustering ou regroupements non supervisés

On désigne par clustering ou regroupements non supervisés, l’ensemble des algorithmes visant à rapprocher de manière non supervisé (sans intervention extérieure ou feedback sur l’algorithme) des entités pour former des groupes homogènes. Il s’agit donc d’une spécialité de l’intelligence artificielle dans le sens où on effectue un raisonnement visant à détecter des similitudes mais n’est pas uniquement lié au TAL. On peut par exemple utiliser le clustering en génétique pour détecter des similitudes entre différents gènes.

Dans le cas du traitement du langage et plus particulièrement dans le cas qui nous intéresse, les entités sont des textes et les rapprochements sont faits par rapport au sens, opinions de ces textes. Les clusters ainsi formés représente chacun une idée / un sens distinct.

Il existe plusieurs types d’algorithmes de regroupements non supervisés :
- Les algorithmes hiérarchiques
- Les algorithmes par partitions
- Les algorithmes par densité
- Les algorithmes par réseau neuronal

Mots clefs : , , , ,