L’analyse syntaxique est un domaine de la linguistique assez riche et souvent confus. À partir d’un besoin de clarté en matière d’analyseurs syntaxiques et morphosyntaxiques, l’idée est venue de faire ce point, probablement non-exhaustif, sur la terminologie du domaine théorique et applicatif de la syntaxe.

La notion de syntaxe qui suit ne relève (à nouveau) pas du domaine purement informatique mais découle directement de la linguistique. Ce billet s’adresse à des lecteurs relativement avertis, avec déjà quelques connaissances linguistiques et talistiques. Il s’agit ici de décrypter un problème en traitement automatique du langage naturel, à savoir ce qu’est et ce qu’on peut attendre (en théorie) d’une analyse syntaxique automatisée sur corpus.

De manière générale, l’objectif de l’analyse syntaxique est double en TAL :

  • créer des annotations syntaxiques exploitables pour une tâche de TAL donnée ;
  • enrichir des ressources linguistiques.

Les théories linguistiques sont nombreuses en matière d’analyse syntaxique où différentes écoles et formalismes se côtoient. Un autre billet de ce blog approche la syntaxe du point de vue de la grammaire formelle et des différents types d’algorithmes existants. Nous aborderons ici les autres notions de tagging, parsing ou chunking, d’analyse syntaxique de surface ou profonde et enfin de grammaires de constituants ou de dépendances.

Tagging, parsing et chunking

Tagging

Le tagging, plus communément appelé analyse morphosyntaxique, gère, après une étape de ségmentation d’un texte (découpage de la chaîne de caractères en unités pertinentes de types paragraphe, mot, verbatim, phrase, etc.), l’attribution d’étiquettes aux unités lexicales (c’est-à-dire aux termes des phrases). Ces unités peuvent être simples ou complexes. Ce module se scinde en plusieurs phases dont quatre principales : ségmentation, détection, désambiguisation et étiquettage. Par ailleurs, il appose deux types d’étiquettes aux unités du texte :

  • Étiquette syntaxique : catégorie grammaticale (nom, verbe, etc.) ;
  • Étiquette morphologique : traits morphologiques (féminin, pluriel, etc.).

L’étiqueteur le plus connu et le plus utilisé, du fait de sa gratuité et de ses performances, est le TreeTagger. Un autre billet de ce blog a déjà été consacré à ce sujet.

Un tel outil présente l’intérêt de pouvoir extraire des données à un niveau supérieur de la simple chaîne de caractères. Connaître l’organisation syntaxique d’une phrase permet d’en extraire et d’en comprendre plus pertinemment les informations qu’elle contient. Souvent cumulée à une lemmatisation qui associe à chaque terme du texte sa forme canonique, le système de traitement automatique peut procéder à une analyse affinée à partir de règles grammaticales (appelées grammaires formelles). Ainsi, par la lemmatisation, il est possible d’associer les formes conjuguées à leur impératif correspondant, forme canonique : marchais, marche, marchaient deviennent marcher ; par l’analyse syntaxique il est possible d’associer la bonne forme canonique et d’établir des règles de désambiguïsation : selon sa position dans la phrase, marché sera considéré comme une forme verbale de marcher ou comme un nom commun. C’est ensuite à l’analyse sémantique de les rapprocher.

Parsing et chunking

Les parsing et chunking, relevants quant à eux de l’analyse syntaxique, aboutissent à une représentation de la structure d’une phrase à partir de l’exploitation des étiquettes morphosyntaxiques obtenues lors du tagging. Parsing et chunking se différencient par le fait que le second n’offre qu’une analyse syntaxique dite “légère” de la phrase où tous les constituants ne sont pas identifiés.

Par comparaison au précédant tagging, le parsing ou chunking permettent une représentation plus complexe de la phrase et donc une plus grande finesse dans l’analyse pour des règles plus poussées. La traduction automatique, par exemple, favorisera ce type de traitement pour mieux gérer les ambiguïtés.

Les analyseurs souvent cités pour exemples et traitant le français sont le MaltParser ou encore le MSTParser qui fournissent des arbres de dépendances après entraînement (statistiques) sur corpus arborés mais qui n’ont pas d’analyseur morpho-syntaxique intégré. Nous y revenons par la suite.

Un autre usage d’un analyseur syntaxique est visible sous le site du LATL pour un apprentissage ludique (! et tout en couleur) de la syntaxe.

Analyse syntaxique profonde ou de surface

Relative à la Théorie du gouvernement et du liage de Noam Chomsky, l’analyse syntaxique de surface représente la structure de la phrase telle qu’elle est, dans sa linéarité. Elle est donc dépendante de la langue dans laquelle l’énoncé est exprimé (SVO : sujet-verbe-objet en français, SOV : sujet-objet-verbe en latin, etc.). L’analyse syntaxique profonde représente la structure d’une phrase selon un schéma syntaxique universel ou des universaux de langage.

Une relation d’un à plusieurs existe entre ces deux représentations : les nombreux types de langues existants font qu’il y a plusieurs représentations en surface d’une même phrase pour une représentation unique en syntaxe profonde.

Pour résumer :

  • L’analyse syntaxique de surface est relative à l’ordre linéaire de la phrase ;
  • L’anlayse syntaxique profonde est relative à l’ordre structural.

Une analyse par constituants ou par dépendances n’est donc pas à confondre avec cette notion et peut représenter soit la structure linéaire, soit la structure profonde de la phrase.

Grammaire de constituants et grammaire de dépendances

Les deux types de grammaires font partie de la classe des grammaires symboliques, opposées aux grammaires statistiques, et sont basées sur des théories du XXᵉ siècle. Grammaire de constituants et grammaire de dépendances sont relatives à deux approches de la syntaxe. Souvent opposées, elles le sont de moins en moins et en viennent à se compléter dans le cadre du TALN.

La différence entre les deux grammaires est représentée dans cet exemple extrait de [Candito & al., 2009], où à droite nous trouvons le résultat d’une analyse par constituants et à gauche celui de l’analyse par dépendances.

Arbre de constituants puis graphes de dependances

Arbre de constituants puis graphes de dependances

Grammaire de constituants

À l’origine issue des théories du distributionnalisme (Blommfield, Z. Harris), l’analyse syntaxique par grammaire de constituants est par ailleurs fortement inspirée des théories générativistes de Noam Chomsky. [Aubin, 2002] et [Candito & al., 2009]

Les bases posées par Bloomfield dans les années 1930 précisent la notion du constituant immédiat et une distribution « simple » (d’où le terme distributionalisme) des éléments dans la structure de la phrase. Bloomfield propose des règles de base de type :

  • SV + SN = phrase ;
  • det + nom = SN ;
  • si SN est à gauche du V alors sujet.

Ces règles seront augmentées par Z. Harris qui apporte la notion de transformation de phrases complexes en équivalent phrases simples.

Chomsky quant à lui est à l’origine de la grammaire générative (années 60) et de la théorie X-Barre (fin 70) où apparaissent les notions d’universaux de langage, de structures grammaticales beaucoup plus complexes avec un degré de sémantique où certains constituants gouvernent d’autres, etc.

L’intérêt de l’analyse syntaxique par constituants est qu’elle permet d’exprimer des « généralisations structurales évidentes » [Candito & al., 2009]. La représentation se fait par arbre syntaxique, la plupart ont recours aux grammaires hors-contexte avec l’usage d’un vocabulaire terminal (lexique) et d’un vocabulaire non-terminal (catégories syntaxiques).

Grammaire de dépendances

Tesnière et Mel’čuk sont à l’origine des théories d’analyse syntaxique par grammaires de dépendances. La grammaire de dépendances est fondée sur le principe qu’un mot dépend d’un autre dans une phrase. Par exemple, les traits morphologiques de type pluriel créent des dépendances morphologiques entre deux unités lexicales. La syntaxe est alors organisée à partir des fonctions de mots et non plus de leur catégorie. En outre, la grammaire de dépendance est basée sur un dictionnaire dans lequel la valence (nombre et type d’argument : actant ou agent, actant ou thème, outils, lieu, etc que prend un verbe) est nécessairement explicitée.

Lucien Tesnière, dans la 1ère moitié du XXᵉ siècle, développe la grammaire et la terminologie connexe. Apparaissent certaines notions majeures :

  • une unité lexicale peut être gouverneur d’une autre unité ;
  • une unité lexicale peut être dépendant d’une autre unité ;
  • il y a un ordre linéaire (structure de surface) ;
  • il y a un ordre structural (structure profonde) ;
  • un actant : « être ou chose qui, à un titre quelconque, et de quelque façon que ce soit, même au titre de simples figurants et de la façon la plus passive, participent au procès » (Tesnière) ;
  • des circonstants : adverbe ou modifieur ;
  • tête de phrase = verbe.

Mel’čuk, fin XXᵉ, début XXIᵉ, s’inspire des travaux de Tesnière et de Chomsky et propose la Théorie sens-texte (TST ou MST, modèle sens-texte), théorie souvent citée dans les modules de TAL.

La TST de Mel’čuk considère différents niveaux d’analyse avec la représentation de multiples composantes de la linguistique :  la phonologie, la phonétique, la morphologie, la syntaxe et la sémantique qui équivalent aux différents niveaux de modélisation d’un énoncé. Elle schématise ainsi les relations entre les composantes :

Théorie Sens-Texte

Théorie Sens-Texte de Mel'čuk

Deux structures possibles :

  • structure syntaxique de surface : tous les mots (mots outils et pronoms compris) sont représentés ;
  • structure syntaxique profonde : l’arbre de dépendances ne représente que les unités lexicales pleines (contrairement aux mots vides) au niveau des nœuds ; les relations syntaxiques sont universelles, l’ordre des mots n’est pas respecté et les co-références sont représentées.

La représentation des énoncés prend la forme d’un graphe où les nœuds sont des unités lexicales dont les dépendances sont exprimées par des arcs. L’annotation en dépendance peut se faire directement ou à partir des étiquettes fournies par l’analyse en constituants. Il n’y a pas, selon [Candito & al., 2009], de comparatif avec ou sans analyse par constituants au préalable.

Enfin, il existe différents schémas d’annotation en dépendance eux-mêmes relatifs aux différentes théories d’annotations existantes : EASy, GR (standard international), Stanford Dependencies (standard international) ou encore PARC (standard international).

L’intérêt croissant pour ces théories en TAL est assez bien représenté dans la littérature scientifique. Ils permettent en effet une extraction plus directe de la structure argumentale et fournissent un langage plus neutre pour l’évaluation. La structure argumentale permet de se représenter la position du sujet agissant, de celui qui subit, du lieu, etc. dans une phrase. Elle peut être utile dans le cadre de l’extraction d’informations au sujet d’événement par exemple : date, lieu, acteur, objet, instrument, etc. Ce type d’analyse peut également aider à la résolution d’anaphore pour savoir ce à quoi renvoie les pronoms référents, les termes de type en dans « il en a acheté, etc.

Les analyseurs les plus connus pour le français semblent être le Berckley Parseur, le MST Parseur ou MaltParseur cités précédemment. Sous ce lien, il est possible de les télécharger et d’y trouver une évaluation de Marie Candito.
La difficulté ressentie généralement semble être de trouver des analyseurs adaptés pour le français, gratuits, et qui ne nécessitent pas de formats spécifiques (notamment CONNL)… La littérature sur le sujet semble privilégier l’établissement “à la main” d’analyseur par dépendances à partir de l’étiquetage obtenu par un chunker. Ce procédé semble long et coûteux.
Il est par ailleurs à noter qu’une conférence aura lieu en septembre 2011 sur ces approches par dépendances.

Conclusion

En conclusion de ces trois points présentés, nous comprenons qu’il y a différents niveaux de granularité dans l’analyse linguistique, en l’occurrence syntaxique, automatiquement établie sur corpus. Simple ou complexe, chaque type d’analyse présente un intérêt et c’est l’information à exploiter qui déterminera le choix des outils. Plus l’outil sera complexe plus nous nous rapprochons de l’intelligence artificielle où le processus est apte à se représenter et à comprendre le langage naturel pour en extraire des informations précises, pour les interpréter ou encore pour exprimer une réponse appropriée.

Ressources

Mots clefs : , , , , ,

Laisser un commentaire