Quelques notions en analyse syntaxique15 juin 2011L’analyse syntaxique est un domaine de la linguistique assez riche et souvent confus. À partir d’un besoin de clarté en matière d’analyseurs syntaxiques et morphosyntaxiques, l’idée est venue de faire ce point, probablement non-exhaustif, sur la terminologie du domaine théorique et applicatif de la syntaxe. La notion de syntaxe qui suit ne relève (à nouveau) pas du domaine purement informatique mais découle directement de la linguistique. Ce billet s’adresse à des lecteurs relativement avertis, avec déjà quelques connaissances linguistiques et talistiques. Il s’agit ici de décrypter un problème en traitement automatique du langage naturel, à savoir ce qu’est et ce qu’on peut attendre (en théorie) d’une analyse syntaxique automatisée sur corpus. De manière générale, l’objectif de l’analyse syntaxique est double en TAL :
Les théories linguistiques sont nombreuses en matière d’analyse syntaxique où différentes écoles et formalismes se côtoient. Un autre billet de ce blog approche la syntaxe du point de vue de la grammaire formelle et des différents types d’algorithmes existants. Nous aborderons ici les autres notions de tagging, parsing ou chunking, d’analyse syntaxique de surface ou profonde et enfin de grammaires de constituants ou de dépendances. Tagging, parsing et chunkingTaggingLe tagging, plus communément appelé analyse morphosyntaxique, gère, après une étape de ségmentation d’un texte (découpage de la chaîne de caractères en unités pertinentes de types paragraphe, mot, verbatim, phrase, etc.), l’attribution d’étiquettes aux unités lexicales (c’est-à-dire aux termes des phrases). Ces unités peuvent être simples ou complexes. Ce module se scinde en plusieurs phases dont quatre principales : ségmentation, détection, désambiguisation et étiquettage. Par ailleurs, il appose deux types d’étiquettes aux unités du texte :
L’étiqueteur le plus connu et le plus utilisé, du fait de sa gratuité et de ses performances, est le TreeTagger. Un autre billet de ce blog a déjà été consacré à ce sujet. Un tel outil présente l’intérêt de pouvoir extraire des données à un niveau supérieur de la simple chaîne de caractères. Connaître l’organisation syntaxique d’une phrase permet d’en extraire et d’en comprendre plus pertinemment les informations qu’elle contient. Souvent cumulée à une lemmatisation qui associe à chaque terme du texte sa forme canonique, le système de traitement automatique peut procéder à une analyse affinée à partir de règles grammaticales (appelées grammaires formelles). Ainsi, par la lemmatisation, il est possible d’associer les formes conjuguées à leur impératif correspondant, forme canonique : marchais, marche, marchaient deviennent marcher ; par l’analyse syntaxique il est possible d’associer la bonne forme canonique et d’établir des règles de désambiguïsation : selon sa position dans la phrase, marché sera considéré comme une forme verbale de marcher ou comme un nom commun. C’est ensuite à l’analyse sémantique de les rapprocher. Parsing et chunkingLes parsing et chunking, relevants quant à eux de l’analyse syntaxique, aboutissent à une représentation de la structure d’une phrase à partir de l’exploitation des étiquettes morphosyntaxiques obtenues lors du tagging. Parsing et chunking se différencient par le fait que le second n’offre qu’une analyse syntaxique dite “légère” de la phrase où tous les constituants ne sont pas identifiés. Par comparaison au précédant tagging, le parsing ou chunking permettent une représentation plus complexe de la phrase et donc une plus grande finesse dans l’analyse pour des règles plus poussées. La traduction automatique, par exemple, favorisera ce type de traitement pour mieux gérer les ambiguïtés. Les analyseurs souvent cités pour exemples et traitant le français sont le MaltParser ou encore le MSTParser qui fournissent des arbres de dépendances après entraînement (statistiques) sur corpus arborés mais qui n’ont pas d’analyseur morpho-syntaxique intégré. Nous y revenons par la suite. Un autre usage d’un analyseur syntaxique est visible sous le site du LATL pour un apprentissage ludique (! et tout en couleur) de la syntaxe. Analyse syntaxique profonde ou de surfaceRelative à la Théorie du gouvernement et du liage de Noam Chomsky, l’analyse syntaxique de surface représente la structure de la phrase telle qu’elle est, dans sa linéarité. Elle est donc dépendante de la langue dans laquelle l’énoncé est exprimé (SVO : sujet-verbe-objet en français, SOV : sujet-objet-verbe en latin, etc.). L’analyse syntaxique profonde représente la structure d’une phrase selon un schéma syntaxique universel ou des universaux de langage. Une relation d’un à plusieurs existe entre ces deux représentations : les nombreux types de langues existants font qu’il y a plusieurs représentations en surface d’une même phrase pour une représentation unique en syntaxe profonde. Pour résumer :
Une analyse par constituants ou par dépendances n’est donc pas à confondre avec cette notion et peut représenter soit la structure linéaire, soit la structure profonde de la phrase. Grammaire de constituants et grammaire de dépendancesLes deux types de grammaires font partie de la classe des grammaires symboliques, opposées aux grammaires statistiques, et sont basées sur des théories du XXᵉ siècle. Grammaire de constituants et grammaire de dépendances sont relatives à deux approches de la syntaxe. Souvent opposées, elles le sont de moins en moins et en viennent à se compléter dans le cadre du TALN. La différence entre les deux grammaires est représentée dans cet exemple extrait de [Candito & al., 2009], où à droite nous trouvons le résultat d’une analyse par constituants et à gauche celui de l’analyse par dépendances. Grammaire de constituantsÀ l’origine issue des théories du distributionnalisme (Blommfield, Z. Harris), l’analyse syntaxique par grammaire de constituants est par ailleurs fortement inspirée des théories générativistes de Noam Chomsky. [Aubin, 2002] et [Candito & al., 2009] Les bases posées par Bloomfield dans les années 1930 précisent la notion du constituant immédiat et une distribution « simple » (d’où le terme distributionalisme) des éléments dans la structure de la phrase. Bloomfield propose des règles de base de type :
Ces règles seront augmentées par Z. Harris qui apporte la notion de transformation de phrases complexes en équivalent phrases simples. Chomsky quant à lui est à l’origine de la grammaire générative (années 60) et de la théorie X-Barre (fin 70) où apparaissent les notions d’universaux de langage, de structures grammaticales beaucoup plus complexes avec un degré de sémantique où certains constituants gouvernent d’autres, etc. L’intérêt de l’analyse syntaxique par constituants est qu’elle permet d’exprimer des « généralisations structurales évidentes » [Candito & al., 2009]. La représentation se fait par arbre syntaxique, la plupart ont recours aux grammaires hors-contexte avec l’usage d’un vocabulaire terminal (lexique) et d’un vocabulaire non-terminal (catégories syntaxiques). Grammaire de dépendancesTesnière et Mel’čuk sont à l’origine des théories d’analyse syntaxique par grammaires de dépendances. La grammaire de dépendances est fondée sur le principe qu’un mot dépend d’un autre dans une phrase. Par exemple, les traits morphologiques de type pluriel créent des dépendances morphologiques entre deux unités lexicales. La syntaxe est alors organisée à partir des fonctions de mots et non plus de leur catégorie. En outre, la grammaire de dépendance est basée sur un dictionnaire dans lequel la valence (nombre et type d’argument : actant ou agent, actant ou thème, outils, lieu, etc que prend un verbe) est nécessairement explicitée. Lucien Tesnière, dans la 1ère moitié du XXᵉ siècle, développe la grammaire et la terminologie connexe. Apparaissent certaines notions majeures :
Mel’čuk, fin XXᵉ, début XXIᵉ, s’inspire des travaux de Tesnière et de Chomsky et propose la Théorie sens-texte (TST ou MST, modèle sens-texte), théorie souvent citée dans les modules de TAL. La TST de Mel’čuk considère différents niveaux d’analyse avec la représentation de multiples composantes de la linguistique : la phonologie, la phonétique, la morphologie, la syntaxe et la sémantique qui équivalent aux différents niveaux de modélisation d’un énoncé. Elle schématise ainsi les relations entre les composantes : Deux structures possibles :
La représentation des énoncés prend la forme d’un graphe où les nœuds sont des unités lexicales dont les dépendances sont exprimées par des arcs. L’annotation en dépendance peut se faire directement ou à partir des étiquettes fournies par l’analyse en constituants. Il n’y a pas, selon [Candito & al., 2009], de comparatif avec ou sans analyse par constituants au préalable. Enfin, il existe différents schémas d’annotation en dépendance eux-mêmes relatifs aux différentes théories d’annotations existantes : EASy, GR (standard international), Stanford Dependencies (standard international) ou encore PARC (standard international). L’intérêt croissant pour ces théories en TAL est assez bien représenté dans la littérature scientifique. Ils permettent en effet une extraction plus directe de la structure argumentale et fournissent un langage plus neutre pour l’évaluation. La structure argumentale permet de se représenter la position du sujet agissant, de celui qui subit, du lieu, etc. dans une phrase. Elle peut être utile dans le cadre de l’extraction d’informations au sujet d’événement par exemple : date, lieu, acteur, objet, instrument, etc. Ce type d’analyse peut également aider à la résolution d’anaphore pour savoir ce à quoi renvoie les pronoms référents, les termes de type en dans « il en a acheté, etc. Les analyseurs les plus connus pour le français semblent être le Berckley Parseur, le MST Parseur ou MaltParseur cités précédemment. Sous ce lien, il est possible de les télécharger et d’y trouver une évaluation de Marie Candito. ConclusionEn conclusion de ces trois points présentés, nous comprenons qu’il y a différents niveaux de granularité dans l’analyse linguistique, en l’occurrence syntaxique, automatiquement établie sur corpus. Simple ou complexe, chaque type d’analyse présente un intérêt et c’est l’information à exploiter qui déterminera le choix des outils. Plus l’outil sera complexe plus nous nous rapprochons de l’intelligence artificielle où le processus est apte à se représenter et à comprendre le langage naturel pour en extraire des informations précises, pour les interpréter ou encore pour exprimer une réponse appropriée. Ressources
Mots clefs : analyse morpho-syntaxique, analyse syntaxique, grammaire de constituants, grammaire de dépendances, syntaxe, TALN Laisser un commentaire |