Par: Benoît TROUVILLIEZ

Introduction

Comme je l’avais annoncé dans le blog en Avril, l’édition 2012 de la conférence TALN – RECITAL s’est déroulée à Grenoble du 04 au 08 Juin. Cette année était pourtant particulière… Je vous propose un petit tour d’horizon sur cette conférence.

Sommaire

JEP-TALN, c’est quoi?

JEP-TALN (raccourci de JEP-TALN-RECITAL), ce sont deux conférences qui se déroulent sur le même lieu et en même temps tous les 4 ans. Si elles ont chacune une histoire qui leur est propre, les conférences se rejoignent sur la volonté de traiter du langage naturel.

TALN-RECITAL

TALN (Traitement Automatique du Langage Naturel) – RECITAL (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues)

Elle est organisée tous les ans sous l’égide de l’ATALA (Association pour le Traitement Automatique des Langues). J’ai eu l’occasion d’assister aux deux précédentes éditions qui se sont tenues à Montréal et Montpellier en 2010 et 2011. Le domaine de la conférence est l’étude et le traitement automatique du langage naturel dans son ensemble. Cependant, le traitement du langage naturel sous sa forme “écrite” est bien souvent sur représenté par rapport aux autres styles de canaux utilisés par le langage naturel tel que les canaux oraux ou gestuels.

JEP

JEP (Journées d’Études sur la Parole)

Elle est organisée tous les deux ans sous l’égide de l’AFCP (Association Francophone de la Communication Parlée). Le domaine de la conférence se situe sur l’étude et le traitement de la langue parlée (la parole).

JEP-TALN-RECITAL

Lorsque l’on réunit les deux conférences, cela donne une grande conférence sur le traitement de la langue aussi bien écrite que parlée organisée sous l’égide des deux associations tous les 4 ans : JEP-TALN.

Vectorisation, Okapi et calcul de similarité pour le TAL : pour oublier enfin le TF-IDF

Auteur : Vincent Claveau
Conférence : TALN, pp 85-98
PDF / Bibtex

Ce premier exposé est une prise de position dans le domaine de la recherche d’informations. C’est un papier de la conférence TALN mais qui a été présenté lors de la session commune du mardi matin. Je l’ai trouvé particulièrement intéressant car il reprend les grandes méthodes utilisées fréquemment dans le domaine et les comparent à des méthodes plus récentes en s’interrogeant sur la pertinence des anciennes méthodes par rapport aux anciennes. J’ai particulièrement apprécié la mise en compétition de la très célèbre pondération TF-IDF avec des méthodes telles que l’Okapi BM-25. L’auteur est en tous cas clairement en faveur de l’Okapi qu’il juge comme “un TF-IDF amélioré“.

Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d’un mot inconnu

Auteur : Marion Baranes
Conférence : RECITAL, pp 95-108
PDF / Bibtex

Cet exposé d’un travail de thèse aborde le problème de la détermination de la langue des mots d’un texte. Cette détermination s’effectue dans le cadre (et dans le but) d’une correction orthographique. Si certains correcteurs sont capables de détecter la langue globale d’un texte, il est beaucoup plus rare qu’ils s’intéressent à la langue de chaque mot. Pourtant comment traiter correctement des mots anglais si on les prend pour des mots français sous le prétexte que la majorité du texte est dans cette langue? Le travail présenté ici vise donc à repérer dans des textes français des mots anglais afin de ne pas proposer une correction erronée de ces mots. L’un des buts futurs de la thèse est d’étendre les travaux à d’autres langues. Une soumission en perspective à RECITAL 2013?

The Origin and Distribution of Complexity of Phonological Structure

Auteur : Ian Maddieson
Conférence : Invités, pp 7-7
PDF / Bibtex

Un exposé invité dans le domaine de la parole. A l’origine prévu en anglais (l’auteur étant anglophone, d’origine américaine), l’exposé a finalement été réalisé en français!! Je tiens du coup à souligner cet effort réalisé par l’auteur qui a par ailleurs une assez bonne maîtrise du français parlé. L’auteur nous a présenté dans un premier temps, ce qu’il faut entendre par complexité de la phonologie d’une langue et surtout les différents critères permettant de l’apprécier. Par exemple, le nombre de consonances, le nombre de voyelles ou encore les tonalités, sont autant de critères allant dans ce sens. Si l’on pourrait penser de prime abord que toutes les langues parlées ont la même complexité, il n’en ai finalement rien. On observe au contraire des complexités différentes d’une langue à l’autre et surtout des différences dans les différents critères énoncés pour juger de cette complexité. Une théorie intéressante qui nous a été présentée repose sur l’idée qu’il existe un lien entre les caractéristiques phonologiques d’une langue et le milieu naturel dans lequel elle est utilisée. Ainsi, il existerait une correspondance entre les caractéristiques des langues parlées et le fait que le milieu soit dégagé, montagneux, arboré,…

Plus?

Je ne fais malheureusement ici qu’un très (trop?) rapide tour d’horizon des nombreux exposés dont j’aurais pu parler. Si vous êtes intéressés pour en savoir davantage, la conférence met à disposition en ligne les actes de la conférences. N’hésitez donc pas…

Les ressources sont déjà disponibles en ligne :

Mots clefs : , , , , , , , , , , , , , ,