Offre de stage TAL 2013

11 janvier 2013
Par: Benoît TROUVILLIEZ

Stage TAL pourvu

Envoyez votre candidature par email: recrute@onyme.com


La société Onyme recherche, en 2013, un(e) stagiaire de deuxième année de master en informatique, avec un attrait pour le traitement automatique des langues. Une embauche à l’issue du stage est envisagée.

Profil : Bac +5
Durée du stage : de 3 à 6 mois selon le sujet choisi.
Lieu du stage : Onyme, Euratechnologies

Le stage s’inscrit au cœur de l’équipe de R&D composée d’un doctorant en informatique (4ème année), d’un docteur en informatique et du directeur technique de la société.

Il se compose de deux sujets au choix sur le traitement de la langue française :

Sujets

Sujet 1 : Évaluation de différents analyseurs lexicaux et syntaxiques sur des textes courts

Durée souhaitée du stage : de 4 à 6 mois, selon les connaissances du candidat.

Compétences souhaitées :

  • Connaissances théoriques sur des analyseurs syntaxiques et lexicaux (la pratique est un plus);
  • Connaissances sur l’étiquetage grammatical et syntaxique de corpus écrits;
  • Motivé et autonome.

Description du sujet :

Les analyseurs lexicaux, i.e. lemmatiseurs et POS annotateurs, et syntaxiques fonctionnent soit par apprentissage, soit par règles.

Ces outils, élaborés à partir de connaissances générales (ex : apprentissage à partir d’un gros corpus de journaux), sont sujets à erreur quand ils sont utilisés dans un domaine spécialisé.

L’idée du stage est d’améliorer les analyses en fournissant des connaissances spécifiques aux analyseurs.

Le sujet comporte plusieurs aspects :

  • élaboration de corpus arborés depuis les traitements clients destinés à l’évaluation et à l’apprentissage des analyseurs;
  • apprentissage spécifique, ou ajout/modification de règles, selon le type d’analyseur;
  • évaluation de différents analyseurs lexicaux sur nos données;
  • évaluation d’analyseurs syntaxiques de surface (chunker) et d’analyseurs partiels, ou élaboration d’un chunker.

Plusieurs analyseurs lexicaux existants ont été repérés pour accomplir ces évaluations :

  • TreeTagger (SCHMID 1994) (SCHMID, 1995);
  • MElt tagger (DENIS et SAGOT, 2009) (DENIS et SAGOT, 2010) (DENIS et SAGOT, 2011) (BENZITOUN et al, 2012);
  • Brill Tagger (BRILL, 1992) (BRILL, 1995).

Plusieurs analyseurs syntaxiques ont été également repérés :

  • L’analyseur syntaxique par dépendances Malt Parser (NIVRE et al, 2006);
  • MSTParser (MCDONALD et al, 2005) (MCDONALD et al, 2006);
  • Multi-lingual Noun Phrase Extractor (MuNPEx).

L’évaluation n’est cependant pas fermée à ces seuls analyseurs.

Sujet 2 : Reconnaissance / Extraction de thématiques dans des textes courts

Durée souhaitée du stage : de 3 à 6 mois, selon les connaissances du candidat.

Compétences souhaitées :

  • Connaissances sur les analyseurs syntaxiques : délimitation de syntagmes;
  • Programmation en langage orienté objet. Le langage JAVA est un plus;
  • Connaissances en apprentissage artificiel (classification thématique);
  • Connaissances en structure du discours (Ex. : “X mais Y” implique deux idées);
  • Motivé et autonome.

Description du sujet :

Les textes à analyser comportent des thématiques différentes relatives à un domaine.

Par exemple, dans le domaine de la vente, les thématiques fréquemment abordées sont :

  • La tarification;
  • L’agencement des magasins;
  • L’implantation des magasins;
  • Le personnel.

Le sujet du stage concerne la résolution des problématiques liées suivantes :

  • l’évaluation du nombre de thématique abordés dans un message;
  • la détection;
  • la séparation d’un message en plusieurs syntagmes thématiques.

La liste des thèmes à détecter peut être connue à l’avance ou non. Dans le premier cas, des techniques relevant de la supervision peuvent être employées. Dans le second, il s’agit de découvrir de façon non supervisée les thèmes présents dans un corpus.

Bibliographie

Le candidat peut se référer à cette bibliographie pour mieux appréhender le domaine de l’étude et le contenu du stage. Il aura par ailleurs certainement besoin d’étudier tout ou partie de ces articles durant le stage.

  • Helmut Schmid (1995): Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.
  • Helmut Schmid (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK.
  • Benzitoun Christophe, Fort Karën et Sagot Benoît (2012). TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe. In Actes de TALN 2011, Grenoble, France.
  • Pascal Denis et Benoît Sagot (2011). Coupling an annotated corpus and a lexicon for state-of-the-art POS tagging. In Language Resources and Evaluation (à paraître)
  • Denis Pascal et Sagot Benoît (2010). Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morphosyntaxique état-de-l’art du français. In Actes de TALN 10, Montréal, Canada.
  • Denis Pascal et Sagot Benoît (2009). Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort. In Proceedings of PACLIC 2009, Hong-Kong, Chine
  • Brill Eric (1992), A simple rule-based part of speech tagger, HLT ’91: Proceedings of the workshop on Speech and Natural Language, Morristown, NJ, USA: Association for Computational Linguistics, pp. 112–116
  • Brill, Eric (December 1995), Transformation-based error-driven learning and natural language processing: a case study in part-of-speech tagging, Comput. Linguist. (Cambridge, MA, USA: MIT Press)
  • Joakim Nivre, Johan Hall et Jens Nilsson (2006), MaltParser: A data-driven parser-generator for dependency parsing, In Proc. of LREC 2006
  • R. McDonald, F. Pereira, K. Ribarov and J. Hajic (2005), Non-Projective Dependency Parsing using Spanning Tree Algorithms, HLT-EMNLP, 2005
  • R. McDonald, K. Crammer and F. Pereira (2005), Online Large-Margin Training of Dependency Parsers, ACL, 2005
  • R. McDonald and F. Pereira (2006), Online Learning of Approximate Dependency Parsing Algorithms, EACL, 2006

Envoyez votre candidature par email: recrute@onyme.com

Mots clefs : , ,