Archive pour la catégorie ‘TAL’

Nos premiers lecteurs s’en souviennent surement : Il y a trois ans (presque jour pour jour), je vous présentais la ressource linguistique Wordnet Libre du Français (WOLF) dans un des premiers billets de ce blog. Cette ressource linguistique, développée depuis 2008 pour le français par l’Inria, est en licence libre (contrairement par exemple au projet EuroWordnet).

Fin octobre 2012, la version 1.0 bêta de la ressource est publiée. L’occasion pour nous de faire un nouveau point sur cette ressource.

Offre de stage TAL 2013

11 janvier 2013

Onyme éditeur de logiciel Saas spécialisée en analyse sémantique recherche, en 2013, un(e) stagiaire de deuxième année de master en informatique, avec un attrait pour le traitement automatique des langues. Une embauche à l’issue du stage est envisagée.

2 sujets au choix sont proposés.

Nous avons vu dans le précédent billet l’évaluation théorique de l’apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d’évaluation de nos algorithmes d’apprentissage. Le but de ce billet est de rendre ces notions plus concrètes.

Un nouveau volet de notre saga de billets sur l’apprentissage artificiel. Dans celui-ci, nous allons discuter des moyens d’évaluer un apprentissage. Nous voyons en quoi l’induction faite par le système apprenant peut conduire à une situation de mauvais apprentissage soit par une induction trop faible, soit au contraire par une induction trop forte.

La suite de la saga sur la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique) appliquée aux tâches de classification et regroupement. Dans ce volet, nous allons introduire les notions complémentaires de biais et modèles d’apprentissage.

Comme je l’avais annoncé dans le blog en Avril, l’édition 2012 de la conférence TALN – RECITAL s’est déroulée à Grenoble du 04 au 08 Juin. Cette année était pourtant particulière… Je vous propose un petit tour d’horizon sur cette conférence.

Un sujet que je n’ai encore que peu abordé dans ce blog concerne la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique). C’est pourquoi, je vous propose une série de billets traitant de cette problématique. Nous étudierons principalement les tâches de classification et regroupement car elles sont au cœur de nos préoccupations.

Ce premier billet va nous servir à introduire les premières notions indispensables pour comprendre le domaine, le but recherché et les étapes principales de sa résolution.

Voilà déjà le 24ème billet du blog pour 2 ans d’existence. Merci à tous nos lecteurs.

On entend assez souvent parler dans les domaines du TAL de méthodes statistiques pour analyser la sémantique des mots d’un texte. J’y ai déjà d’ailleurs consacré un billet en janvier avec un zoom sur la méthode LSA. Voici donc la suite que je vous avez alors promis sur la méthode Hyperspace Analogue To Language (HAL).

On entend assez souvent parler dans les domaines du TAL de méthodes statistiques pour analyser la sémantique des mots d’un texte. Ce billet est le premier d’une liste de billets visant à expliciter le lien existant entre les statistiques et la sémantique des mots en présentant quelques méthodes parmi les plus connues dans le domaine. Ce premier billet de la série est consacrée à la très célèbre méthode Latent Semantic Analysis (LSA).

Développé par le LADL, Laboratoire de Maurice Gross, Unitex est un logiciel de Traitement automatique du langage faisant appel à de nombreuses ressources linguistiques (dictionnaires tels que le DELAF) et permettant le traitement de gros corpus. Il permet d’effectuer des concordances de termes à partir d’expressions régulières ou de graphs (appelés aussi grammaires locales). Il est aujourd’hui maintenu par l’institut Gaspard Monde.
Unitex est disponible en licence libre à cette adresse. Nous faisons une brève présentation de ses fonctionnalités et surtout de son intérêt dans le cadre de la mise en place d’un outils de fouille d’opinion.