Blog Onyme
Archive pour la catégorie ‘TAL’
On entend assez souvent parler dans les domaines du TAL de méthodes statistiques pour analyser la sémantique des mots d’un texte. Ce billet est le premier d’une liste de billets visant à expliciter le lien existant entre les statistiques et la sémantique des mots en présentant quelques méthodes parmi les plus connues dans le domaine. Ce premier billet de la série est consacrée à la très célèbre méthode Latent Semantic Analysis (LSA). |
Développé par le LADL, Laboratoire de Maurice Gross, Unitex est un logiciel de Traitement automatique du langage faisant appel à de nombreuses ressources linguistiques (dictionnaires tels que le DELAF) et permettant le traitement de gros corpus. Il permet d’effectuer des concordances de termes à partir d’expressions régulières ou de graphs (appelés aussi grammaires locales). Il est aujourd’hui maintenu par l’institut Gaspard Monde. |
Les ontologies informatiques : l'exemple par OWL et autres5 juillet 2011Suite à la publication d’un premier billet présentant le concept général d’ontologie, nous nous intéressons désormais à son existence concrète en tant qu’outil informatique. |
Présentation générale de la notion d'ontologie26 mai 2011Ce billet s’intéresse à la définition du terme ontologie. L’intérêt d’Onyme pour les ontologies n’est pas nouveau. En effet, d’autres articles proposent déjà des réflexions sur des ontologies existantes, notamment le Wolf et l’EuroWordnet. |
Grammaires formelles et analyse syntaxique des langues27 octobre 2010Billet sur les notions relatives à l’analyse syntaxique des langues et les grammaires formelles |
La R&D pilotée par les tests15 octobre 2010L’activité de Recherche et Développement consiste à mettre au point un produit ou un service qui répond à une problématique nouvelle. Ce produit (ou service) pourra être dit “innovant”. Onyme propose des “prestations” de R&D, plus particulièrement dans le domaine du Traitement Automatisé des Langues. Nos clients viennent nous voir avec des données (textes) et une problématique à résoudre et nous élaborons avec eux un plan de R&D. Ce plan inclue systématiquement une évaluation continue de la R&D. Dans ce billet nous vous présenterons notre démarche R&D pilotée par les tests. Un second billet viendra par la suite illustrer cette démarche avec un cas client et des exemples de codes. |
Les conférences TALN, RECITAL et DEFT, éditions 2010, ont eu lieu à Montréal au Canada du 19 au 23 Juillet 2010. Petit compte rendu de cette expérience enrichissante. |
Nous allons nous intéresser à deux techniques largement employées dans le cadre de l’analyse sémantique : La lemmatisation et la racinisation parfois appelée stemmatisation. Nous verrons notamment quelques outils utiles à connaître dans le cas du Français. |
Cet article inaugure la catégorie “Conférences” du blog par la présentation de la conférence Recital 2010 à laquelle la société va participer à travers mon article “Représentation vectorielle de textes courts d’Opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering” accepté au format poster. |
Etude de l’ontologie EuroWordnet2 avril 2010EuroWordnet est un projet visant à construire des ontologies similaires au projet Wordnet de l’université de Princeton pour 8 langues européennes dont le français. Cet article présente l’étude qui a été faite sur l’ontologie réalisée pour le français. |