Blog Onyme
IntroductionCet article inaugure la catégorie “Conférences” du blog par la présentation de la conférence Recital 2010 à laquelle la société va participer à travers mon article “Représentation vectorielle de textes courts d’Opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering” accepté au format poster. Présentation de l’auteur et de l’articlePrésentation de l’auteurAvant de vous parler de la conférence, je vais d’abord vous parler de l’auteur (donc de moi) et de mon article. Je m’appelle Benoît Trouvilliez, j’ai 23 ans et je suis en première année de doctorat en contrat Cifre avec la société Onyme et le Centre de Recherche en Informatique de Lens (CRIL). Mon sujet de recherche et de thèse porte sur le traitement automatique des langues (TAL) et plus précisément sur l’analyse et l’amélioration du moteur d’analyse sémantique d’Onyme par clustering. Si vous désirez plus d’informations sur ce qu’est l’analyse sémantique, le traitement automatique des langues ou le clustering, vous pouvez vous rendre sur ce billet du blog que j’ai rédigé précédemment. Dans ce cadre, j’ai été amené à rédiger un article scientifique concernant mes travaux que j’ai soumis à la conférence Recital 2010 qui l’a accepté sous un format poster. Présentation de l’articleMon article a pour titre “Représentation vectorielle de textes courts d’Opinions. Analyse de traitements sémantiques pour la fouille d’opinions par clustering”. Il porte sur la représentation de textes courts d’opinions sur des sujets variés comme les valeurs d’une entreprise, les prestations d’un commerçant ou la pertinence d’un site internet. L’étude a été réalisée principalement dans le contexte de la solution d’analyse d’Opinions et de la satisfaction client d’Onyme. Un court résumé de cet article est déjà disponible sur le site de la conférence Recital 2010 dans la liste des articles acceptés en tant que poster. La publication complète de l’article sera faite sur ce même site peu après la conférence. Edit : Mon article est à présent consultable via ce lien direct. Lors de la conférence, mon article sera présenté sous la forme d’un poster. Un créneau horaire est habituellement réservé durant la conférence pour permettre les échanges entre les visiteurs et les auteurs de posters. Présentation de la conférenceLa conférence Recital (Lien vers l’édition 2010) (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues) est comme son nom complet l’indique une conférence qui s’adresse aux étudiants chercheurs dans le domaine du TAL. Elle est donc l’occasion d’échanges et de publications pour les doctorants et les jeunes chercheurs (ayant obtenus leur doctorat depuis moins d’un an) dans ce domaine. Elle est organisée tous les ans dans un pays francophone sous l’égide de l’ATALA (Association pour le Traitement Automatique des LAngues) conjointement avec la conférence TALN (Traitement Automatique des Langues Naturelles) (Lien vers l’édition 2010) qui s’adresse principalement aux chercheurs expérimentés. L’ensemble des liens vers les éditions précédentes des deux conférences sont disponibles sur le site de l’ATALA. L’édition 2010 de TALN et RecitalL’édition 2010 des deux conférences aura lieu à Montréal au Canada du 19 au 22 Juillet 2010. Les inscriptions se font via le site officiel d’une de ces deux conférences ou via ce lien direct. Les deux conférences étant jumelées, l’inscription s’effectue pour les deux en même temps. Si vous êtes au Canada du côté de Montréal cet été, n’hésitez donc pas à vous inscrire et à venir me rencontrer durant cette conférence. Mots clefs : Analyse de traitements sémantiques, ATALA, conférence Recital, Fouille d'opinions par clustering, onyme, poster conférence Recital, poster Recital 2010, Recital 2010, Représentation vectorielle de textes, TAL, TALN |
Le programme de la conférence TALN / RECITAL 2010 vient d’être annoncé. Une plage horaire spécifique le jeudi 22 Juillet entre 13h30 et 16h est prévue pour me rencontrer ainsi que d’autres auteurs de posters. Au programme, une courte présentation orale de 3 minutes de chaque poster suivie d’une heure et demi d’échanges entre les auteurs et les visiteurs.
Vous pouvez également consulter mon article disponible sur cette même page ou via ce lien direct.
[...] du 19 au 23 Juillet 2010. J’ai eu la chance d’y assister et d’y présenter mon article sur la fouille d’opinions. Je vous propose un petit compte-rendu de ces 5 jours riches en [...]
bonjour M. Trouvilliez
je suis un nouveau chercheur en informatique au maroc et je viens de m’inscrire en 1ère année de doctorat. je m’intéresse plus particulièrement à l’opinion mining. j’ai eu l’occasion de lire votre poster de le conférence Recital 2010 et j’ai bien apprécié votre approche du sujet. Maintenant je vous serais reconnaissant si vous m’indiquez des liens vers des états de l’art traitant du sujet. je vous cache pas que ce serait excellent si c’est en français.
Merci et bonne continuation
je suis une chercheuse doctorant ,et je m’intéresse plus particulièrement à l’extraction de l’opinion . j’ai lu votre poster de le conférence si vous pliât vous pouvez me donner des liens vers des états de l’art traitant du sujet.
bien cordialement
Le sujet de la fouille d’opinion est assez vaste et dépend des sources desquelles on cherche à extraire les opinions (forums, blogs, résultat de sondages/enquêtes, …).
Des techniques particulières pourront être employées dans chacun de ces cas pour prendre en compte les spécificités du média.
Par exemple, en ce qui concerne les forums, chaque message peut être soit une réponse au post initial, soit une réponse à un message précédent. Selon le média, la taille moyenne des commentaires sera aussi différente.
Voici par exemple un lien vers un travail réalisé à l’université de Grenoble sur la fouille d’opinion dans les forums : http://www.lirmm.fr/~mroche/FODOP08/ArticlesFODOP08/Article2.pdf
Le choix du type de représentation à utiliser est également un point important surtout si l’on cherche à effectuer des regroupements en aval. Les représentations de type vectoriel donne l’avantage de pouvoir effectuer des mesures de distances entre les représentations en calculant l’éloignement mathématique des deux vecteurs. L’éloignement des représentations logiques est plus complexe à évaluer. C’est pourquoi, j’ai travaillé pour le moment sur les premières même si elles présentent bien sûr des limites.
Voici un chapitre de thèse présentant ces représentations : http://www.neurones.espci.fr/Theses_PS/Stricker_M/CHAP5.pdf
Les méthodes de regroupements (ou clustering en anglais) permettent à l’aide de la mesure de distance dont je parlais juste avant de regrouper les textes proches. Sur ce domaine, j’ai commencé avec ce document : http://www-users.cs.umn.edu/~kumar/papers/high_dim_clustering_19.pdf (en anglais) qui introduit assez bien les notions relatives au clustering dans des espaces de hautes dimensions.
[...] un article sur la fouille d’opinions, présenté l’année dernière à la conférence RECITAL à Montréal (Canada), je présente [...]