Par: Marina Soler

Développé par le LADL, Laboratoire de Maurice Gross, Unitex est un logiciel de Traitement automatique du langage faisant appel à de nombreuses ressources linguistiques (dictionnaires tels que le DELAF) et permettant le traitement de gros corpus. Il permet d'effectuer des concordances de termes à partir d'expressions régulières ou de graphs (appelés aussi grammaires locales). Il est aujourd'hui maintenu par l'institut Gaspard Monge.
Unitex est disponible en licence libre à cette adresse. Nous faisons une brève présentation de ses fonctionnalités et surtout de son intérêt dans le cadre de la mise en place d'un outil de fouille d'opinion.

Installation

Sur cette page, téléchargez la dernière version à dézipper.

Pour lancer le logiciel : se placer dans le répertoire App d'Unitext et lancer le jar : $ java -jar Unitex.jar
Il faudra, lors du premier lancement, décider de l'emplacement des données ainsi que de la langue (et les choix sont nombreux !).

Utilisation

Très brièvement, les étapes sont :

  1. importez un texte en effectuant les prétraitements nécessaires
  2. appliquez une concordance à partir du menu Text/Local Pattern
    • la solution “expression régulière” est rapide dans le cas d'une recherche simple de concordance (bien que l'expression régulière puisse être élaborée)  ;
    • la solution des “graphs” permet des requêtes beaucoup plus complexes (exploitation des catégories grammaticales, croisement des données, plusieurs chemins/solutions possibles) ;

Exemple d'utilisation

Dans le cadre de la recherche Onyme concernant la détection et l'extraction de données de type opinion, le logiciel nous a aidé à élaborer et à tester des règles lexicales avant de les développer en java.

  • À partir des résultats d'une recherche sur le terme “disponibilité” sur la base de données, sous PGAdmin, nous avons pu enregistrer un corpus de verbatims pertinents dans un fichier texte (peu importe les guillemets mais encodé en UTF-16, ce qui est important pour Unitex) ;

    Extraction de verbatims sous PGAdmin

  • importer le .txt enregistré dans Unitex sous le menu text/open (et non open preprocess text) ;
  • faire le preprocessing du texte, ce qui génère un “.snt” et la visualisation du texte brut ;
  • extraire des concordances à partir du menu text/local Pattern (ou ctrl+L) ;
  • choisir entre une expression régulière ou un graph et appliquer les paramètres voulus puis cliquer sur search ;
  • paramétrer d'autres éléments pour la mise en forme (ordre alphabétique, etc.) de la concordance ou directement cliquer sur build concordance ;

Résultats

  • À partir d'une expression régulière, ici simplement “disponibilité” :
  • → 200 réponses

    Extraits des résultats d'une requête simple sur le terme disponibilité

    L'ordre alphabétique est ici à gauche du terme et on voit qu'il y a souvent une virgule qui le précède, qu'il se situe donc souvent en début de syntagme.
    L'ordre à droite serait plus pertinent pour détecter des collocations (disponibilité des vendeuses apparaît probablement très souvent) ;

  • À partir d'un graph :
  • La rédaction d'un graph se fait sous le menu FSGraph/New (assez difficile de prise en main, il faut être un peu patient … mais ça vaut le coup !)
    Le graph appliqué pour notre exemple ressemble à cela :

    Exemple d'un graph de base

    L'objectif étant de voir s'il y a beaucoup de prépositions qui suivent directement le terme “disponibilité” en sortie :
    Le processus pour appliquer le graph est le même que pour les expressions régulières sauf qu'il faut aller chercher le fichier .grf précédemment enregistré.

    → 66 réponses (sur un total de 200 réponses)

    Extrait résultats du terme

    Conclusion

    L'intérêt d'Unitex dans ce cadre est qu'on peut facilement faire évoluer le graph pour affiner et adapter les règles aux corpus. Ainsi, il s'agira ensuite de voir s'il y a plus fréquemment (et si cela fait sens) un terme intermédiaire entre disponibilité et les prépositions, s'il n'y a pas des collocations voir expressions très figées qu'il serait plus pertinent de traiter dans le programme plutôt que de passer par des chemins détournés générant du bruit et du temps de développement.

    Pour une bonne prise en main du logiciel, le manuel Unitex rédigé par le LIPN (Paris Nord) est très bien fait, mieux vaut le garder sous le coude !

zp8497586rq

Mots clefs : , ,

Les commentaires sont fermés.