Par: Benoît TROUVILLIEZ

Sommaire

Petit rappel de l’historique du WOLF

Nos premiers lecteurs s’en souviennent surement : Il y a trois ans (presque jour pour jour), je vous présentais la ressource linguistique Wordnet Libre du Français (WOLF) dans un des premiers billets de ce blog. Cette ressource linguistique, développée depuis 2008 pour le français par l’Inria, est en licence libre (contrairement par exemple au projet EuroWordnet).

A l’époque, il s’agissait de la première version alpha publique 0.1.4 qui n’avait fait l’objet d’aucune validation manuelle et était de surcroit d’une assez grande pauvreté lexicale en comparaison de la ressource anglaise analogue inspiratrice du projet (le Wordnet de Princeton). Les avantages majeurs de la ressource étaient surtout d’être libre et en français, ce qui en faisait une initiative louable et digne d’intérêt, mais peu utilisable pour effectuer des traitements sémantiques “poussés” dans des contextes hautement pluri-thématiques.

Après la publication de deux releases mineures correctrices 0.1.5 et 0.1.6 courant 2010, nous avons eu une année 2011 sans beaucoup d’évolutions durant laquelle on aurait pu croire à la mort du projet (on me l’a d’ailleurs demandé dans les commentaires du précédent billet…) s’il n’y avait eu des communications de l’équipe en charge du projet indiquant que le projet était toujours d’actualité. Puis, l’année 2012 fut riche en nouveautés avec la parution de cinq articles concernant le projet :

  • Sagot Benoît et Fišer Darja (2012). Automatic extension of WOLF. In Actes de la 12ème Global Wordnet Conference, Matsue, Japon.
  • Hanoka Valérie et Sagot Benoît (2012). Wordnet creation and extension made simple: A multilingual lexicon-based approach using wiki resources. In Proceedings of LREC 2012, Istanbul, Turquie
  • Apidianaki Marianna et Sagot Benoît (2012). Applying Cross-Lingual WSD to Wordnet Development. In Proceedings of LREC 2012, Istanbul, Turquie
  • Gábor Kata, Apidianaki Marianna, Sagot Benoît et Villemonte de La Clergerie Éric (2012). Boosting the Coverage of a Semantic Lexicon by Automatically Extracted Event Nominalizations. In Proceedings of LREC 2012, Istanbul, Turquie
  • Sagot Benoît et Fišer Darja (2012). Cleaning noisy wordnets. In Proceedings of LREC 2012, Istanbul, Turquie

Et comme dit le proverbe “tout vient à point à qui sait attendre” et c’est ainsi que fin octobre 2012, la version 1.0 bêta de la ressource est publiée. L’occasion pour nous de faire un nouveau point sur cette ressource.

Où trouver des informations sur cette ressource?

J’ai deux liens à vous proposer pour obtenir des infos sur le web :

La page Inria Forge vous permettra par ailleurs de télécharger cette ressource si vous voulez l’évaluer, l’utiliser ou même participer à son amélioration.

Si vous êtes plutôt fan du suivi en rss, vous pouvez vous abonner aux flux de syndication du projet selon vos centres d’intérêts.

Entrons à présent dans le vif du sujet avec la question qui nous intéresse tous : les évolutions subies par le WOLF en 3 ans l’ont-il rendu meilleur?

Une structure XML mieux pensée

Le WOLF est toujours distribué sous la forme d’un fichier XML mais sa DTD a subi des modifications en vue de rendre le fichier plus simple à appréhender mais aussi plus léger (à quantité d’informations comparable).

  • <!– DTD for DEBVISDIC format of Wordnet –>
    • <!ELEMENT WN (SYNSET+)>
    • <!ELEMENT SYNSET (ILR*, ID, SYNONYM, DEF, USAGE*, BCS?, POS)>
    • <!ELEMENT ID (#PCDATA)>
    • <!ELEMENT POS (#PCDATA)>
    • <!ELEMENT SYNONYM (LITERAL+)>
    • <!ELEMENT LITERAL (#PCDATA)>
    • <!ATTLIST LITERAL
      • lnote CDATA #IMPLIED
      • sense CDATA #IMPLIED>
    • <!ELEMENT ILR (#PCDATA)>
    • <!ATTLIST ILR
      • type CDATA #REQUIRED>
    • <!ELEMENT DEF (#PCDATA)>
    • <!ELEMENT USAGE (#PCDATA)>
    • <!ELEMENT BCS (#PCDATA)>

Notons l’utilisation d’attributs dans les éléments en lieu et place d’éléments fils dans la structure utilisée en versions alpha. L’amélioration la plus notable dans ce domaine venant de la balise ILR renseignant le type de lien comme un attribut et non comme un fils de cette balise. Ces modifications contribuent grandement à alléger le fichier. Pourtant le fichier du WOLF n’est pas plus léger : au contraire, il occupe à présent 40 MO contre 39 MO il y a 3 ans. L’explication de cette apparente contradiction est dans la quantité d’informations du fichier qui en contient bien plus qu’avant comme nous allons le voir par la suite.

Prise en main de la ressource

Il y a deux ans, je vous avais proposé l’analyse des quatre lexèmes pomme, salaire, bagage et politesse en tant que prise en main de la ressource. Nous allons rappeler les résultats obtenus sur la version 0.1.4 et les comparer à ceux obtenus à présent sur la 1.0 bêta. Comme des informations supplémentaires sont à présent disponibles dans les données des synsets, je vous donne pour la version 1.0 bêta les synsets “simplifiés” ainsi que ceux tels que présents dans la ressource.

Lexème pomme

Le WOLF 0.1.4 contenait 3 synsets avec pomme.

pomme : pomme, murphy, £ légume à racine, £ légume
pomme : frite, frites, fries, pommes allumettes, pomme, £ pomme/murphy
pomme : pomme de terre, pomme, solanum tuberosum, £ plante grimpante/vigne

Pomme, pomme de terre et frites étaient confondus. Des anglicismes comme murphy et fries pouvaient être trouvés ainsi que du latin comme solanum tuberosum.

Le WOLF 1.0 bêta contient à présent 6 synsets avec pomme (augmentation de 100%).

pomme : ivoire, perle, pomme

<SYNSET>
	<ILR type="hypernym">eng-30-04960729-n</ILR>
	<ILR type="eng_derivative">eng-30-00390943-a</ILR>
	<ID>eng-30-04961331-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.409944069297);
lrec12mllexwn(2.265)">ivoire</LITERAL>
		<LITERAL lnote="lrec12mllexwn(2.207)">os</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.545)">perle</LITERAL>
		<LITERAL lnote="lrec12clwolf(1.0980)">pomme</LITERAL>
	</SYNONYM>
	<DEF>a shade of white the color of bleached bones</DEF>
	<POS>n</POS>
</SYNSET>

Notons l’apparition de l’attribut lnote sur les éléments LITERAL. Cet attribut renseigne sur la note du littéral proposé par rapport à ce synset. D’une manière globale et simpliste, plus la note est élevée, plus la certitude est grande quand à l’appartenance réelle de ce littéral à ce synset (d’après l’algorithme de notation employée). Les notes sont présentées selon le schéma nom_conf(note) et sont corrélés aux évaluations présentées dans les articles que j’ai cités plus haut. Ainsi, gwa2012 désigne l’article présenté à la Global Wordnet Conférence de 2012 et 0.4, la note obtenue par le littéral ivoire pour ce synset selon la méthode de notation décrite dans cet article. Ce même littéral a obtenu une note de 2.265 à la conférence LREC 2012 selon la méthode basée sur un lexique multilingue.

pomme : murphy, patate, pomme, pomme de terre

<SYNSET>
	<ILR type="hypernym">eng-30-07566863-n</ILR>
	<ILR type="hypernym">eng-30-07710007-n</ILR>
	<ILR type="hypernym">eng-30-07710283-n</ILR>
	<ILR type="holo_part">eng-30-12897493-n</ILR>
	<ID>eng-30-07710616-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/2:enwikipedia,specieswiki">murphy</LITERAL>
		<LITERAL lnote="gwa2012(0.4936675353);
lrec12mllexwn(4.887)">patate</LITERAL>
		<LITERAL lnote="54/2:fr.csbgen,fr.csen">pomme</LITERAL>
		<LITERAL lnote="gwa2012(0.9060650986);
lrec12mllexwn(6.625)">pomme de terre</LITERAL>
	</SYNONYM>
	<DEF>an edible tuber native to South America; a staple food of Ireland</DEF>
	<POS>n</POS>
</SYNSET>

pomme : fries, frite, frites, pomme, pommes allumettes

<SYNSET>
	<ILR type="hypernym">eng-30-07710616-n</ILR>
	<ILR type="usage_domain">eng-30-08860123-n</ILR>
	<ID>eng-30-07711080-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/1:enwikipedia">fries</LITERAL>
		<LITERAL lnote="0/1:frwiktionary">frite</LITERAL>
		<LITERAL lnote="0/1:enwiktionary;gwa2012(0.6077948939)">frites</LITERAL>
		<LITERAL lnote="0/1:enwiktionary;gwa2012(0.9924390377)">pomme</LITERAL>
		<LITERAL lnote="0/1:enwiktionary;
gwa2012(0.7930435991)">pommes allumettes</LITERAL>
	</SYNONYM>
	<DEF>strips of potato fried in deep fat</DEF>
	<POS>n</POS>
</SYNSET>

pomme : pomme (validé manuellement)

<SYNSET>
	<ILR type="hypernym">eng-30-07705931-n</ILR>
	<ILR type="hypernym">eng-30-13138842-n</ILR>
	<ILR type="holo_part">eng-30-12633994-n</ILR>
	<ID>eng-30-07739125-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.776704772587);lrec12clwolf(1.8775);
lrec12mllexwn(9.739);ManVal2012OK">pomme</LITERAL>
	</SYNONYM>
	<DEF>fruit with red or yellow or green skin 
and sweet to tart crisp whitish flesh</DEF>
	<BCS>2</BCS>
	<POS>n</POS>
</SYNSET>

Notons la présence de la valeur ManVal2012OK pour l’attribut lnote du littéral pomme. Que faut-il en déduire? Le littéral pomme a été validé manuellement comme appartenant bien à ce synset. On est donc ici sur un degré de confiance pouvant être considéré comme élevé.

pomme : malus pumila, pomme, pommier

<SYNSET>
	<ILR type="hypernym">eng-30-12633638-n</ILR>
	<ILR type="holo_member">eng-30-12633386-n</ILR>
	<ID>eng-30-12633994-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/1:specieswiki">malus pumila</LITERAL>
		<LITERAL lnote="gwa2012(0.334438252215);
lrec12mllexwn(6.032)">pomme</LITERAL>
		<LITERAL lnote="gwa2012(0.315728715222);
lrec12mllexwn(1.651)">pommier</LITERAL>
	</SYNONYM>
	<DEF>native Eurasian tree widely cultivated in many varieties 
for its firm rounded edible fruits</DEF>
	<BCS>3</BCS>
	<POS>n</POS>
</SYNSET>

pomme : patate, pomme, pomme de terre, solanum tuberosum

<SYNSET>
	<ILR type="hypernym">eng-30-13100677-n</ILR>
	<ILR type="holo_member">eng-30-12893094-n</ILR>
	<ID>eng-30-12897493-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.445624084433);
lrec12mllexwn(3.634)">patate</LITERAL>
		<LITERAL lnote="125/5:fr.csbgen,fr.csen,fr.rocsbgen,
fr.rocsen,fr.roen">pomme</LITERAL>
		<LITERAL lnote="0/1:specieswiki;gwa2012(0.469896894325);
lrec12mllexwn(5.203)">pomme de terre</LITERAL>
		<LITERAL lnote="0/1:specieswiki">solanum tuberosum</LITERAL>
	</SYNONYM>
	<DEF>annual native to South America having underground stolons bearing 
edible starchy tubers; widely cultivated as a garden vegetable; 
vines are poisonous</DEF>
	<POS>n</POS>
</SYNSET>

On retrouve encore cette confusion entre pomme, pomme de terre et frites ainsi que des mots étrangers comme fries, solanum tuberosum,…

Lexème salaire

La WOLF 0.1.4 contenait 3 synsets avec salaire.

salaire : salarié, traitement, salaire, rémunération, gaine, £ paiement
salaire : salaire, gaine, £ paiement
salaire : salaire, gaine, £ conséquence (lui même hyponyme de résultat)

Mise à part le mot gaine, surement confondu avec gain, les 3 synsets semblaient pertienents.

Le WOLF 1.0 bêta contient à présent 5 synsets avec le mot salaire (augmentation de 66%).

salaire : rémunération, rétribution, salaire

<SYNSET>
	<ILR type="hypernym">eng-30-01120448-n</ILR>
	<ILR type="eng_derivative">eng-30-02249741-v</ILR>
	<ID>eng-30-01121855-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.824498287200);lrec12clwolf(2.1771);
lrec12mllexwn(1.291)">rémunération</LITERAL>
		<LITERAL lnote="lrec12clwolf(2.1771)">rétribution</LITERAL>
		<LITERAL lnote="gwa2012(0.847674673798);
lrec12mllexwn(1.282)">salaire</LITERAL>
	</SYNONYM>
	<DEF>the act of paying for goods or services 
or to recompense for losses</DEF>
	<USAGE>adequate remuneration for his work</USAGE>
	<POS>n</POS>
</SYNSET>

salaire : aboutir, conduire, diriger, effectuer, engager, lutter, mener, salaire

<SYNSET>
	<ILR type="hypernym">eng-30-01090335-v</ILR>
	<ILR type="eng_derivative">eng-30-00953559-n</ILR>
	<ID>eng-30-02376089-v</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.211699473043)">aboutir</LITERAL>
		<LITERAL lnote="gwa2012(0.263679901361)">conduire</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.360)">diriger</LITERAL>
		<LITERAL lnote="2/1:fr.roen">effectuer</LITERAL>
		<LITERAL lnote="gwa2012(0.189996229802)">engager</LITERAL>
		<LITERAL lnote="lrec12nomin(0.172072517335)">lutter</LITERAL>
		<LITERAL lnote="gwa2012(0.324149776585)">mener</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.721)">salaire</LITERAL>
	</SYNONYM>
	<DEF>carry on (wars, battles, or campaigns)</DEF>
	<USAGE>Napoleon and Hitler waged war against all of Europe</USAGE>
	<POS>v</POS>
</SYNSET>

salaire : gaine, récompenser, salaire

<SYNSET>
	<ILR type="hypernym">eng-30-07294019-n</ILR>
	<ILR type="eng_derivative">eng-30-02344381-v</ILR>
	<ILR type="eng_derivative">eng-30-02546075-v</ILR>
	<ID>eng-30-07295629-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/1:frwiktionary">gaine</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.429)">récompenser</LITERAL>
		<LITERAL lnote="0/1:frwiktionary;
gwa2012(0.929708925492)">salaire</LITERAL>
	</SYNONYM>
	<DEF>a recompense for worthy acts or retribution for wrongdoing</DEF>
	<USAGE>the wages of sin is death</USAGE>
	<USAGE>virtue is its own reward</USAGE>
	<POS>n</POS>
</SYNSET>

salaire : gaine, loyer, rémunération, sala, salaire, salarié, traitement

<SYNSET>
	<ILR type="hypernym">eng-30-13281275-n</ILR>
	<ILR type="holo_part">eng-30-13412721-n</ILR>
	<ILR type="eng_derivative">eng-30-02249741-v</ILR>
	<ILR type="eng_derivative">eng-30-02251743-v</ILR>
	<ILR type="eng_derivative">eng-30-02252931-v</ILR>
	<ILR type="eng_derivative">eng-30-02253456-v</ILR>
	<ILR type="eng_derivative">eng-30-02290196-v</ILR>
	<ILR type="eng_derivative">eng-30-02291708-v</ILR>
	<ID>eng-30-13279262-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/1:frwiktionary">gaine</LITERAL>
		<LITERAL lnote="gwa2012(0.603961248895);
lrec12mllexwn(2.164)">loyer</LITERAL>
		<LITERAL lnote="48/5:fr.csbgen,fr.csen,fr.rocsbgen,fr.rocsen,fr.roen;
gwa2012(0.668676759655)">rémunération</LITERAL>
		<LITERAL lnote="lrec12mllexwn(2.487)">sala</LITERAL>
		<LITERAL lnote="38/8:fr.csbgen,fr.csen,fr.rocsbgen,fr.rocsen,fr.roen,
enwikipedia,enwiktionary,frwiktionary;gwa2012(0.996114536560);
lrec12mllexwn(7.511)">salaire</LITERAL>
		<LITERAL lnote="0/1:frwiktionary;
gwa2012(0.898630886984)">salarié</LITERAL>
		<LITERAL lnote="34/6:fr.csbgen,fr.csen,fr.rocsbgen,fr.rocsen,fr.roen,
frwiktionary;gwa2012(0.780795371921)">traitement</LITERAL>
	</SYNONYM>
	<DEF>somme d'argent versée par un employeur à un salarié, 
en échange d'un travail fourni par le salarié/ 
DEF(en): fixed amount of money paid on monthly or annual basis</DEF>
	<USAGE>wages were paid by check</USAGE>
	<USAGE>he wasted his pay on drink</USAGE>
	<USAGE>they saved a quarter of all their earnings</USAGE>
	<BCS>2</BCS>
	<POS>n</POS>
</SYNSET>

salaire : gaine, rente, salaire

<SYNSET>
	<ILR type="hypernym">eng-30-13281275-n</ILR>
	<ILR type="eng_derivative">eng-30-03120681-a</ILR>
	<ID>eng-30-13294135-n</ID>
	<SYNONYM>
		<LITERAL lnote="0/1:frwiktionary">gaine</LITERAL>
		<LITERAL lnote="gwa2012(0.77547580662938486729)">rente</LITERAL>
		<LITERAL lnote="0/1:frwiktionary;
gwa2012(0.950754013027)">salaire</LITERAL>
	</SYNONYM>
	<DEF>a sum of money allotted on a regular basis; 
usually for some specific purpose</DEF>
	<POS>n</POS>
</SYNSET>

Toujours cette confusion entre gaine et gain. Notons également de nouvelles confusions avec loyer, sala, conduire, diriger, aboutir, effectuer, engager, lutter, mener. Nous avons par contre de nouveaux liens pertinents avec rétribution et récompenser. De manière générale, le synset salaire : aboutir, conduire, diriger, effectuer, engager, lutter, mener, salaire est vraiment problématique tandis que les autres peuvent être vus comme corrects.

Lexème bagage

Le WOLF 0.1.4 ne contenait qu’un seul synset avec bagage.

bagage : colis, bagage, £conteneur/récipient

Globalement pertinent.

Le WOLF 1.0 bêta contient à présent 3 synsets avec bagage (augmentation de 200%)

bagage : colis, bagage

<SYNSET>
	<ILR type="hypernym">eng-30-02974697-n</ILR>
	<ILR type="eng_derivative">eng-30-01454246-v</ILR>
	<ID>eng-30-02774630-n</ID>
	<SYNONYM>
		<LITERAL lnote="88/4:fr.csen,fr.rocsen,fr.roen,frwiktionary;
gwa2012(0.892714591907);lrec12mllexwn(4.780)">bagage</LITERAL>
		<LITERAL lnote="0/1:frwiktionary;gwa2012(0.611247829839);
lrec12mllexwn(2.655)">colis</LITERAL>
	</SYNONYM>
	<DEF>cases used to carry belongings when traveling</DEF>
	<BCS>3</BCS>
	<POS>n</POS>
</SYNSET>

bagage : colis, bagage

<SYNSET>
	<ILR type="hypernym">eng-30-10787470-n</ILR>
	<ID>eng-30-09832456-n</ID>
	<SYNONYM>
		<LITERAL lnote="lrec12mllexwn(1.579)">bagage</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.328)">colis</LITERAL>
	</SYNONYM>
	<DEF>a worthless or immoral woman</DEF>
	<POS>n</POS>
</SYNSET>

bagage : sac, bagage

<SYNSET>
	<ILR type="hypernym">eng-30-13576355-n</ILR>
	<ILR type="eng_derivative">eng-30-01479874-v</ILR>
	<ID>eng-30-13754778-n</ID>
	<SYNONYM>
		<LITERAL lnote="lrec12clwolf(1.9375)">bagage</LITERAL>
		<LITERAL lnote="lrec12clwolf(1.9375);
lrec12mllexwn(1.441)">sac</LITERAL>
	</SYNONYM>
	<DEF>the quantity of game taken in a particular period 
(usually by one person)</DEF>
	<USAGE>his bag included two deer</USAGE>
	<POS>n</POS>
</SYNSET>

Nous avons l’association supplémentaire et pertinente entre sac et bagage. Notons que le deuxième synset, bien que correct d’un point de vue de la synonymie entre les termes représentés est totalement faux puisque sensé être représentatif de la définition “a worthless or immoral woman”.

Lexème politesse

Lexème non présent dans le WOLF 0.1.4. Il n’y a donc aucun lien existant.

Alors que le terme n’apparaîssait pas dans l’ancienne version du WOLF, il apparaît dorénavant dans 6 synsets pour la version 1.0 bêta.

politesse : civilité (validé manuellement), politesse (validé manuellement)

<SYNSET>
	<ILR type="hypernym">eng-30-00037396-n</ILR>
	<ILR type="eng_derivative">eng-30-00641158-a</ILR>
	<ILR type="eng_derivative">eng-30-00642379-a</ILR>
	<ID>eng-30-01227908-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.111464651292);lrec12mllexwn(1.212);
ManVal2012OK">civilité</LITERAL>
		<LITERAL lnote="gwa2012(0.390266480974);lrec12clwolf(0.8955);
lrec12mllexwn(2.752);ManVal2012OK">politesse</LITERAL>
	</SYNONYM>
	<DEF>the act of showing regard for others</DEF>
	<BCS>3</BCS>
	<POS>n</POS>
</SYNSET>

Notons que tous les littéraux de ce synset ont été validés manuellement.

politesse : politesse

<SYNSET>
	<ILR type="hypernym">eng-30-01227908-n</ILR>
	<ID>eng-30-01228245-n</ID>
	<SYNONYM>
		<LITERAL lnote="lrec12mllexwn(1.336)">politesse</LITERAL>
	</SYNONYM>
	<DEF>a courteous or respectful or considerate act</DEF>
	<POS>n</POS>
</SYNSET>

politesse : courtoisie, politesse

<SYNSET>
	<ILR type="hypernym">eng-30-04910135-n</ILR>
	<ILR type="near_antonym">eng-30-04914292-n</ILR>
	<ILR type="be_in_state">eng-30-00639842-a</ILR>
	<ILR type="be_in_state">eng-30-00640283-a</ILR>
	<ID>eng-30-04912732-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.179608773968);lrec12clwolf(1.5978);
lrec12mllexwn(1.269)">courtoisie</LITERAL>
		<LITERAL lnote="lrec12clwolf(1.5978);
lrec12mllexwn(1.336)">politesse</LITERAL>
	</SYNONYM>
	<DEF>a courteous manner</DEF>
	<POS>n</POS>
</SYNSET>

politesse : politesse, uni

<SYNSET>
	<ILR type="hypernym">eng-30-04912732-n</ILR>
	<ILR type="near_antonym">eng-30-04914694-n</ILR>
	<ILR type="be_in_state">eng-30-00641158-a</ILR>
	<ILR type="be_in_state">eng-30-00641640-a</ILR>
	<ILR type="eng_derivative">eng-30-00641460-a</ILR>
	<ILR type="eng_derivative">eng-30-00642379-a</ILR>
	<ILR type="eng_derivative">eng-30-01993408-a</ILR>
	<ID>eng-30-04912982-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.432719876047);
lrec12mllexwn(1.522)">politesse</LITERAL>
		<LITERAL lnote="gwa2012(0.100136315794)">uni</LITERAL>
	</SYNONYM>
	<DEF>a courteous manner that respects accepted social usage</DEF>
	<POS>n</POS>
</SYNSET>

politesse : civilité, politesse

<SYNSET>
	<ILR type="hypernym">eng-30-04912732-n</ILR>
	<ILR type="near_antonym">eng-30-04915365-n</ILR>
	<ILR type="be_in_state">eng-30-00642379-a</ILR>
	<ILR type="be_in_state">eng-30-00642725-a</ILR>
	<ILR type="eng_derivative">eng-30-00642379-a</ILR>
	<ID>eng-30-04914133-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.104422306610);
lrec12mllexwn(1.212)">civilité</LITERAL>
		<LITERAL lnote="gwa2012(0.122884958551);
lrec12mllexwn(1.230)">politesse</LITERAL>
	</SYNONYM>
	<DEF>formal or perfunctory politeness</DEF>
	<POS>n</POS>
</SYNSET>

politesse : courtoisie, politesse

<SYNSET>
	<ILR type="hypernym">eng-30-06765044-n</ILR>
	<ID>eng-30-06714874-n</ID>
	<SYNONYM>
		<LITERAL lnote="gwa2012(0.105925398097);
lrec12mllexwn(1.269)">courtoisie</LITERAL>
		<LITERAL lnote="lrec12mllexwn(1.336)">politesse</LITERAL>
	</SYNONYM>
	<DEF>a courteous or respectful or considerate remark</DEF>
	<POS>n</POS>
</SYNSET>

Seul le terme uni est problématique. Nous obtenons en revanche un lien de synonymie entre courtoisie et civilité.

Conclusion de cette étude

Une ressource en amélioration…

A la lumière de cette étude, nous pouvons dire que le WOLF est une ressource en amélioration :

  • d’un point de vue de la richesse lexicale. Tous les termes que nous avons étudiés apparaissent plus fréquemment dans la version bêta que dans la version alpha. Mieux, la ressource intègre de nouveaux termes qu’elle ne connaissait pas au préalable.
  • d’un point de vue de la validation manuelle, non présente dans la version alpha. Sur nos exemples, 3 termes ont été validés manuellement sur les 61 termes que comporte notre étude (5% des termes). Ces 3 termes constituent par ailleurs 2 synsets : un synset concernant le littéral “pomme” et un synset concernant les littéraux “civilité” et “politesse”. Ces deux synsets sont entièrement corrects. Cela nous laisse à penser que les synsets validés manuellement peuvent être considérés comme très fiables.

…mais qui peut encore faire du chemin

Il est également évident que le WOLF peut encore s’améliorer notamment :

  • sur le taux de termes proposés validés manuellement. L’étude présentée ici n’est certes pas représentatives à 100% du travail réalisé pour la validation manuelle mais on voit tout de même qu’une très grande majorité des termes proposés dans la ressource ne le sont que par un processus automatique.
  • sur la clarté des notes attribués à chaque termes. Il n’est pas évident (sans se référer aux articles) de comprendre le mécanisme utilisé pour noter les termes. Certains termes ont de surcroit plusieurs notes (issus de techniques présentés dans les diverses articles) alors que d’autres n’en ont pas. Il faudra sans doute dans ce domaine un travail d’harmonisation des notes.

Perspectives

Après cette étude destinée à prendre en main la ressource, nous consacrerons un billet à une étude plus orientée statistique sur cette ressource. Nous étudierons notamment l’évolution du nombre de synsets, du nombre de termes, du nombre de termes validés. Nous nous intéresserons également de plus près aux différents systèmes de notation des termes qui ont été mis en place.

Mots clefs : , , , ,