Par: Benoît TROUVILLIEZ

Introduction

Un nouveau volet de notre saga sur l’apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d’évaluer un apprentissage par la précision, le rappel et la F-mesure.

Nous avons vu dans le précédent billet l’évaluation théorique de l’apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d’évaluation de nos algorithmes d’apprentissage. Le but de ce billet est de rendre ces notions plus concrètes.

Pertinence de la recherche d’informations sur l’évaluation de la classification

Commençons par situer le domaine de la recherche d’informations. Il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents pour une recherche donnée.

Quel est le lien avec la classification?

Le but de la classification est un peu similaire : il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents par rapport à une classe considérée.

Dans les deux cas, nous cherchons à évaluer la capacité du système à trouver les textes pertinents et uniquement ceux là. Et c’est là que la précision et le rappel rentrent en jeu….

Précision, Rappel et F-mesure

Quels sont les cas à évaluer?

Lorsque le système retourne une réponse par rapport à un texte et une classe, deux choix s’offrent à lui :

  • Le message appartient selon lui à la classe
  • Le message n’appartient pas selon lui à la classe

En face de ces deux possibilités de réponses du système, nous avons les deux cas où :

  • Le message appartient à la classe
  • Le message n’appartient pas à la classe

Cela donne alors 4 cas possibles différents :

Nom du cas Abréviation Description
Vrai positif VP Le système trouve à raison le message comme appartenant à la classe
Faux positif FP Le système trouve à tort le message comme appartenant à la classe
Vrai négatif VN Le système trouve à raison le message comme n’appartenant pas à la classe
Faux négatif FN Le système trouve à tort le message comme n’appartenant pas à la classe

Chacun de ces cas correspond à une situation différente engendrant une “perte (notion vue dans le billet précédent) différente pour la classification….

Comment à partir de ces 4 cas mesurer la performance du système?

Deux solutions s’offrent à nous :

  • mesurer cette pertinence par rapport à chaque classe
  • mesurer cette pertinence par rapport à chaque verbatim

La différence se situe surtout dans la façon de considérer l’objectif :

  • l’établissement des classes les plus justes possibles
  • l’établissement d’une classification de textes la plus juste possible

Nous pourrions être tentés de ne considérer que l’établissement de la classification puisque c’est le cœur de la tâche. Cependant, l’établissement des classes présente l’avantage d’offrir un axe d’évaluation centré sur chacune des classes prises individuellement. Cela peut ainsi permettre de déceler des classes posant plus de problèmes à la classification que d’autres indépendamment du nombre de textes à classer dans la classe dans l’ensemble de test.

Les deux visions sont donc plus complémentaires qu’antagonistes.

Et par l’exemple?

Nous illustrons nos propos par la vision orientée sur les classes. Supposons une classe i dans laquelle nous devons classer nos textes et supposons que le système donne pour cette classe :

  • vp textes vrais positifs
  • vn textes vrais négatifs
  • fp textes faux positifs
  • fn textes faux négatifs

Nous avons alors la précision, le rappel et la F-mesure de cette classe i donnés par les formules :

Nom Formule Description
Précision Proportion de solutions trouvées qui sont pertinentes. Mesure la capacité du système à refuser les solutions non-pertinentes
Rappel Proportion des solutions pertinentes qui sont trouvées. Mesure la capacité du système à donner toutes les solutions pertinentes.
F-mesure Moyenne harmonique de la précision et du rappel. Mesure la capacité du système à donner toutes les solutions pertinentes et à refuser les autres

Qu’est ce que la F-mesure et ses paramètres?

La F-mesure correspond à un compromis de la précision et du rappel donnant la performance du système. Ce compromis est donnée de manière simple par la moyenne harmonique de la précision et du rappel (formule donnée dans le tableau ci-dessus).

Une moyenne harmonique pondérée selon un coefficient bêta peut également être employée :

La moyenne non pondérée est obtenue pour .

Comment choisir la valeur de bêta?

La valeur de bêta dépend donc de manière indirecte de la fonction de perte que nous souhaitons appliquer sur chacun des 4 cas et surtout sur les deux cas erronés :

  • les faux positifs
  • les faux négatifs

Pour le classement de verbatims dans Onyme Opinions, nous souhaitons obtenir un système de classification ayant une bonne précision même si cela nous oblige à sacrifier du rappel. Cela nous permet d’avoir un système peu bruité donnant des résultats fiables même s’ils sont partiels.

Cela nous pousse à sanctionner plus fortement les faux positifs que les faux négatifs en appliquant une fonction de perte plus élevée pour les premiers. Nous optons ainsi pour afin d’être plus exigeant sur la précision.

Mots clefs : , , , , , , , , , , , ,