Blog Onyme
Apprentissage artificiel : Évaluation de l’apprentissage – Précision, Rappel et F-mesure11 octobre 2012IntroductionUn nouveau volet de notre saga sur l’apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d’évaluer un apprentissage par la précision, le rappel et la F-mesure.
Nous avons vu dans le précédent billet l’évaluation théorique de l’apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d’évaluation de nos algorithmes d’apprentissage. Le but de ce billet est de rendre ces notions plus concrètes. Pertinence de la recherche d’informations sur l’évaluation de la classificationCommençons par situer le domaine de la recherche d’informations. Il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents pour une recherche donnée.
Le but de la classification est un peu similaire : il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents par rapport à une classe considérée. Dans les deux cas, nous cherchons à évaluer la capacité du système à trouver les textes pertinents et uniquement ceux là. Et c’est là que la précision et le rappel rentrent en jeu…. Précision, Rappel et F-mesure
Lorsque le système retourne une réponse par rapport à un texte et une classe, deux choix s’offrent à lui :
En face de ces deux possibilités de réponses du système, nous avons les deux cas où :
Cela donne alors 4 cas possibles différents :
Chacun de ces cas correspond à une situation différente engendrant une “perte“ (notion vue dans le billet précédent) différente pour la classification….
Deux solutions s’offrent à nous :
La différence se situe surtout dans la façon de considérer l’objectif :
Nous pourrions être tentés de ne considérer que l’établissement de la classification puisque c’est le cœur de la tâche. Cependant, l’établissement des classes présente l’avantage d’offrir un axe d’évaluation centré sur chacune des classes prises individuellement. Cela peut ainsi permettre de déceler des classes posant plus de problèmes à la classification que d’autres indépendamment du nombre de textes à classer dans la classe dans l’ensemble de test. Les deux visions sont donc plus complémentaires qu’antagonistes.
Nous illustrons nos propos par la vision orientée sur les classes. Supposons une classe i dans laquelle nous devons classer nos textes et supposons que le système donne pour cette classe :
Nous avons alors la précision, le rappel et la F-mesure de cette classe i donnés par les formules :
La F-mesure correspond à un compromis de la précision et du rappel donnant la performance du système. Ce compromis est donnée de manière simple par la moyenne harmonique de la précision et du rappel (formule donnée dans le tableau ci-dessus). Une moyenne harmonique pondérée selon un coefficient bêta peut également être employée : La moyenne non pondérée est obtenue pour .
La valeur de bêta dépend donc de manière indirecte de la fonction de perte que nous souhaitons appliquer sur chacun des 4 cas et surtout sur les deux cas erronés :
Pour le classement de verbatims dans Onyme Opinions, nous souhaitons obtenir un système de classification ayant une bonne précision même si cela nous oblige à sacrifier du rappel. Cela nous permet d’avoir un système peu bruité donnant des résultats fiables même s’ils sont partiels. Cela nous pousse à sanctionner plus fortement les faux positifs que les faux négatifs en appliquant une fonction de perte plus élevée pour les premiers. Nous optons ainsi pour afin d’être plus exigeant sur la précision. Mots clefs : apprentissage artificiel, apprentissage automatique, bruit d'un système, classification, f-mesure, faux négatifs, faux positifs, fonction de perte, moyenne harmonique, précision, rappel, recherche d'informations, TAL |
Merci beaucoup pour cette explication claire!
De rien. C’est un plaisir !