Blog Onyme » Apprentissages

Apprentissage artificiel : Évaluation de l’apprentissage – Précision, Rappel et F-mesure

Benoît TROUVILLIEZ — Thu, 11 Oct 2012 08:06:43 +0000

Introduction

Un nouveau volet de notre saga sur l’apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d’évaluer un apprentissage par la précision, le rappel et la F-mesure.

Apprentissage artificiel

Fondements et protocoles pour la classification et les regroupements
Moyens d’apprendre pour la classification et les regroupements (biais et modèles)
Évaluation de l’apprentissage – Estimation des risques
Évaluation de l’apprentissage – Précision / Rappel / F-mesure

Nous avons vu dans le précédent billet l’évaluation théorique de l’apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d’évaluation de nos algorithmes d’apprentissage. Le but de ce billet est de rendre ces notions plus concrètes.

Pertinence de la recherche d’informations sur l’évaluation de la classification

Commençons par situer le domaine de la recherche d’informations. Il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents pour une recherche donnée.

Quel est le lien avec la classification?

Le but de la classification est un peu similaire : il s’agit à partir d’un ensemble de textes de trouver/rechercher ceux et uniquement ceux pertinents par rapport à une classe considérée.

Dans les deux cas, nous cherchons à évaluer la capacité du système à trouver les textes pertinents et uniquement ceux là. Et c’est là que la précision et le rappel rentrent en jeu….

Précision, Rappel et F-mesure

Quels sont les cas à évaluer?

Lorsque le système retourne une réponse par rapport à un texte et une classe, deux choix s’offrent à lui :

Le message appartient selon lui à la classe
Le message n’appartient pas selon lui à la classe

En face de ces deux possibilités de réponses du système, nous avons les deux cas où :

Le message appartient à la classe
Le message n’appartient pas à la classe

Cela donne alors 4 cas possibles différents :

Nom du cas	Abréviation	Description
Vrai positif	VP	Le système trouve à raison le message comme appartenant à la classe
Faux positif	FP	Le système trouve à tort le message comme appartenant à la classe
Vrai négatif	VN	Le système trouve à raison le message comme n’appartenant pas à la classe
Faux négatif	FN	Le système trouve à tort le message comme n’appartenant pas à la classe

Chacun de ces cas correspond à une situation différente engendrant une “perte“ (notion vue dans le billet précédent) différente pour la classification….

Comment à partir de ces 4 cas mesurer la performance du système?

Deux solutions s’offrent à nous :

mesurer cette pertinence par rapport à chaque classe
mesurer cette pertinence par rapport à chaque verbatim

La différence se situe surtout dans la façon de considérer l’objectif :

l’établissement des classes les plus justes possibles
l’établissement d’une classification de textes la plus juste possible

Nous pourrions être tentés de ne considérer que l’établissement de la classification puisque c’est le cœur de la tâche. Cependant, l’établissement des classes présente l’avantage d’offrir un axe d’évaluation centré sur chacune des classes prises individuellement. Cela peut ainsi permettre de déceler des classes posant plus de problèmes à la classification que d’autres indépendamment du nombre de textes à classer dans la classe dans l’ensemble de test.

Les deux visions sont donc plus complémentaires qu’antagonistes.

Et par l’exemple?

Nous illustrons nos propos par la vision orientée sur les classes. Supposons une classe i dans laquelle nous devons classer nos textes et supposons que le système donne pour cette classe :

vp textes vrais positifs
vn textes vrais négatifs
fp textes faux positifs
fn textes faux négatifs

Nous avons alors la précision, le rappel et la F-mesure de cette classe i donnés par les formules :

Nom	Formule	Description
Précision		Proportion de solutions trouvées qui sont pertinentes. Mesure la capacité du système à refuser les solutions non-pertinentes
Rappel		Proportion des solutions pertinentes qui sont trouvées. Mesure la capacité du système à donner toutes les solutions pertinentes.
F-mesure		Moyenne harmonique de la précision et du rappel. Mesure la capacité du système à donner toutes les solutions pertinentes et à refuser les autres

Qu’est ce que la F-mesure et ses paramètres?

La F-mesure correspond à un compromis de la précision et du rappel donnant la performance du système. Ce compromis est donnée de manière simple par la moyenne harmonique de la précision et du rappel (formule donnée dans le tableau ci-dessus).

Une moyenne harmonique pondérée selon un coefficient bêta peut également être employée :

La moyenne non pondérée est obtenue pour .

Comment choisir la valeur de bêta?

La valeur de bêta dépend donc de manière indirecte de la fonction de perte que nous souhaitons appliquer sur chacun des 4 cas et surtout sur les deux cas erronés :

les faux positifs
les faux négatifs

Pour le classement de verbatims dans Onyme Opinions, nous souhaitons obtenir un système de classification ayant une bonne précision même si cela nous oblige à sacrifier du rappel. Cela nous permet d’avoir un système peu bruité donnant des résultats fiables même s’ils sont partiels.

Cela nous pousse à sanctionner plus fortement les faux positifs que les faux négatifs en appliquant une fonction de perte plus élevée pour les premiers. Nous optons ainsi pour afin d’être plus exigeant sur la précision.

Apprentissage artificiel : Évaluation de l’apprentissage – Estimation des risques

Benoît TROUVILLIEZ — Thu, 30 Aug 2012 08:11:05 +0000

Introduction

Un nouveau volet de notre saga de billets sur l’apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d’évaluer un apprentissage par l’estimation des risques.

Apprentissage artificiel

Fondements et protocoles pour la classification et les regroupements
Moyens d’apprendre pour la classification et les regroupements (biais et modèles)
Évaluation de l’apprentissage – Estimation des risques
Évaluation de l’apprentissage – Précision / Rappel / F-mesure

Nous voyons en quoi l’induction faite par le système apprenant peut conduire à une situation de mauvais apprentissage soit par une induction trop faible, soit au contraire par une induction trop forte.

D’un exemple pratique…

Nous allons commencer par un peu de pratique, ce qui va nous permettre d’introduire naturellement les deux pièges classiques de l’apprentissage. Reprenons l’exemple du billet précédent comportant six points classés dans deux classes distinctes.

Et nos trois séparateurs “acceptables” avec ces six instances

Comme nous l’avons évoqué dans le précédent billet, l’enjeu est de trouver un biais inductif capable à partir de quelques exemples de classer au mieux n’importe quel point et non pas seulement ceux connus lors de l’apprentissage. Pour illustrer cela, nous supposons que nous ayons à disposition après apprentissage deux points de plus pour chaque classe ce qui porte alors à 10 points (5 par classe), les points connus de l’espace après l’apprentissage.

Supposons que le biais inductif retenu pour l’apprentissage, nous fasse choisir le séparateur bleu. Celui-ci peut sembler un bon choix puisqu’il coupe l’espace en deux parties égales en séparant largement les 6 exemples connus selon leurs deux classes : en un mot, il semble donc réaliser une bonne induction. Nous obtenons alors, après apprentissage, la répartition décrite par la figure suivante :

On remarque assez rapidement que le classifieur commet dorénavant des erreurs et plus exactement deux erreurs par classes. cela amène alors à 4 points mal classés sur 10 : presque un point sur deux!!!! Ce classifieur qui pouvait paraître bon avec les 6 premiers exemples se révèle n’avoir pas choisi le bon biais inductif, du coup beaucoup des points non connus lors de l’apprentissage sont en fait mal classés par celui-ci. Nous sommes typiquement dans ce que l’on appelle une situation de sous apprentissage : les exemples connus lors de l’apprentissage n’ont pas permis d’avoir assez d’informations pour identifier un séparateur correct avec le biais inductif choisi.

Si l’on avait choisi un biais inductif nous amenant à choisir le séparateur rouge ou vert, nous aurions obtenu la répartition décrite par la figure suivante :

Il n’y a cette fois plus qu’un seul point par classe mal classé. Cela amène alors à seulement 2 points mal classés sur 10 : le biais inductif était donc cette fois meilleur!

Maintenant que l’on connait la classification de 10 points, nous pourrions être tenté d’apprendre à l’aide d’un nouveau biais inductif, un séparateur capable de classer convenablement l’ensemble des dix points à présent connus. Nous obtiendrions alors un séparateur proche de celui en mauve sur la figure ci-dessous.

Ce faisant, nous tombons à présent sur le deuxième piège de l’apprentissage : le séparateur mauve est clairement trop spécialisé sur les 10 points connus pour être un bon classifieur de l’ensemble des points de l’espace. Ce problème est largement connu en tant que situation de sur apprentissage.

Comme nous l’avons vu au travers de cet exemple, les deux pièges de l’apprentissage ne sont pas décorrélés. En cherchant à s’éloigner du premier, nous sommes tombé sur le deuxième et inversement en cherchant à éviter le deuxième (en prenant le séparateur bleu), nous nous sommes confrontés au premier.

Il nous faut trouver un compromis se situant entre le séparateur trop inductif nous conduisant à une situation de sous apprentissage et celui trop spécifique nous conduisant en sur apprentissage.

… à la définition des risques

Formellement, nous recherchons une fonction h permettant de classer les données x de X selon des classes y de Y tel que :

Nous notons y’, la classe de Y correspondant à l’étiquetage idéal d’une donnée x de X. La fonction h* idéale recherchée doit donc classer toutes les données de X selon :

La recherche du compromis mentionné auparavant correspond à une recherche du séparateur engendrant un risque minimale de mauvaise classification. Ce risque de mauvaise classification, appelée risque réel est donné par :

La fonction l(y,y’) donne le coût de perte entre l’étiquetage y et y’. Cela correspond à la “sanction” que l’on doit considérer pour l’étiquetage d’une donnée par y au lieu de y’. Cela est notamment utile si des étiquetages doivent être considérés comme pire que d’autres. Pxy’ correspond à la probabilité qu’une donnée x à étiqueter par y’ apparaisse en tant que donnée à classer. La fonction de perte l est dépendante de la tâche à accomplir. Cela peut être classiquement une fonction binaire accordant une sanction de 0 en cas de correspondance et une sanction de 1 en cas de divergence. Cela peut aussi être une fonction plus complexe…

Calculer le risque réel suppose donc de connaître tous les points de l’espace d’entrée, leur étiquetage idéal et leur probabilité d’apparition en tant que donnée à classer : une supposition illusoire! Nous devons donc nous contenter d’une approximation de ce risque. Une technique courante est d’utiliser le risque empirique calculé à partir des exemples d’apprentissage. Notons L, l’ensemble des exemples d’apprentissage disponibles.

Le risque empirique permet d’obtenir une approximation imparfaite du risque réel. Le risque empirique peut être diminué en effectuant un sur apprentissage qui augmente lui le risque réel. Cette situation n’étant pas souhaitable, il convient de choisir un biais suffisamment fort pour empêcher le sur apprentissage. La figure ci dessous montre l’évolution simultanée des deux risques et les deux situations de mauvais apprentissage que nous avons évoquées dans la partie précédente.

Conclusion

Nous avons vu les notions de risques et surtout la notion de fonction de perte l qui permet de les obtenir. Cette notion de fonction de perte est pour le moment assez abstraite. Dans le prochain volet, nous voyons comment les techniques d’évaluations utilisées en recherche d’informations (précision, rappel, F-mesure) peuvent être employées pour évaluer concrètement un apprentissage.

Apprentissage artificiel : Moyens d’apprendre pour la classification et les regroupements (biais et modèles)

Benoît TROUVILLIEZ — Wed, 25 Jul 2012 10:02:25 +0000

Introduction

La suite de la saga sur la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique) appliquée aux tâches de classification et regroupement.

Apprentissage artificiel

Fondements et protocoles pour la classification et les regroupements
Moyens d’apprendre pour la classification et les regroupements (biais et modèles)
Évaluation de l’apprentissage – Estimation des risques
Évaluation de l’apprentissage – Précision / Rappel / F-mesure

Dans ce volet, nous allons introduire les notions complémentaires de biais et modèles d’apprentissage.

Moyens d’apprendre : de la nécessité du biais d’apprentissage…

Dans le billet précédent, nous avons vu que les algorithmes d’apprentissage artificiel avait pour but de s’adapter à la résolution d’une tâche au travers d’un protocole d’apprentissage. Bien que nous ayons vu les différents protocoles pertinents pour nos tâches de classification et regroupement (non supervisés et supervisés), nous n’avons pas discuté des moyens employés par ces derniers pour parvenir à cette adaptation. C’est là le but principal de ce deuxième billet.

Pour bien comprendre les enjeux des moyens à employer pour l’apprentissage, nous devons partir de la problématique concrète. Nous allons prendre un exemple sur la classification : supposons que nous devions apprendre à classer deux types de documents caractérisés par deux attributs et que nous disposons de trois exemples de chaque (ce cas n’est pas réaliste en terme d’apprentissage mais nous permet d’illustrer simplement nos propos). La localisation dans l’espace d’entrée des six exemples est alors donnée par le graphique suivant :

Afin d’apprendre à distinguer les deux types de documents, nous devons concrètement apprendre à les séparer, c’est à dire déterminer un séparateur. Dans le cas donné ci-dessus, il est possible de déterminer une multitude de séparateurs différents tout à fait acceptables au vu des données présentées. Les séparateurs bleu, rouge et vert sur le diagramme ci-dessous en sont trois exemples.

=> Lequel de ces séparateurs est meilleur que les autres?
=> Y en a t-il d’ailleurs un meilleur?

Les trois séparateurs présentées ici sont tout à fait convenables et valides mais celui en rouge est certainement le plus simple : il s’agit d’une combinaison linéaire sur les deux attributs. Cependant, cette question n’est pas dénuée d’intérêts car si ici nous n’avons présenté volontairement que des séparateurs “acceptables” nous verrons dans un prochain volet que cela n’est pas forcément toujours le cas…

Mais revenons pour l’heure à nos différents séparateurs. S’ils sont tous les trois acceptables (et il y en a sûrement d’autres), il va pourtant falloir choisir l’un d’entre eux. Si nous voulons faire le choix de la simplicité, nous pouvons nous contenter d’un séparateur linéaire mais rien ne nous oblige à faire ce choix. En d’autres termes, nous allons devoir ici arbitrer des caractéristiques du séparateur que nous désirons utiliser.
=> Choix 1 : Le séparateur doit être simple : être une combinaison linéaire des attributs
=> Choix 2 : Le séparateur doit être complexe : être une fonction polynomiale sur les attributs

Derrière ces réflexions se cache en réalité un problème bien connu et fondamental de l’apprentissage qu’est celui de l’induction. Nous disposons dans notre exemple de 6 points différents étiquetés dans les deux catégories. Si choisir un séparateur qui distingue correctement les 6 points selon les deux catégories est une chose, nous ne devons pas perdre de vue que notre objectif est de classer n’importe quel point de l’espace selon les deux catégories. Cela implique d’obtenir une règle de classification valable idéalement pour tout point de l’espace à partir seulement de quelques exemples… C’est là l’induction nécessaire à tout apprentissage. Prenons trois points inconnus notés ?1, ?2 et ?3 dans l’exemple précédent. Il est évident que selon le séparateur retenu parmi les trois proposés, la classification des trois points ne sera pas la même. Cela montre l’importance des choix inductifs faits sur la classification des points inconnus et donc plus généralement sur la tâche visée.

Faire un choix inductif, c’est choisir un biais inductif servant de biais d’apprentissage. Il s’agit de manière générale de fixer des conditions / hypothèses que doit respecter le système apprenant pour apprendre la tâche. Ces conditions ont l’objectif essentiel de limiter les hypothèses faites par le système apprenant sur ce qu’il doit apprendre. Utiliser un “bon” biais est vital pour l’apprentissage en deux points :

L’efficacité de l’apprentissage : si les hypothèses envisageables par l’apprenant sont restreintes, l’apprentissage sera alors plus efficace. Concrètement, s’il y a moins d’hypothèses à considérer, on va plus vite à trouver la meilleure. A l’inverse, s’il y en a de trop l’algorithme risque de ne jamais converger vers une solution.
La pertinence de l’apprentissage : si le biais est bien choisi, les hypothèses envisageables par l’apprenant correspondront à la réalité de la tâche. Cela améliorera grandement la pertinence de l’apprentissage. Concrètement, dans l’exemple précédent si ?1 doit normalement être classé en tant qu’étoile, le séparateur bleu n’est pas pertinent.

Un bon apprentissage passe bien sûr par un biais respectant au maximum ces deux points. A l’inverse la violation de ces points par le biais va avoir pour conséquence une dégradation forte de l’apprentissage. Nous aurons l’occasion de voir des exemples de “mauvais” biais et de situations de mauvais apprentissage lors d’un prochain billet.

… à la notion de modèles d’apprentissage

Un point clé de l’apprentissage artificiel est la notion de modèle.

Le modèle va permettre à l’apprenant d’apprendre efficacement selon un biais et de restituer cette connaissance en accomplissant la tâche désirée. Le choix du modèle à employer est donc primordial pour réussir un apprentissage optimal. Concrètement, le choix d’un modèle non adapté à la tâche aboutira à coup sûr à un mauvais apprentissage. Le choix du modèle est donc corrélé à la notion de biais défini précédemment dans le sens où le modèle impose toujours un type de biais sur l’apprentissage.

Ce biais est d’une nature différente selon le modèle retenu :

fonctionnel : il est alors basé sur une fonction de décision sur les attributs d’entrées permettant d’établir une séparatrice. La plus célèbre et la plus simple est sans doute la fonction linéaire mais il en existe de plus complexes couramment utilisées comme les fonctions polynomiales ou sigmoïdes. On entend assez souvent parler de régression dans le sens où l’on réduit le problème à une fonction dont on fixe les paramètres en fonction du problème.
probabiliste : il est alors basé sur une distribution de probabilité sur les attributs des entrées. Concrètement, cela revient à établir un modèle qui en fonction des données qu’on lui présente donne la probabilité de chaque étiquetage. Les réseaux bayésiens sont sans doute l’exemple typique de ce genre de modèle.
connexionniste : il est alors basé sur un réseau de neurones. Ce type de modèle s’inspire à la base du fonctionnement du cerveau humain. La tâche est découpée en neurones spécialisées dans la reconnaissance d’une partie de celle-ci. Lorsqu’un neurone spécifique est activé (on parle de stimulus), la partie de la tâche associée est reconnue. Nous citerons les perceptrons ou encore les cartes de Kohonen comme exemples typiques connexionnistes.
temporelle : il est alors basé sur un couplage temporelle entre les entrées. Ce type de modèle décrit différents états temporels dans lesquels on est susceptible de se trouver (et par lesquels on va transiter). On peut alors déduire la tâche de l’état courant. L’exemple typique est le modèle de Markov caché.

Perspectives

Dans le prochain billet, nous abordons l’évaluation de l’apprentissage.

Apprentissage artificiel : Fondements et protocoles pour la classification et les regroupements

Benoît TROUVILLIEZ — Thu, 26 Apr 2012 08:10:16 +0000

Introduction

Un sujet que je n’ai encore que peu abordé dans ce blog concerne la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique). C’est pourquoi, je vous propose une série de billets traitant de cette problématique. Nous étudierons principalement les tâches de classification et regroupement car elles sont au cœur de nos préoccupations.

Apprentissage artificiel

Fondements et protocoles pour la classification et les regroupements
Moyens d’apprendre pour la classification et les regroupements (biais et modèles)
Évaluation de l’apprentissage – Estimation des risques
Évaluation de l’apprentissage – Précision / Rappel / F-mesure

Ce premier billet va nous servir à introduire les premières notions indispensables pour comprendre le domaine, le but recherché et les étapes principales de sa résolution.

Fondements de l’apprentissage artificiel

Clarifions d’abord les fondements de l’apprentissage artificiel. Pour cela, il faut repartir des origines de l’intelligence artificielle. L’intelligence artificielle vise à faire réaliser par des machines des tâches complexes normalement abordables uniquement par des humains.

L’approche classique consiste à étudier la tâche à réaliser et à développer le programme “intelligent” qui va pouvoir l’accomplir (dans l’idéal bien sûr). Un problème qui peut être induit par cette démarche est le coût engendré par l’étude de chacune des tâches et la conception d’algorithmes uniques pour chacune d’elles. Alors comment résoudre ce problème?

La solution imaginée consiste à remonter l’intelligence artificielle à un niveau supérieur. Plutôt que d’étudier les tâches individuellement et de développer un programme intelligent pour chacune d’elles, l’étude porte sur un ensemble de tâches “similaires”. Le but du programme intelligent est alors d’observer les caractéristiques spécifiques de chacune des tâches pour s’adapter à leurs résolutions. L’intelligence artificielle n’est alors plus concrètement au niveau de la réalisation de la tâche mais au niveau de l’auto adaptation du programme ciblée sur la réalisation de la tâche. Cette philosophie porte le nom d’apprentissage artificiel.

Protocoles d’apprentissage en classification et regroupement : de l’apprentissage naturel à l’artificiel

Un algorithme d’apprentissage artificiel permet donc l’adaptation automatique à la réalisation d’une tâche appartenant à une catégorie de tâches similaires. Cette notion de catégorie de tâches est importante car chaque algorithme d’apprentissage est connu pour fonctionner sur certains types de tâches et pas sur d’autres. Il est donc nécessaire de déterminer quelles sont les algorithmes à employer en fonction du type de la tâche. Parmi ces types de tâches, nous trouvons celles de classification et regroupement de textes que nous étudions plus en détails ici.

Pour mieux comprendre le principe de l’apprentissage artificiel, nous allons établir quelques parallèles avec l’apprentissage naturel qui diffère de l’artificiel par le fait qu’il soit réalisé non pas par une machine mais par un humain.

Imaginons que nous (humain) souhaitions apprendre à faire une tâche de classification/regroupement qui nous est totalement inconnue de prime abord. Par exemple classer (ou regrouper) des revues par thème. Bon d’accord, vous savez probablement déjà le faire mais bon j’ai dit imaginons….

Comment nous y prendrions nous pour apprendre à le faire sans connaissance particulière au préalable? Nous avons déjà en partie répondu à cette question en énonçant ce qu’était un apprentissage. La clé est dans l’observation des caractéristiques de la tâche à accomplir. Mais concrètement comment cela se traduit-il?

Si nous sommes seul pour réaliser cette tâche, nous pourrions lire les revues et essayer de découvrir dans leur contenu des points de similitude ou au contraire des points de divergence entre elles. Grâce à cela, nous pourrions alors trouver une façon de regrouper nos revues par thème.

Si au contraire nous sommes accompagné d’un éminent professeur spécialiste du classement de revues, nous pourrions alors lui demander de nous indiquer les différentes thématiques de revues ainsi que de nous donner les exemples les plus usuels. Nous pourrions alors en déduire des règles pour nous permettre par la suite de classer par nous même les revues.

Notre expert pourrait également ne pas avoir beaucoup de temps à nous consacrer (il est pas mal demandé!). Dans ce cas, nous serions obligé de nous contenter que de quelques exemples délivrés par notre savant professeur et nous serions alors obligé de chercher par nous même les éléments qu’il n’auraient pas eu le temps de nous transmettre.

Cet exemple humoristique illustre trois processus d’apprentissage naturel de classification/regroupement. Si l’on souhaite faire réaliser ces mêmes processus à une machine, l’apprentissage devient alors artificiel. Le terme d’apprenant désigne alors le système “qui doit apprendre la tâche”. Comme nous, la machine peut être confrontée à des apprentissages où elle doit apprendre seule ou au contraire avec l’aide d’un professeur (on l’appelle plus couramment Oracle en apprentissage artificiel).

Il existe de ce fait trois grands axes de protocoles d’apprentissage artificiel utilisés pour les tâches de classification et de regroupement :

non supervisé : Aucun Oracle n’est disponible. L’algorithme doit découvrir par lui même les similitudes et divergences dans les données fournies pour apprendre la tâche de regroupement.
supervisé : Un Oracle est disponible et étiquette les données. L’algorithme va alors apprendre la tâche de classification en se basant sur les étiquettes posées par l’Oracle.
semi-supervisé : Un Oracle est partiellement disponible et étiquette quelques données. L’algorithme va alors apprendre la tâche de classification en se basant sur les étiquettes posées par l’Oracle et en découvrant par lui même les informations manquantes.

Il existe d’autres types de protocoles d’apprentissage artificiel utilisés pour d’autres types de tâches comme par exemple l’apprentissage par renforcement utilisé entre autres dans la robotique. Nous ne les aborderons cependant pas en détails dans ce billet.

Les phases des protocoles d’apprentissage artificiel en classification et regroupement

Comme notre exemple de classer des revues nous le laissait transparaître, un protocole d’apprentissage artificiel se déroule en phases différentes selon les conditions dans lesquels on apprend.

L’apprentissage non supervisé n’en comporte qu’une seule puisque l’apprenant découvre directement la tâche de regroupement depuis les données. Cette phase est appelée regroupement, même si elle est plus connue sous sa dénomination anglaise clustering. Dans l’exemple ci-dessous, les trois données X1, X2 et X3 sont regroupées dans deux groupes distincts regroupant X1 et X2 dans Y1 et X3 seul dans Y2.

Les algorithmes supervisés en comportent deux distinctes :

la phase d’entraînement où l’on présente les données étiquetées par l’Oracle. Dans cette phase, le but de l’algorithme est de déterminer des critères permettant de prédire l’étiquetage de l’Oracle Y d’une entrée X par une sortie Y’ la plus proche possible de Y.
la phase de classification où l’algorithme va étiqueter des données vierges X avec des étiquettes Y’ en fonction des règles apprises lors de la première étape.

Ces deux phases peuvent être exécutée de manières consécutive ou itérative. Concrètement, il est en fait possible de revenir à la phase d’apprentissage après le début de la phase de classification. On obtient alors une sorte d’itération entre les deux phases visant à perfectionner l’apprentissage au fil de l’eau que de nouveaux exemples sont disponibles.

Cela amène alors à différencier deux sous types de protocoles d’apprentissage pour la supervision :

apprentissage supervisé en ligne où l’on effectue des itérations entre les deux phases
apprentissage supervisé hors ligne où l’on effectue consécutivement l’entraînement puis la classification

Les algorithmes semi-supervisés fonctionnent sur les deux même phases mais acceptent en plus des données non étiquetées pendant la phase d’entraînement.

Dans ce cadre, le but n’est pas tant d’attribuer une étiquette à la donnée que de prendre en considération que cette donnée est “rencontrable” en classification. En effet, les algorithmes supervisés partent du principe que les données fournies lors de la phase d’apprentissage sont totalement représentatives de celles “rencontrables” en classification. Cette contrainte n’est pas toujours respectable surtout si l’étiquetage de données est coûteux. La non représentativité des données d’apprentissage est alors un problème pour ces algorithmes. Le but de la semi supervision est donc d’offrir la possibilité de renseigner l’algorithme sur la nature réelle du problème à couvrir sans devoir pour autant engager un coût trop important dans l’étiquetage.

Conclusion

Nous abordons dans le prochain billet la question des moyens d’apprendre pour la classification et les regroupements (biais et modèles).