<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Blog Onyme &#187; Apprentissages</title>
	<atom:link href="http://blog.onyme.com/category/apprentissages/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.onyme.com</link>
	<description>Analyse sémantique et Traitement Automatisé de la Langue</description>
	<lastBuildDate>Mon, 14 Mar 2016 23:26:30 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.5.1</generator>
		<item>
		<title>Apprentissage artificiel : Évaluation de l’apprentissage &#8211; Précision, Rappel et F-mesure</title>
		<link>http://blog.onyme.com/apprentissage-artificiel-evaluation-precision-rappel-f-mesure/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=apprentissage-artificiel-evaluation-precision-rappel-f-mesure</link>
		<comments>http://blog.onyme.com/apprentissage-artificiel-evaluation-precision-rappel-f-mesure/#comments</comments>
		<pubDate>Thu, 11 Oct 2012 08:06:43 +0000</pubDate>
		<dc:creator>Benoît TROUVILLIEZ</dc:creator>
				<category><![CDATA[Apprentissages]]></category>
		<category><![CDATA[TAL]]></category>
		<category><![CDATA[apprentissage artificiel]]></category>
		<category><![CDATA[apprentissage automatique]]></category>
		<category><![CDATA[bruit d'un système]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[f-mesure]]></category>
		<category><![CDATA[faux négatifs]]></category>
		<category><![CDATA[faux positifs]]></category>
		<category><![CDATA[fonction de perte]]></category>
		<category><![CDATA[moyenne harmonique]]></category>
		<category><![CDATA[précision]]></category>
		<category><![CDATA[rappel]]></category>
		<category><![CDATA[recherche d'informations]]></category>

		<guid isPermaLink="false">http://blog.onyme.com/?p=1474</guid>
		<description><![CDATA[Nous avons vu dans le précédent billet l'évaluation théorique de l'apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d'évaluation de nos algorithmes d'apprentissage. Le but de ce billet est de rendre ces notions plus concrètes.]]></description>
				<content:encoded><![CDATA[<h2>Introduction</h2>
<p>Un nouveau volet de notre saga sur l&#8217;apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d&#8217;évaluer un apprentissage par la précision, le rappel et la F-mesure.</p>
<ul>
<li>Apprentissage artificiel</li>
<ul>
<li><a href="apprentissage-artificiel-fondements-protocoles">Fondements et protocoles pour la classification et les regroupements</a></li>
<li><a href="apprentissage-artificiel-biais-modeles">Moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</a></li>
<li><a href="apprentissage-artificiel-evaluation-estimation-risques">Évaluation de l&#8217;apprentissage &#8211; Estimation des risques</a></li>
<li>Évaluation de l&#8217;apprentissage &#8211; Précision / Rappel / F-mesure</li>
</ul>
</ul>
<p>Nous avons vu dans le précédent billet l&#8217;évaluation théorique de l&#8217;apprentissage au travers des notions de risques et fonctions de perte. Ces notions théoriques permettent de poser scientifiquement le cadre de notre problème, mais ne permettent en revanche pas de visualiser concrètement comment nous pouvons mettre en place des techniques d&#8217;évaluation de nos algorithmes d&#8217;apprentissage. Le but de ce billet est de rendre ces notions plus concrètes.</p>
<h2>Pertinence de la recherche d&#8217;informations sur l&#8217;évaluation de la classification</h2>
<p>Commençons par situer le domaine de la recherche d&#8217;informations. Il s&#8217;agit à partir d&#8217;un ensemble de textes de <u>trouver/rechercher</u> ceux et uniquement ceux <u>pertinents</u> pour une <u><b>recherche</b> donnée</u>.</p>
<blockquote><p>Quel est le lien avec la classification?</p></blockquote>
<p>Le but de la classification est un peu similaire : il s&#8217;agit à partir d&#8217;un ensemble de textes de <u>trouver/rechercher</u> ceux et uniquement ceux <u>pertinents</u> par rapport à une <u><b>classe</b> considérée</u>.</p>
<p>Dans les deux cas, nous cherchons à évaluer la capacité du système <u>à trouver les textes <b>pertinents</b> et <b>uniquement</b> ceux là</u>. Et c&#8217;est là que la précision et le rappel rentrent en jeu&#8230;.</p>
<h2>Précision, Rappel et F-mesure</h2>
<blockquote><p>Quels sont les cas à évaluer?</p></blockquote>
<p>Lorsque le système retourne une réponse par rapport à un texte et une classe, deux choix s&#8217;offrent à lui :</p>
<ul>
<li>Le message <b>appartient</b> <u>selon lui</u> à la classe</li>
<li>Le message <b>n&#8217;appartient pas</b> <u>selon lui</u> à la classe</li>
</ul>
<p>En face de ces deux possibilités de réponses du système, nous avons les deux cas où :</p>
<ul>
<li>Le message <b>appartient</b> à la classe</li>
<li>Le message <b>n&#8217;appartient pas</b> à la classe</li>
</ul>
<p>Cela donne alors 4 cas possibles différents :</p>
<table border="1">
<tr align="center">
<th>Nom du cas</th>
<th>Abréviation</th>
<th>Description</th>
</tr>
<tr align="center">
<td>Vrai positif</td>
<td>VP</td>
<td>Le système trouve <b>à raison</b> le message comme <b>appartenant</b> à la classe</td>
</tr>
<tr align="center">
<td>Faux positif</td>
<td>FP</td>
<td>Le système trouve <b>à tort</b> le message comme <b>appartenant</b> à la classe</td>
</tr>
<tr align="center">
<td>Vrai négatif</td>
<td>VN</td>
<td>Le système trouve <b>à raison</b> le message comme <b>n&#8217;appartenant pas</b> à la classe</td>
</tr>
<tr align="center">
<td>Faux négatif</td>
<td>FN</td>
<td>Le système trouve <b>à tort</b> le message comme <b>n&#8217;appartenant pas</b> à la classe</td>
</tr>
</table>
<p>Chacun de ces cas correspond à une situation différente <u>engendrant une &#8220;<b>perte</b>&#8220;</u> (notion vue dans le billet précédent) différente pour la classification&#8230;.</p>
<blockquote><p>Comment à partir de ces 4 cas mesurer la performance du système?</p></blockquote>
<p>Deux solutions s&#8217;offrent à nous :</p>
<ul>
<li>mesurer cette pertinence <u>par rapport à chaque <b>classe</b></u></li>
<li>mesurer cette pertinence <u>par rapport à chaque <b>verbatim</b></u></li>
</ul>
<p>La différence se situe surtout dans la façon de considérer l&#8217;objectif :</p>
<ul>
<li>l&#8217;établissement des <b>classes</b> les plus justes possibles</li>
<li>l&#8217;établissement d&#8217;une <b>classification de textes</b> la plus juste possible</li>
</ul>
<p>Nous pourrions être tentés de ne considérer que l&#8217;établissement de la <u>classification</u> puisque c&#8217;est le <b>cœur de la tâche</b>. Cependant, l&#8217;établissement des <u>classes</u> présente l&#8217;avantage d&#8217;offrir un axe d&#8217;évaluation centré sur <u>chacune des classes prises <b>individuellement</b></u>. Cela peut ainsi permettre de déceler des classes posant plus de problèmes à la classification que d&#8217;autres indépendamment du nombre de textes à classer dans la classe dans l&#8217;ensemble de test.</p>
<p>Les deux visions sont donc plus <b>complémentaires</b> qu&#8217;antagonistes.</p>
<blockquote><p>Et par l&#8217;exemple?</p></blockquote>
<p>Nous illustrons nos propos par la vision <u>orientée sur les <b>classes</b></u>. Supposons une classe i dans laquelle nous devons classer nos textes et supposons que le système donne pour cette classe :</p>
<ul>
<li>vp textes vrais positifs</li>
<li>vn textes vrais négatifs</li>
<li>fp textes faux positifs</li>
<li>fn textes faux négatifs</li>
</ul>
<p>Nous avons alors la précision, le rappel et la F-mesure de cette classe i donnés par les formules :</p>
<table border="1">
<tr>
<th>Nom</th>
<th>Formule</th>
<th>Description</th>
</tr>
<tr>
<td>Précision</td>
<td><img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=P=\frac{vp}{vp%2Bfp}" /></td>
<td>Proportion de solutions trouvées qui sont pertinentes. Mesure la capacité du système à refuser les solutions non-pertinentes</td>
</tr>
<tr>
<td>Rappel</td>
<td><img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=R=\frac{vp}{vp%2Bfn}" /></td>
<td>Proportion des solutions pertinentes qui sont trouvées. Mesure la capacité du système à donner toutes les solutions pertinentes.</td>
</tr>
<tr>
<td>F-mesure</td>
<td><img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=F=\frac{2PR}{P%2BR}" /></td>
<td>Moyenne harmonique de la précision et du rappel. Mesure la capacité du système à donner toutes les solutions pertinentes et à refuser les autres</td>
</tr>
</table>
<blockquote><p>Qu&#8217;est ce que la F-mesure et ses paramètres?</p></blockquote>
<p>La F-mesure correspond à un <u>compromis de la précision et du rappel</u> donnant la <b>performance du système</b>. Ce compromis est donnée de manière simple par la <u>moyenne harmonique</u> de la précision et du rappel (formule donnée dans le tableau ci-dessus).</p>
<p>Une <u>moyenne harmonique <b>pondérée</b></u> selon un coefficient bêta peut également être employée :<br />
<img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=F_\beta=\frac{(1%2B\beta^2).P.R}{\beta^2.P%2BR}" /></p>
<p>La moyenne non pondérée est obtenue pour <img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=\beta=1" />.</p>
<blockquote><p>Comment choisir la valeur de bêta?</p></blockquote>
<p>La valeur de bêta dépend donc de manière indirecte de la fonction de perte que nous souhaitons appliquer sur chacun des 4 cas et surtout sur les deux cas erronés :</p>
<ul>
<li>les faux positifs</li>
<li>les faux négatifs</li>
</ul>
<p>Pour le classement de verbatims dans Onyme Opinions, nous souhaitons obtenir un système de classification ayant une <u>bonne précision</u> même si cela nous oblige à sacrifier du rappel. Cela nous permet d&#8217;avoir un <u>système peu bruité</u> donnant des résultats <b>fiables</b> même s&#8217;ils sont <b>partiels</b>.</p>
<p>Cela nous pousse à <b>sanctionner</b> plus fortement les <u>faux positifs</u> que les faux négatifs en appliquant une <u>fonction de perte plus élevée pour les premiers</u>. Nous optons ainsi pour <img src="http://chart.apis.google.com/chart?cht=tx&amp;chl=\beta=0.5" /> afin d&#8217;être plus exigeant sur la précision.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.onyme.com/apprentissage-artificiel-evaluation-precision-rappel-f-mesure/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Apprentissage artificiel : Évaluation de l&#8217;apprentissage &#8211; Estimation des risques</title>
		<link>http://blog.onyme.com/apprentissage-artificiel-evaluation-estimation-risques/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=apprentissage-artificiel-evaluation-estimation-risques</link>
		<comments>http://blog.onyme.com/apprentissage-artificiel-evaluation-estimation-risques/#comments</comments>
		<pubDate>Thu, 30 Aug 2012 08:11:05 +0000</pubDate>
		<dc:creator>Benoît TROUVILLIEZ</dc:creator>
				<category><![CDATA[Apprentissages]]></category>
		<category><![CDATA[TAL]]></category>
		<category><![CDATA[apprentissage artificiel]]></category>
		<category><![CDATA[apprentissage automatique]]></category>
		<category><![CDATA[apprentissage supervisé]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[principe de minimisation du risque empirique]]></category>
		<category><![CDATA[risque empirique]]></category>
		<category><![CDATA[risque réel]]></category>
		<category><![CDATA[sous apprentissage]]></category>
		<category><![CDATA[sur apprentissage]]></category>

		<guid isPermaLink="false">http://blog.onyme.com/?p=1367</guid>
		<description><![CDATA[Un nouveau volet de notre saga de billets sur l'apprentissage artificiel. Dans celui-ci, nous allons discuter des moyens d'<b>évaluer un apprentissage</b>. Nous voyons en quoi l'induction faite par le système apprenant peut conduire à une situation de mauvais apprentissage soit par une induction trop faible, soit au contraire par une induction trop forte.]]></description>
				<content:encoded><![CDATA[<h2>Introduction</h2>
<p>Un nouveau volet de notre saga de billets sur l&#8217;apprentissage artificiel. Dans celui-ci, nous allons discuter du moyen d&#8217;évaluer un apprentissage par l&#8217;estimation des risques.</p>
<ul>
<li>Apprentissage artificiel</li>
<ul>
<li><a href="apprentissage-artificiel-fondements-protocoles">Fondements et protocoles pour la classification et les regroupements</a></li>
<li><a href="apprentissage-artificiel-biais-modeles">Moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</a></li>
<li>Évaluation de l&#8217;apprentissage &#8211; Estimation des risques</li>
<li><a href="apprentissage-artificiel-evaluation-precision-rappel-f-mesure">Évaluation de l&#8217;apprentissage &#8211; Précision / Rappel / F-mesure</a></li>
</ul>
</ul>
<p>Nous voyons en quoi l&#8217;induction faite par le système apprenant peut conduire à une situation de mauvais apprentissage soit par une induction trop faible, soit au contraire par une induction trop forte.</p>
<h2>D&#8217;un exemple pratique&#8230;</h2>
<p>Nous allons commencer par un peu de pratique, ce qui va nous permettre d&#8217;introduire naturellement les deux pièges classiques de l&#8217;apprentissage. Reprenons l&#8217;exemple du billet précédent comportant six points classés dans deux classes distinctes.</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/points_classification1.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/points_classification1.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1370" /></a></p>
<p>Et nos trois séparateurs &#8220;acceptables&#8221; avec ces six instances</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/separateurs_classification1.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/separateurs_classification1.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1372" /></a></p>
<p>Comme nous l&#8217;avons évoqué dans le précédent billet, l&#8217;enjeu est de trouver un biais inductif capable à partir de quelques exemples de classer au mieux n&#8217;importe quel point et non pas seulement ceux connus lors de l&#8217;apprentissage. Pour illustrer cela, nous supposons que nous ayons à disposition après apprentissage deux points de plus pour chaque classe ce qui porte alors à 10 points (5 par classe), les points connus de l&#8217;espace après l&#8217;apprentissage.</p>
<p>Supposons que le biais inductif retenu pour l&#8217;apprentissage, nous fasse choisir le séparateur bleu. Celui-ci peut sembler un bon choix puisqu&#8217;il coupe l&#8217;espace en deux parties égales en séparant largement les 6 exemples connus selon leurs deux classes : en un mot, il semble donc réaliser une bonne induction. Nous obtenons alors, après apprentissage, la répartition décrite par la figure suivante :</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/wrong_separateurs_classification_2.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/wrong_separateurs_classification_2.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1374" /></a></p>
<p>On remarque assez rapidement que le classifieur commet dorénavant des erreurs et plus exactement deux erreurs par classes. cela amène alors à 4 points mal classés sur 10 : presque un point sur deux!!!! Ce classifieur qui pouvait paraître bon avec les 6 premiers exemples se révèle <u>n&#8217;avoir pas choisi le bon biais inductif</u>, du coup beaucoup des points non connus lors de l&#8217;apprentissage sont en fait mal classés par celui-ci. Nous sommes typiquement dans ce que l&#8217;on appelle une situation de <b>sous apprentissage</b> : les exemples connus lors de l&#8217;apprentissage n&#8217;ont pas permis d&#8217;avoir assez d&#8217;informations pour identifier un séparateur correct avec le biais inductif choisi.</p>
<p>Si l&#8217;on avait choisi un biais inductif nous amenant à choisir le séparateur rouge ou vert, nous aurions obtenu la répartition décrite par la figure suivante :</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/good_separateurs_classification.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/good_separateurs_classification.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1377" /></a></p>
<p>Il n&#8217;y a cette fois plus qu&#8217;un seul point par classe mal classé. Cela amène alors à seulement 2 points mal classés sur 10 : le biais inductif était donc cette fois meilleur!</p>
<p>Maintenant que l&#8217;on connait la classification de 10 points, nous pourrions être tenté d&#8217;apprendre à l&#8217;aide d&#8217;un nouveau biais inductif, un séparateur capable de classer convenablement l&#8217;ensemble des dix points à présent connus. Nous obtiendrions alors un séparateur proche de celui en mauve sur la figure ci-dessous.</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/wrong_separateurs_classification.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/wrong_separateurs_classification.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1383" /></a></p>
<p>Ce faisant, nous tombons à présent sur le deuxième piège de l&#8217;apprentissage : le séparateur mauve est clairement <u>trop spécialisé</u> sur les 10 points connus pour être un bon classifieur de l&#8217;ensemble des points de l&#8217;espace. Ce problème est largement connu en tant que situation de <b>sur apprentissage</b>.</p>
<p>Comme nous l&#8217;avons vu au travers de cet exemple, les deux pièges de l&#8217;apprentissage ne sont pas décorrélés. En cherchant à s&#8217;éloigner du premier, nous sommes tombé sur le deuxième et inversement en cherchant à éviter le deuxième (en prenant le séparateur bleu), nous nous sommes confrontés au premier.</p>
<p>Il nous faut trouver un compromis se situant entre le séparateur trop inductif nous conduisant à une situation de sous apprentissage et celui trop spécifique nous conduisant en sur apprentissage.</p>
<h2>&#8230; à la définition des risques</h2>
<p>Formellement, nous recherchons une fonction h permettant de classer les données x de X selon des classes y de Y tel que :</p>
<p><img class="aligncenter" src="http://chart.apis.google.com/chart?cht=tx&amp;chl=h(x)=y" /></p>
<p>Nous notons y&#8217;, la classe de Y correspondant à l&#8217;étiquetage idéal d&#8217;une donnée x de X. La fonction h* idéale recherchée doit donc classer toutes les données de X selon :</p>
<p><img class="aligncenter" src="http://chart.apis.google.com/chart?cht=tx&amp;chl=h*(x)=y'" /></p>
<p>La recherche du compromis mentionné auparavant correspond à une recherche du séparateur engendrant un risque minimale de mauvaise classification. Ce risque de mauvaise classification, appelée <b>risque réel</b> est donné par :</p>
<p><img class="aligncenter" src="http://chart.apis.google.com/chart?cht=tx&amp;chl=R_{reel}=\int_{x\in X,y'\in Y}l(y,y').P_{xy'}" /></p>
<p>La fonction l(y,y&#8217;) donne le coût de perte entre l’étiquetage y et y&#8217;. Cela correspond à la &#8220;sanction&#8221; que l&#8217;on doit considérer pour l&#8217;étiquetage d&#8217;une donnée par y au lieu de y&#8217;. Cela est notamment utile si des étiquetages doivent être considérés comme pire que d&#8217;autres. Pxy&#8217; correspond à la probabilité qu&#8217;une donnée x à étiqueter par y&#8217; apparaisse en tant que donnée à classer. La fonction de perte l est dépendante de la tâche à accomplir. Cela peut être classiquement une fonction binaire accordant une sanction de 0 en cas de correspondance et une sanction de 1 en cas de divergence. Cela peut aussi être une fonction plus complexe&#8230;</p>
<p>Calculer le risque réel suppose donc de connaître tous les points de l&#8217;espace d&#8217;entrée, leur étiquetage idéal et leur probabilité d&#8217;apparition en tant que donnée à classer : <u>une supposition illusoire!</u> Nous devons donc nous contenter d&#8217;une <b>approximation de ce risque</b>. Une technique courante est d&#8217;utiliser le <b>risque empirique</b> calculé à partir des exemples d&#8217;apprentissage. Notons L, l&#8217;ensemble des exemples d’apprentissage disponibles.</p>
<p><img class="aligncenter" src="http://chart.apis.google.com/chart?cht=tx&amp;chl=R_{emp}=\sum_{x\in L}l(y,y')" /></p>
<p>Le risque empirique permet d&#8217;obtenir une approximation imparfaite du risque réel. Le risque empirique peut être diminué en effectuant un sur apprentissage qui augmente lui le risque réel. Cette situation n&#8217;étant pas souhaitable, il convient de choisir un biais suffisamment fort pour empêcher le sur apprentissage. La figure ci dessous montre l&#8217;évolution simultanée des deux risques et les deux situations de mauvais apprentissage que nous avons évoquées dans la partie précédente.</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/08/risques1.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/08/risques1.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1435" /></a></p>
<h2>Conclusion</h2>
<p>Nous avons vu les notions de risques et surtout la notion de fonction de perte l qui permet de les obtenir. Cette notion de fonction de perte est pour le moment assez abstraite. Dans le prochain volet, nous voyons comment les techniques d&#8217;évaluations utilisées en recherche d&#8217;informations (précision, rappel, F-mesure) peuvent être employées pour <a href="apprentissage-artificiel-evaluation-precision-rappel-f-mesure">évaluer concrètement un apprentissage</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.onyme.com/apprentissage-artificiel-evaluation-estimation-risques/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Apprentissage artificiel : Moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</title>
		<link>http://blog.onyme.com/apprentissage-artificiel-biais-modeles/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=apprentissage-artificiel-biais-modeles</link>
		<comments>http://blog.onyme.com/apprentissage-artificiel-biais-modeles/#comments</comments>
		<pubDate>Wed, 25 Jul 2012 10:02:25 +0000</pubDate>
		<dc:creator>Benoît TROUVILLIEZ</dc:creator>
				<category><![CDATA[Apprentissages]]></category>
		<category><![CDATA[TAL]]></category>
		<category><![CDATA[apprentissage artificiel]]></category>
		<category><![CDATA[biais d'apprentissage]]></category>
		<category><![CDATA[biais inductif]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[clustering]]></category>
		<category><![CDATA[induction]]></category>
		<category><![CDATA[modèles d'apprentissage]]></category>
		<category><![CDATA[moyens de l'apprentissage]]></category>
		<category><![CDATA[séparateur linéaire]]></category>

		<guid isPermaLink="false">http://blog.onyme.com/?p=1122</guid>
		<description><![CDATA[La suite de la saga sur la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique) appliquée aux tâches de classification et regroupement. Dans ce volet, nous allons introduire les notions complémentaires de <b>biais et modèles d'apprentissage</b>.]]></description>
				<content:encoded><![CDATA[<h2>Introduction</h2>
<p>La suite de la saga sur la notion d’apprentissage artificiel (que l’on désigne également par apprentissage automatique) appliquée aux tâches de classification et regroupement.</p>
<ul>
<li>Apprentissage artificiel</li>
<ul>
<li><a href="apprentissage-artificiel-fondements-protocoles">Fondements et protocoles pour la classification et les regroupements</a></li>
<li>Moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</li>
<li><a href="apprentissage-artificiel-evaluation-estimation-risques">Évaluation de l&#8217;apprentissage &#8211; Estimation des risques</a></li>
<li><a href="apprentissage-artificiel-evaluation-precision-rappel-f-mesure">Évaluation de l&#8217;apprentissage &#8211; Précision / Rappel / F-mesure</a></li>
</ul>
</ul>
<p>Dans ce volet, nous allons introduire les notions complémentaires de biais et modèles d&#8217;apprentissage.</p>
<h2>Moyens d&#8217;apprendre : de la nécessité du biais d&#8217;apprentissage&#8230;</h2>
<p>Dans le billet précédent, nous avons vu que les algorithmes d&#8217;apprentissage artificiel avait pour but de s&#8217;adapter à la résolution d&#8217;une tâche au travers d&#8217;un protocole d&#8217;apprentissage. Bien que nous ayons vu les différents protocoles pertinents pour nos tâches de classification et regroupement (non supervisés et supervisés), nous n&#8217;avons pas discuté des <b>moyens</b> employés par ces derniers pour parvenir à cette adaptation. C&#8217;est là le but principal de ce deuxième billet.</p>
<p>Pour bien comprendre les enjeux des moyens à employer pour l&#8217;apprentissage, nous devons partir de la problématique concrète. Nous allons prendre un exemple sur la classification : supposons que nous devions apprendre à classer deux types de documents caractérisés par deux attributs et que nous disposons de trois exemples de chaque (ce cas n&#8217;est pas réaliste en terme d&#8217;apprentissage mais nous permet d&#8217;illustrer simplement nos propos). La localisation dans l&#8217;espace d&#8217;entrée des six exemples est alors donnée par le graphique suivant :</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/points_classification.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/points_classification.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1334" /></a></p>
<p>Afin d&#8217;apprendre à distinguer les deux types de documents, nous devons concrètement <u>apprendre à les séparer</u>, c&#8217;est à dire déterminer un <b>séparateur</b>. Dans le cas donné ci-dessus, il est possible de déterminer une multitude de séparateurs différents tout à fait acceptables au vu des données présentées. Les séparateurs bleu, rouge et vert sur le diagramme ci-dessous en sont trois exemples.</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/separateurs_classification.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/separateurs_classification.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1336" /></a></p>
<p> =&gt; Lequel de ces séparateurs est meilleur que les autres?<br />
 =&gt; Y en a t-il d&#8217;ailleurs un meilleur?</p>
<p>Les trois séparateurs présentées ici sont tout à fait convenables et valides mais celui en rouge est certainement le plus simple : il s&#8217;agit d&#8217;une combinaison linéaire sur les deux attributs. Cependant, cette question n&#8217;est pas dénuée d&#8217;intérêts car si ici nous n&#8217;avons présenté volontairement que des séparateurs &#8220;acceptables&#8221; nous verrons dans un prochain volet que cela n&#8217;est pas forcément toujours le cas&#8230;</p>
<p>Mais revenons pour l&#8217;heure à nos différents séparateurs. S&#8217;ils sont tous les trois acceptables (et il y en a sûrement d&#8217;autres), il va pourtant falloir choisir l&#8217;un d&#8217;entre eux. Si nous voulons <u>faire le choix</u> de la simplicité, nous pouvons nous contenter d&#8217;un séparateur linéaire mais rien ne nous oblige à <u>faire <b>ce</b> choix</u>. En d&#8217;autres termes, nous allons devoir ici arbitrer des caractéristiques du séparateur que nous désirons utiliser.<br />
=&gt; <u>Choix 1</u> : Le séparateur doit être simple : être une combinaison linéaire des attributs<br />
=&gt; <u>Choix 2</u> : Le séparateur doit être complexe : être une fonction polynomiale sur les attributs</p>
<p>Derrière ces réflexions se cache en réalité un problème bien connu et fondamental de l&#8217;apprentissage qu&#8217;est celui de <b>l&#8217;induction</b>. Nous disposons dans notre exemple de 6 points différents étiquetés dans les deux catégories. Si choisir un séparateur qui distingue correctement les 6 points selon les deux catégories est une chose, nous ne devons pas perdre de vue que notre objectif est de classer <u>n&#8217;importe quel point</u> de l&#8217;espace selon les deux catégories. Cela implique d&#8217;obtenir <u>une règle de classification</u> valable idéalement pour <b>tout point</b> de l&#8217;espace à partir seulement de quelques exemples&#8230; C&#8217;est là <u>l&#8217;induction nécessaire à tout apprentissage</u>. Prenons trois points inconnus notés ?1, ?2 et ?3 dans l&#8217;exemple précédent. Il est évident que selon le séparateur retenu parmi les trois proposés, la classification des trois points ne sera pas la même. Cela montre l&#8217;importance des choix inductifs faits sur la classification des points inconnus et donc plus généralement sur la tâche visée.</p>
<p><a href="http://blog.onyme.com/wp-content/uploads/2012/07/unknown_classification.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/07/unknown_classification.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1338" /></a></p>
<p>Faire un <u>choix inductif</u>, c&#8217;est choisir un <u>biais inductif</u> servant de <u>biais d&#8217;apprentissage</u>. Il s&#8217;agit de manière générale de fixer des conditions / hypothèses que doit respecter le système apprenant pour apprendre la tâche. Ces conditions ont l&#8217;objectif essentiel de limiter les hypothèses faites par le système apprenant sur ce qu&#8217;il doit apprendre. Utiliser un &#8220;bon&#8221; biais est vital pour l&#8217;apprentissage en deux points :</p>
<ul>
<li>L&#8217;efficacité de l&#8217;apprentissage : si les hypothèses envisageables par l&#8217;apprenant sont restreintes, l&#8217;apprentissage sera alors plus efficace. Concrètement, s&#8217;il y a moins d&#8217;hypothèses à considérer, on va plus vite à trouver la meilleure. A l&#8217;inverse, s&#8217;il y en a de trop l&#8217;algorithme risque de ne jamais converger vers une solution.</li>
<li>La pertinence de l&#8217;apprentissage : si le biais est bien choisi, les hypothèses envisageables par l&#8217;apprenant correspondront à la réalité de la tâche. Cela améliorera grandement la pertinence de l&#8217;apprentissage. Concrètement, dans l&#8217;exemple précédent si ?1 doit normalement être classé en tant qu&#8217;étoile, le séparateur bleu n&#8217;est pas pertinent.</li>
</ul>
<p>Un bon apprentissage passe bien sûr par un biais respectant au maximum ces deux points. A l&#8217;inverse la violation de ces points par le biais va avoir pour conséquence une dégradation forte de l&#8217;apprentissage. Nous aurons l&#8217;occasion de voir des exemples de &#8220;mauvais&#8221; biais et de situations de mauvais apprentissage lors d&#8217;un prochain billet.</p>
<h2>&#8230; à la notion de modèles d&#8217;apprentissage</h2>
<p>Un point clé de l&#8217;apprentissage artificiel est la notion de <b>modèle</b>. </p>
<p>Le modèle va permettre à l&#8217;apprenant d&#8217;apprendre efficacement selon un biais et de restituer cette connaissance en accomplissant la tâche désirée. Le choix du modèle à employer est donc primordial pour réussir un apprentissage optimal. Concrètement, le choix d&#8217;un modèle non adapté à la tâche aboutira à coup sûr à un mauvais apprentissage. Le choix du modèle est donc corrélé à la notion de biais défini précédemment dans le sens où le modèle impose toujours un type de biais sur l&#8217;apprentissage.</p>
<p>Ce biais est d&#8217;une nature différente selon le modèle retenu :</p>
<ul>
<li><b>fonctionnel</b> : il est alors basé sur une <u>fonction de décision sur les attributs d&#8217;entrées</u> permettant d&#8217;établir une <b>séparatrice</b>. La plus célèbre et la plus simple est sans doute la fonction linéaire mais il en existe de plus complexes couramment utilisées comme les fonctions polynomiales ou sigmoïdes. On entend assez souvent parler de régression dans le sens où l&#8217;on réduit le problème à une fonction dont on fixe les paramètres en fonction du problème.</li>
<li><b>probabiliste</b> : il est alors basé sur une <u>distribution de probabilité sur les attributs des entrées</u>. Concrètement, cela revient à établir un modèle qui en fonction des données qu&#8217;on lui présente donne la probabilité de chaque étiquetage. Les réseaux bayésiens sont sans doute l&#8217;exemple typique de ce genre de modèle.</li>
<li><b>connexionniste</b> : il est alors basé sur un <u>réseau de neurones</u>. Ce type de modèle s&#8217;inspire à la base du fonctionnement du cerveau humain. La tâche est découpée en neurones spécialisées dans la reconnaissance d&#8217;une partie de celle-ci. Lorsqu&#8217;un neurone spécifique est activé (on parle de stimulus), la partie de la tâche associée est reconnue. Nous citerons les perceptrons ou encore les cartes de Kohonen comme exemples typiques connexionnistes.</li>
<li><b>temporelle</b> : il est alors basé sur un <u>couplage temporelle entre les entrées</u>. Ce type de modèle décrit différents états temporels dans lesquels on est susceptible de se trouver (et par lesquels on va transiter). On peut alors déduire la tâche de l&#8217;état courant. L&#8217;exemple typique est le modèle de Markov caché.</li>
</ul>
<h2>Perspectives</h2>
<p>Dans le prochain billet, nous abordons l&#8217;<a href="apprentissage-artificiel-evaluation-estimation-risques">évaluation de l&#8217;apprentissage</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.onyme.com/apprentissage-artificiel-biais-modeles/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Apprentissage artificiel : Fondements et protocoles pour la classification et les regroupements</title>
		<link>http://blog.onyme.com/apprentissage-artificiel-fondements-protocoles/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=apprentissage-artificiel-fondements-protocoles</link>
		<comments>http://blog.onyme.com/apprentissage-artificiel-fondements-protocoles/#comments</comments>
		<pubDate>Thu, 26 Apr 2012 08:10:16 +0000</pubDate>
		<dc:creator>Benoît TROUVILLIEZ</dc:creator>
				<category><![CDATA[Apprentissages]]></category>
		<category><![CDATA[TAL]]></category>
		<category><![CDATA[apprentissage artificiel]]></category>
		<category><![CDATA[apprentissage automatique]]></category>
		<category><![CDATA[apprentissage naturel]]></category>
		<category><![CDATA[apprentissage non supervisé]]></category>
		<category><![CDATA[apprentissage semi supervisé]]></category>
		<category><![CDATA[apprentissage supervisé]]></category>
		<category><![CDATA[classification]]></category>
		<category><![CDATA[classification et regroupement de textes]]></category>
		<category><![CDATA[fondements de l'apprentissage artificiel]]></category>
		<category><![CDATA[intelligence artificielle]]></category>
		<category><![CDATA[protocoles d'apprentissage artificiel]]></category>
		<category><![CDATA[regroupement]]></category>

		<guid isPermaLink="false">http://blog.onyme.com/?p=1020</guid>
		<description><![CDATA[Un sujet que je n'ai encore que peu abordé dans ce blog concerne la notion d'apprentissage artificiel (que l'on désigne également par apprentissage automatique). C'est pourquoi, je vous propose une série de billets traitant de cette problématique. Nous étudierons principalement les tâches de classification et regroupement car elles sont au cœur de nos préoccupations.

Ce premier billet va nous servir à introduire les premières notions indispensables pour comprendre le domaine, le but recherché et les étapes principales de sa résolution.]]></description>
				<content:encoded><![CDATA[<h2>Introduction</h2>
<p>Un sujet que je n&#8217;ai encore que peu abordé dans ce blog concerne la notion d&#8217;<b>apprentissage artificiel</b> (que l&#8217;on désigne également par <b>apprentissage automatique</b>). C&#8217;est pourquoi, je vous propose une série de billets traitant de cette problématique. Nous étudierons principalement les <u>tâches de classification et regroupement</u> car elles sont au cœur de nos préoccupations.</p>
<ul>
<li>Apprentissage artificiel</li>
<ul>
<li>Fondements et protocoles pour la classification et les regroupements</li>
<li><a href="apprentissage-artificiel-biais-modeles">Moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</a></li>
<li><a href="apprentissage-artificiel-evaluation-estimation-risques">Évaluation de l&#8217;apprentissage &#8211; Estimation des risques</a></li>
<li><a href="apprentissage-artificiel-evaluation-precision-rappel-f-mesure">Évaluation de l&#8217;apprentissage &#8211; Précision / Rappel / F-mesure</a></li>
</ul>
</ul>
<p>Ce premier billet va nous servir à introduire les premières notions indispensables pour comprendre le domaine, le but recherché et les étapes principales de sa résolution.</p>
<h2>Fondements de l&#8217;apprentissage artificiel</h2>
<p>Clarifions d&#8217;abord les fondements de l&#8217;apprentissage artificiel. Pour cela, il faut repartir des origines de l&#8217;intelligence artificielle. L&#8217;<b>intelligence artificielle</b> vise à faire réaliser par des machines des <u>tâches complexes</u> normalement abordables uniquement par des humains. </p>
<p>L&#8217;approche classique consiste à <u>étudier la tâche</u> à réaliser et à <u>développer le programme &#8220;intelligent&#8221;</u> qui va pouvoir l&#8217;accomplir (dans l&#8217;idéal bien sûr). Un problème qui peut être induit par cette démarche est le coût engendré par l&#8217;étude de chacune des tâches et la conception d&#8217;algorithmes uniques pour chacune d&#8217;elles. Alors comment résoudre ce problème? </p>
<p>La solution imaginée consiste à remonter l&#8217;intelligence artificielle à un niveau supérieur. Plutôt que d&#8217;étudier les tâches individuellement et de développer un programme intelligent pour chacune d&#8217;elles, l&#8217;étude porte sur un <u>ensemble de tâches &#8220;similaires&#8221;</u>. Le but du programme intelligent est alors d&#8217;<u>observer les <b>caractéristiques spécifiques</b> de chacune des tâches</u> pour <b>s&#8217;adapter</b> à leurs résolutions. L&#8217;intelligence artificielle n&#8217;est alors plus concrètement au niveau de la réalisation de la tâche mais au niveau de <b>l&#8217;auto adaptation du programme</b> ciblée sur la réalisation de la tâche. Cette philosophie porte le nom d&#8217;<b>apprentissage artificiel</b>.</p>
<h2>Protocoles d&#8217;apprentissage en classification et regroupement : de l&#8217;apprentissage naturel à l&#8217;artificiel</h2>
<p>Un algorithme d&#8217;apprentissage artificiel permet donc l&#8217;adaptation automatique à la <b>réalisation d&#8217;une tâche</b> appartenant à une <u>catégorie de tâches similaires</u>. Cette notion de catégorie de tâches est importante car chaque algorithme d&#8217;apprentissage est connu pour fonctionner sur certains types de tâches et pas sur d&#8217;autres. Il est donc nécessaire de déterminer quelles sont les algorithmes à employer en fonction du type de la tâche. Parmi ces types de tâches, nous trouvons celles de <b>classification et regroupement de textes</b> que nous étudions plus en détails ici.</p>
<p>Pour mieux comprendre le principe de l&#8217;apprentissage artificiel, nous allons établir quelques parallèles avec l&#8217;<b>apprentissage naturel</b> qui diffère de l&#8217;artificiel par le fait qu&#8217;il soit réalisé non pas par une machine mais par un humain.</p>
<p>Imaginons que nous (humain) souhaitions apprendre à faire une tâche de classification/regroupement qui nous est totalement inconnue de prime abord. Par exemple classer (ou regrouper) des revues par thème. Bon d&#8217;accord, vous savez probablement déjà le faire mais bon j&#8217;ai dit imaginons&#8230;.</p>
<p>Comment nous y prendrions nous pour apprendre à le faire sans connaissance particulière au préalable? Nous avons déjà en partie répondu à cette question en énonçant ce qu&#8217;était un apprentissage. La clé est dans <u>l&#8217;observation des caractéristiques</u> de la tâche à accomplir. Mais concrètement comment cela se traduit-il?</p>
<p>Si nous sommes <u>seul</u> pour réaliser cette tâche, nous pourrions lire les revues et essayer de <b>découvrir dans leur contenu</b> des points de <u>similitude</u> ou au contraire des points de <u>divergence</u> entre elles. Grâce à cela, nous pourrions alors trouver une façon de <b>regrouper nos revues par thème</b>.</p>
<p>Si au contraire nous sommes <u>accompagné d&#8217;un éminent professeur</u> spécialiste du classement de revues, nous pourrions alors lui demander de nous <b>indiquer les différentes thématiques</b> de revues ainsi que de nous donner <b>les exemples les plus usuels</b>. Nous pourrions alors en déduire des <u>règles</u> pour nous permettre par la suite de <b>classer</b> par nous même les revues.</p>
<p>Notre expert pourrait également <u>ne pas avoir beaucoup de temps</u> à nous consacrer (il est pas mal demandé!). Dans ce cas, nous serions obligé de nous contenter que de <b>quelques exemples</b> délivrés par notre savant professeur et nous serions alors obligé de <b>chercher par nous même</b> les éléments qu&#8217;il n&#8217;auraient pas eu le temps de nous transmettre.</p>
<p>Cet exemple humoristique illustre trois processus d&#8217;apprentissage naturel de classification/regroupement. Si l&#8217;on souhaite faire réaliser ces mêmes processus à une machine, l&#8217;apprentissage devient alors artificiel. Le terme d&#8217;<u>apprenant</u> désigne alors le système &#8220;qui doit apprendre la tâche&#8221;. Comme nous, la machine peut être confrontée à des apprentissages où elle doit apprendre seule ou au contraire avec l&#8217;aide d&#8217;un professeur (on l&#8217;appelle plus couramment <u>Oracle</u> en apprentissage artificiel).</p>
<p>Il existe de ce fait trois grands axes de protocoles d&#8217;apprentissage artificiel utilisés pour les tâches de classification et de regroupement :</p>
<ul>
<li><b>non supervisé</b> : Aucun Oracle n&#8217;est disponible. L&#8217;algorithme doit découvrir par lui même les similitudes et divergences dans les données fournies pour apprendre la tâche de regroupement.</li>
<li><b>supervisé</b> : Un Oracle est disponible et étiquette les données. L&#8217;algorithme va alors apprendre la tâche de classification en se basant sur les étiquettes posées par l&#8217;Oracle.</li>
<li><b>semi-supervisé</b> : Un Oracle est partiellement disponible et étiquette quelques données. L&#8217;algorithme va alors apprendre la tâche de classification en se basant sur les étiquettes posées par l&#8217;Oracle et en découvrant par lui même les informations manquantes.</li>
</ul>
<p>Il existe d&#8217;autres types de protocoles d&#8217;apprentissage artificiel utilisés pour d&#8217;autres types de tâches comme par exemple <u>l&#8217;apprentissage par renforcement</u> utilisé entre autres dans la robotique. Nous ne les aborderons cependant pas en détails dans ce billet.</p>
<h2>Les phases des protocoles d&#8217;apprentissage artificiel en classification et regroupement</h2>
<p>Comme notre exemple de classer des revues nous le laissait transparaître, un protocole d&#8217;apprentissage artificiel se déroule en phases différentes selon les conditions dans lesquels on apprend. </p>
<p>L&#8217;<b>apprentissage non supervisé</b> n&#8217;en comporte qu&#8217;<u>une seule</u> puisque l&#8217;apprenant découvre directement la tâche de regroupement depuis les données. Cette phase est appelée <b>regroupement</b>, même si elle est plus connue sous sa dénomination anglaise <em><b>clustering</b></em>. Dans l&#8217;exemple ci-dessous, les trois données X1, X2 et X3 sont regroupées dans deux groupes distincts regroupant X1 et X2 dans Y1 et X3 seul dans Y2.<br />
<a href="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_clustering1.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_clustering1.png" alt="" width="340" height="102" class="aligncenter size-full wp-image-1159" /></a></p>
<p>Les <b>algorithmes supervisés</b> en comportent deux distinctes :</p>
<ul>
<li>la <b>phase d&#8217;entraînement</b> où l&#8217;on présente les données étiquetées par l&#8217;Oracle. Dans cette phase, le but de l&#8217;algorithme est de <u>déterminer des critères</u> permettant de prédire l&#8217;étiquetage de l&#8217;Oracle Y d&#8217;une entrée X par une sortie Y&#8217; la plus proche possible de Y.<a href="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_supervise_train1.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_supervise_train1.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1163" /></a></li>
<li>la <b>phase de classification</b> où l&#8217;algorithme va <u>étiqueter des données vierges</u> X avec des étiquettes Y&#8217; en fonction des règles apprises lors de la première étape.<a href="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_supervise_predict2.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_supervise_predict2.png" alt="" width="340" height="102" class="aligncenter size-full wp-image-1164" /></a></li>
</ul>
<p>Ces deux phases peuvent être exécutée de manières consécutive ou itérative. Concrètement, il est en fait possible de revenir à la phase d&#8217;apprentissage après le début de la phase de classification. On obtient alors une sorte d&#8217;<u>itération entre les deux phases</u> visant à perfectionner l&#8217;apprentissage au fil de l&#8217;eau que de nouveaux exemples sont disponibles. </p>
<p>Cela amène alors à différencier deux sous types de protocoles d&#8217;apprentissage pour la supervision :</p>
<ul>
<li><b>apprentissage supervisé en ligne</b> où l&#8217;on effectue des itérations entre les deux phases</li>
<li><b>apprentissage supervisé hors ligne</b> où l&#8217;on effectue consécutivement l&#8217;entraînement puis la classification</li>
</ul>
<p>Les <b>algorithmes semi-supervisés</b> fonctionnent sur les deux même phases mais acceptent en plus des <u>données non étiquetées</u> pendant la <u>phase d&#8217;entraînement</u>.<br />
<a href="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_semi_supervise_train.png"><img src="http://blog.onyme.com/wp-content/uploads/2012/04/apprentissage_semi_supervise_train.png" alt="" width="491" height="253" class="aligncenter size-full wp-image-1161" /></a><br />
Dans ce cadre, le but n&#8217;est pas tant d&#8217;attribuer une étiquette à la donnée que de prendre en considération que cette donnée est <u>&#8220;rencontrable&#8221; en classification</u>. En effet, les algorithmes supervisés partent du principe que les données fournies lors de la phase d&#8217;apprentissage sont totalement représentatives de celles &#8220;rencontrables&#8221; en classification. Cette <u>contrainte n&#8217;est pas toujours respectable</u> surtout si l’étiquetage de données est coûteux. La <b>non représentativité des données d&#8217;apprentissage</b> est alors un problème pour ces algorithmes. Le but de la semi supervision est donc d&#8217;offrir la possibilité de <u>renseigner l&#8217;algorithme</u> sur la nature réelle du problème à couvrir sans devoir pour autant engager un coût trop important dans l&#8217;étiquetage.</p>
<h2>Conclusion</h2>
<p>Nous abordons dans le prochain billet la question des <a href="apprentissage-artificiel-biais-modeles">moyens d&#8217;apprendre pour la classification et les regroupements (biais et modèles)</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.onyme.com/apprentissage-artificiel-fondements-protocoles/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
