Bienvenue dans ce cours d’introduction à la démarche de l’apprentissage statistique pour l’IoT.
Un exemple simple : où est Charlie ?
Dans cette 1ère partie, nous allons voir comment apprendre à partir d'exemples simples.
L'objectif est de reconnaître le type de problème d'apprentissage auquel nous sommes confrontés, quel algorithme d'apprentissage utiliser et quelle démarche mettre en œuvre.
Afin de découvrir ensemble les cinq étapes fondamentales de toute application de l'apprentissage statistique, nous allons prendre l’exemple du jeu « Où est Charlie ? ».
Ce jeu peut sembler simple de premier abord : il consiste à retrouver le personnage de Charlie dans une image.
Définir le problème
Du point de vue de l'apprentissage, si on cherche à automatiser cette tâche, on peut l’associer à deux questions.
1ère question : Charlie ou pas Charlie ?
La première question consiste à savoir, si on regarde un petit personnage, s’il s’agit ou non de Charlie.
Du point de vue de l’apprentissage, il s’agit d’un problème de discrimination.
Nous allons supposer que ce problème est résolu et que nous savons décider si un personnage est ou n'est pas Charlie.
2ème question : Comment localiser Charlie le plus rapidement possible ?
Le problème qui se pose alors est de trouver comment retrouver Charlie le plus vite possible, c’est-à-dire comment parcourir l'image pour retrouver Charlie rapidement ? C'est le problème que nous allons maintenant utiliser comme fil conducteur jusqu'à la fin de cette leçon : comment balayer l'image pour retrouver le plus rapidement possible où se trouve Charlie.
Les différentes phases
Histoire de coût
La manière dont nous venons de poser le problème donne un premier élément important : le coût d'une solution. En effet, l’objectif étant de trouver le chemin qui va minimiser notre temps de parcours, entre deux solutions permettant de parcourir une image, nous allons préférer celle qui trouvera la solution en un minimum de temps. Le coût associé au problème est donc ici le temps de parcours.
La démarche basée sur les données
Quelle stratégie utiliser pour répondre à la deuxième question : comment trouver la solution de coût minimum ? Et quelle démarche apporter dans le domaine de l'apprentissage statistique pour résoudre ce problème ?
L'apprentissage statistique propose de construire la solution par induction, produire une connaissance générale à partir d'exemples. L'idée est d'apprendre comment regarder une image pour retrouver Charlie en utilisant des exemples qui sont liés à ce problème. Les données dont nous disposons ici sont les livres de Charlie et des localisations précédentes de Charlie dans ces livres.
Ces localisations vont constituer nos données d’apprentissage.
Ces localisations nous donnent 68 points. Il s’agit des 68 positions où était situé Charlie dans les images des sept premiers livres. L’hypothèse sous-jacente est que Charlie ne se trouve pas à n’importe quel endroit dans l’image, mais qu’il y a des zones où il est plus probable de le trouver.
Chaque position est représentée par deux variables, l’abscisse et l’ordonnée, qui sont les deux coordonnées qui nous permettent de retrouver Charlie dans les livres. Les données disponibles sont donc constituées de :
{n=68 observations ou individusp=2 variables
Ces données peuvent être représentées par une matrice M constituée de n=68 lignes, correspondant aux 68 positions de Charlie connues et deux colonnes, x représentant l’abscisse et y l'ordonnée de la position de chacun des 68 Charlie.
M=(x1y1⋮⋮xiyi⋮⋮x68y68)
Ce sont les données d'apprentissage. Dans le monde de l’apprentissage statistique, les données sont souvent représentées par ce type de matrice, dont le nombre de lignes est aussi le nombre d'observations et le nombre de colonnes correspond au nombre de variables.
Nous avons donc deux éléments :
nous avons l'objectif, qui définit le coût, c’est-à-dire trouver Charlie le plus vite possible ;
nous avons cet ensemble de données qui sont l'ensemble des points, la matrice M .
Ce que nous allons chercher à faire, c'est intégrer, assimiler le plus rapidement possible, le plus efficacement possible ces données dans un modèle d'apprentissage.
Le modèle d'apprentissage
Une fois le coût et les données déterminées, il faut se donner un modèle d'apprentissage, c'est-à-dire une fonction dépendant de certains paramètres inconnus. Dans notre exemple, ce modèle représente l'hypothèse selon laquelle il existe dans l'image des zones où il est plus probable de trouver un Charlie que d'autres.
Apprendre, c’est optimiser
L'apprentissage est la quatrième phase, c'est l’assimilation des données, qui est en fait une phase d'optimisation.
Dans cette phase, nous allons réaliser l'optimisation des paramètres, en minimisant, pour le coût défini dans la première phase, en fonction des données dont nous disposons à la deuxième phase, les paramètres que nous avons définis dans la troisième phase.
La minimisation de ce temps de parcours va nous donner le chemin que nous pourrons suivre avec notre œil et qui va ici nous permettre de faire un parcours de plus petite distance permettant de visiter tous les points.
L'hypothèse que nous faisons est qu'en faisant ce parcours sur des nouvelles données, nous allons minimiser le temps pour trouver Charlie.
Apprendre, c’est généraliser
Le but de l'apprentissage est de construire des modèles qui vont nous permettre de généraliser, c’est-à-dire d'avoir de bonnes performances sur des nouvelles données analogues aux données d'apprentissage. Dans notre exemple, si le résultat de l'apprentissage est bon, il doit nous permettre de retrouver Charlie rapidement sur de nouvelles images (ce qui n'est pas certain).
Après un apprentissage réussi (la minimisation d'un coût sur des données d’entraînement), le modèle obtenu se doit de donner de bonnes performances sur des données qu'il n'a jamais vues.
Résumé de la démarche d’apprentissage
On peut résumer cette démarche de l'apprentissage à travers cinq étapes :
Définir le problème : se poser la bonne question et définir la fonction coût associée.
Recueillir des exemples, des données : trouver des données associées, souvent sous la forme d'une matrice dont les lignes représentent les observations et les colonnes les variables.
Construire un modèle : construire un modèle qui va nous permettre de représenter la relation entre des entrées et des sorties et de modéliser globalement la structure que nous cherchons à apprendre grâce à l'utilisation de paramètres.
Optimiser cette structure : c'est-à-dire minimiser, par rapport aux paramètres définis dans la troisième phase, le coût de la première sur les exemples de la seconde, cette optimisation nous permet de trouver le modèle que nous cherchons.
Généraliser : ce modèle, s'il est convenable, doit nous permettre de généraliser correctement, c’est-à-dire de donner des performances sur des données non encore vues.
Pour mettre en œuvre cette démarche, il faut utiliser un environnement informatique adapté, comme par exemple R ou Python que nous allons utiliser dans ce cours avec un environnement (sur Scikit-learn). Mais cela peut être un autre environnement. Par exemple, les trois dernières figures ci-dessus ont été réalisées avec Matlab.
Dans le chapitre suivant, nous allons voir comment cette démarche est mise en œuvre dans deux problèmes d'apprentissage supervisé typiques : la discrimination bi-classe et la régression.