L'objectif de ce chapitre est de :
montrer qu'un modèle en apprentissage est associé à un ensemble d'hypothèses,
donner les caractéristiques d'un bon ensemble d'hypothèses pour l'apprentissage,
introduire les principales classes de modèles utilisés.
Apprentissage et hypothèses
Nous avons vu que, pour une machine, apprendre c'était assimiler des données et même beaucoup de données. Cette notion d'assimilation fait référence à l’existence (parfois implicite) d'une fonction coût que l'apprentissage cherche à minimiser. Après les données et le coût, le troisième ingrédient dont tout algorithme d'apprentissage a besoin, c'est un modèle.
On peut voir le modèle comme un ensemble d'hypothèses parmi lesquelles la solution du problème d'apprentissage va être recherchée. Le but de ce chapitre est de présenter les différents types de modèles utilisés en apprentissage.
Les caractéristiques d’un bon ensemble d’hypothèses
En apprentissage, un bon modèle doit satisfaire des attentes parfois contradictoires. Il doit permettre de résoudre tous les types de problèmes, à la fois des problèmes relativement simples (avec des relations linéaires) et d'autres plus complexes (avec des aspects fortement non linéaires). La complexité algorithmique du modèle doit aussi être raisonnable.
Par exemple, sa taille ne peut pas croître indéfiniment, même modestement, avec le nombre d'exemples disponibles. Enfin, il est préférable qu'il soit facile à mettre en œuvre. Nous allons maintenant détailler chacun de ces points, en commençant par cette aptitude à résoudre tous les problèmes.
L'universalité des modèles
Un bon modèle d'apprentissage se doit, quel que soit le problème considéré, quelles que soient les données, de pouvoir donner de bons résultats. C'est cette capacité que l'on appelle l'universalité d'un ensemble de modèles.
Quelles sont les principales classes de modèles universels ?
Les différents types de modèles universels existants peuvent être regroupés en quatre classes :
les modèles basés sur les variables,
les modèles basés sur les exemples,
les combinaisons d’éléments simples,
les modèles paramétriques extensibles (les réseaux de neurones profonds ou deep networks).
Nous allons maintenant détailler chacune de ces classes de modèles.
Dans le cadre des modèles basés sur les variables, une hypothèse est une combinaison linéaire de K fonction des entrées {ϕk(x),k=1,…,K}, fixées à l'avance comme des polynômes ou des ondelettes.
À l'aide d'un dictionnaire, une hypothèse s'écrit :
Les fonctions {ϕk(x),k=1,…,K} forment un dictionnaire universel indépendant des données, capable d'approcher n'importe quelle fonction pourvu que K soit suffisamment grand. Le problème d'apprentissage revient dans ce cas à estimer les coefficients αk,k=1,…,K .
Les modèles basés sur les exemples utilisent les données pour construire le dictionnaire. Le dictionnaire n'est plus fixé à l'avance mais dépend des n exemples de la base d'apprentissage. Un exemple d'un tel dispositif est donné par les fonctions noyaux.
À l'aide des noyaux, les hypothèses s'écrivent :
Dans ce cas, la taille du modèle n'est pas fixée à l'avance, mais dépend de n le nombre d'observations utilisées pour l'apprentissage. Il existe d'autres façons de construire ce type de modèle. Par exemple, la méthode des plus proches voisins produit des hypothèses dont la valeur en un point x dépend de celle des plus proches voisin de x .
Il est aussi possible de construire des modèles universels en combinant, pendant l'apprentissage, des éléments simples, souvent basés sur une partition de l'espace des entrées. C'est le cas, par exemple, des arbres de décisions qui réalisent cette partition en considérant successivement différentes variables et qui, eux-mêmes, peuvent être combinés pour créer des forêts aléatoires.
Le boosting est une autre méthode utilisant la combinaison d’éléments simples permettant, par itérations successives, de construire des modèles universels. Dans ce cadre, les hypothèses s'écrivent :
où θt représente les paramètres du t ème élément de base.
C'est le cas, par exemple, des réseaux de neurones profonds (ou deep networks), qui sont construits par la juxtaposition de briques de bases analogues à des neurones formels. Un des réseau les plus simples est la perception multicouche à une couche cachée à une seule sortie, dont les hypothèses s'écrivent :
avec W une matrice p×k , V un vecteur à k composantes et σ une fonction non linéaire de R dans R, encore appelée fonction d'activation. On peut montrer que, en choisissant k suffisamment grand en fonction de la précision désirée, ce type de modèle est universel.
Une question fondamentale, associée à l'apprentissage automatique et un peu occultée dans la manière dont nous venons de présenter les différents modèles, est celle de la représentation ou de l'extraction de caractéristiques. L'extraction de caractéristiques est une phase de transformation des données brutes (comme des images ou des sons par exemple) en un ensemble de variables susceptibles de contenir les informations les plus pertinentes pour faciliter l'apprentissage.
Nous avons noté jusque-là x les données disponibles sans préciser leur nature. Il peut s'agir de données brutes ou de caractéristiques préalablement déterminées. Ainsi, par exemple dans le cas de l'apprentissage de dictionnaire, si l'on considère les fonctions de base ϕk(x) comme des caractéristiques, le modèle associé est toujours universel et le problème d'apprentissage linéaire, donc assez simple.
Les autres critères d'un bon modèle
Quels sont les autres critères d'un bon modèle pour l'apprentissage statistique ?
L’universalité n’est pas le seul critère. Elle est nécessaire mais pas suffisante, car un modèle qui a bien appris se doit de donner de bons résultats sur de nouvelles données. C’est la capacité de généralisation du modèle. C’est principalement pour cette raison que l’on effectue un apprentissage.
Outre les qualités difficilement quantifiables comme la facilité de mise en œuvre ou la robustesse, il est une autre qualité importante qui permet de distinguer les modèles : leur capacité à passer à l'échelle. Or, nous l'avons vu dans la leçon précédente, aujourd'hui les problèmes d'apprentissage ont tendance à prendre en compte de grandes quantités d'exemples en grandes dimensions.
Lorsque p et n sont grands, ni les modèles basés sur les variables ni ceux basés sur les exemples ne passent à l'échelle tels quels. Pour les utiliser, il faut pré-traiter les variables et les individus en sélectionnant les plus pertinents pour la tâche considérée. Ce type de pré-traitement est très populaire en apprentissage car il permet, en plus, de diminuer la taille du problème et donc les temps de traitement.
À l'inverse, un autre courant voit l'apprentissage comme un tout et suggère de prendre le problème de bout en bout (end-to-end machine learning), de l'entrée jusqu’à la sortie, en considérant la programmation par apprentissage simultané de la totalité de la séquence de tâches à réaliser pour traiter ces données.
En résumé
Un modèle pour l'apprentissage est constitué d'un ensemble d’hypothèses qui se doit d'être universel et efficace. Il existe quatre grandes classes de modèle universels :
les modèles basés sur les variables,
les modèles basés sur les exemples,
les combinaisons d’éléments simples,
les modèles paramétriques extensibles.
Seuls les deux derniers passent nativement à l'échelle.
Mais l'universalité entraîne une nouvelle difficulté : puisqu'ils sont universels, ces modèles peuvent représenter tout et n'importe quoi. Pour les utiliser convenablement, il est donc fondamental de contrôler cette complexité pour l'ajuster à celle du problème que l'on cherche à résoudre. Ce problème du contrôle de la complexité est très lié à un autre problème fondamental en apprentissage : celui de la généralisation — c'est-à-dire à la capacité, pour un apprenti, de donner de bonnes prédictions sur de nouveaux exemples.
C'est ce que nous allons voir dans le chapitre suivant.