Limitations de la régression linéaire
Dans le chapitre précédent, nous avons vu que la régression linéaire souffre de quelques inconvénients quand les variables sont corrélées : la solution n'est pas unique et les coefficients ont une grande variabilité, et l'interprétation est plus difficile.
Une autre situation dans laquelle la solution n'est pas unique est celui où le nombre de variables est plus grand que celui d'observations. Dans ce cas, la matrice n'est pas inversible : ne peut pas être de rang colonne plein en ayant plus de colonnes (variables) que de lignes (observations).
Il y a donc un risque de sur-apprentissage.
Régularisation
Pour limiter le sur-apprentissage, on peut utiliser une technique, la régularisation, qui consiste à contrôler simultanément l'erreur du modèle sur le jeu d'entraînement et la complexité du modèle. Souvenez-vous, plus un modèle est « complexe », plus il est susceptible de sur-apprendre. L'idée ici va être de ne pas minimiser seulement l'erreur du modèle, mais une nouvelle fonction objective qui est la somme d'un terme d'erreur et d'un terme mesurant la complexité du modèle. Dans le cas de la régression linéaire, il s'agit donc de résoudre
Le régularisateur, qui mesure la complexité du modèle, est une fonction des poids du modèle.
Dans les chapitres suivants, vous verrez quelques exemples concrets de régularisateurs.
Choix du coefficient de régularisation
Quel que soit le régularisateur utilisé, notre algorithme d'apprentissage contient maintenant un hyperparamètre, le coefficient de régularisation qui contrôle l'importance relative du terme d'erreur et du terme de régularisation.
Plus est grand, plus le terme de régularisation est important. Plus il est petit et plus l'erreur est importante ; s'il est suffisamment faible (et en particulier s'il est égal à zéro), on retrouvera la solution de la régression linéaire non-régularisée. Quelle valeur donner à cet hyperparamètre ? En général, c'est une question que l'on réglera en utilisant une validation croisée (cf. le chapitre correspondant du cours « Évaluez et améliorez les performances d'un modèle de machine learning »).