L'intérêt d'un modèle de régression linéaire réside dans sa capacité à expliquer une partie des variations de la variable par les variations de la variable . La variation d'une variable est obtenue en considérant les différences entre les valeurs observées et leur moyenne .
Or on a :
où est la variation expliquée (ou restituée) par le modèle (on a ), alors que est la variation non expliquée par le modèle.
On peut établir la formule de décomposition de la variance (ANOVA : ANalysis Of VAriance) :
SCT | =SCE | +SCR |
|
|
|
(Somme des Carrés Totale) traduit la variation totale de .
(Somme des Carrés Expliquée) traduit la variation expliquée par le modèle.
(Somme des Carrés Résiduelle) traduit la variation inexpliquée par le modèle.
On appelle coefficient de détermination la quantité suivante :
Ce coefficient est dans , puisque :
Si , on a alors : toute la variation est expliquée par le modèle.
Si , on a alors : aucune variation n'est expliquée par le modèle.
Dans le cas de la régression linéaire simple, on obtient :
où est la corrélation linéaire (empirique) entre et .
Le risque de surinterpréter
Il faut veiller à ne pas surinterpréter le coefficient de détermination :
Un bon ajustement linéaire se traduit par un proche de 1.
A contrario, un proche de 1 ne traduit pas forcément un lien linéaire.
Un proche de 0 traduit un mauvais ajustement linéaire, mais n'implique pas qu'aucune relation ne puisse être établie entre les variables.
Pour illustration, la figure suivante présente :
En haut à gauche : un cas de dépendance linéaire entre deux variables pour lequel le coefficient de détermination est proche de 1.
En haut à droite : un cas de dépendance, non linéaire, de forme \textit{racine carrée}, entre deux variables, pour lequel le coefficient de détermination est proche de 1.
En bas à gauche : un cas de dépendance, non linéaire, parabolique, entre deux variables, pour lequel le coefficient de détermination est proche de 0.
En bas à droite : un cas d'indépendance entre deux variables pour lequel le coefficient de détermination est proche de 0.
Vous savez maintenant comment calculer le coefficient de détermination. Nous allons à présent tester notre modèle.