L'intérêt d'un modèle de régression linéaire réside dans sa capacité à expliquer une partie des variations de la variable Y par les variations de la variable X . La variation d'une variable Y est obtenue en considérant les différences entre les valeurs observées yi et leur moyenne ¯y .
Or on a :
où ˆyi−ˉy est la variation expliquée (ou restituée) par le modèle (on a ¯y=¯ˆy ), alors que yi−ˆyi est la variation non expliquée par le modèle.
On peut établir la formule de décomposition de la variance (ANOVA : ANalysis Of VAriance) :
SCT | =SCE | +SCR |
∑ni=1(yi−¯y)2 | ∑ni=1(ˆyi−¯y)2 | ∑ni=1(yi−ˆyi)2 |
SCT (Somme des Carrés Totale) traduit la variation totale de Y .
SCE (Somme des Carrés Expliquée) traduit la variation expliquée par le modèle.
SCR (Somme des Carrés Résiduelle) traduit la variation inexpliquée par le modèle.
On appelle coefficient de détermination la quantité suivante :
Ce coefficient R2 est dans [0,1] , puisque :
0≤SCE≤SCT
Si R2=1 , on a alors SCE=SCT : toute la variation est expliquée par le modèle.
Si R2=0 , on a alors SCR=SCT : aucune variation n'est expliquée par le modèle.
Dans le cas de la régression linéaire simple, on obtient :
R2=r2X,Y
où rX,Y est la corrélation linéaire (empirique) entre X et Y .
Le risque de surinterpréter
Il faut veiller à ne pas surinterpréter le coefficient de détermination :
Un bon ajustement linéaire se traduit par un R2 proche de 1.
A contrario, un R2 proche de 1 ne traduit pas forcément un lien linéaire.
Un R2 proche de 0 traduit un mauvais ajustement linéaire, mais n'implique pas qu'aucune relation ne puisse être établie entre les variables.
Pour illustration, la figure suivante présente :
En haut à gauche : un cas de dépendance linéaire entre deux variables pour lequel le coefficient de détermination est proche de 1.
En haut à droite : un cas de dépendance, non linéaire, de forme \textit{racine carrée}, entre deux variables, pour lequel le coefficient de détermination est proche de 1.
En bas à gauche : un cas de dépendance, non linéaire, parabolique, entre deux variables, pour lequel le coefficient de détermination est proche de 0.
En bas à droite : un cas d'indépendance entre deux variables pour lequel le coefficient de détermination est proche de 0.
Vous savez maintenant comment calculer le coefficient de détermination. Nous allons à présent tester notre modèle.