De manière similaire au modèle linéaire simple, on dispose d'une formule de décomposition de la variance(ANOVA : ANalysis Of VAriance) faisant intervenir les quantités suivantes :
Somme des Carrés Totale (SCT) : elle traduit la variation totale de .
Somme des Carrés Expliquée (SCE) : elle traduit la variation expliquée par le modèle.
Somme des Carrés Résiduelle (SCR) : elle traduit la variation inexpliquée par le modèle.
On se place dans le cas de la régression avec constante (en considérant par exemple que ) :
SCT | = SCE | + SCR |
|
|
|
Le coefficient de détermination
On appelle coefficient de détermination, noté , le réel dans défini par :
Dans le cas de la régression avec constante :
Si , on a alors : toute la variation est expliquée par le modèle.
Si , on a alors : aucune variation n'est expliquée par le modèle.
En pratique, ce coefficient présente un inconvénient important : on pourrait introduire artificiellement des variables, pseudo-explicatives, et faire croître le coefficient de détermination. Plus le nombre de variables est important, plus l'erreur d'ajustement est faible et donc le coefficient de détermination proche de 1.
Cependant, la qualité prédictive du modèle diminue, rendant le modèle moins robuste. Afin de prendre en compte le nombre de variables explicatives, on considère souvent le coefficient de détermination ajusté défini de la manière suivante (dans le cas de la régression avec constante) :
Pour terminer, n'oubliez pas qu'il faut veiller à ne pas surinterpréter le coefficient de détermination : un faible indique simplement que l'ajustement linéaire n'est pas opportun. Cela n'indique pas forcément qu'il n'y a pas de relation entre et les variables considérées.
Le coefficient de détermination est maintenant calculé, il est temps de tester votre modèle, dans le chapitre suivant.