• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Calculez le coefficient de détermination

L'intérêt d'un modèle de régression linéaire réside dans sa capacité à expliquer une partie des variations de la variable  $\(Y\)$ par les variations de la variable $\(X\)$ . La variation d'une variable $\(Y \)$ est obtenue en considérant les différences entre les valeurs observées $\(y_{i}\)$ et leur moyenne $\(\overline{y}\)$ .

Or on a :

$\[y_{i}-\overline{y}=\widehat{y}_{i}-\overline{y}+y_{i}-\widehat{y}_{i} \]$

$\(\widehat{y}_{i}-\bar{y}\)$ est la variation expliquée (ou restituée) par le modèle (on a $\(\overline{y}=\overline{\widehat{y}}\)$ ), alors que $\( y_{i}-\widehat{y}_{i}\)$ est la variation non expliquée par le modèle.

On peut établir la formule de décomposition de la variance (ANOVA : ANalysis Of VAriance) :

SCT

=SCE

+SCR

 $\(\sum_{i=1}^{n}\left( y_{i}-\overline{y}\right) ^{2}\)$

 $\(\sum_{i=1}^{n}\left( \widehat{y}_{i}-\overline{y}\right) ^{2}\)$

 $\(\sum_{i=1}^{n}\left(y_{i}-\widehat{y}_{i}\right) ^{2}\)$

  •  $\(\operatorname{SCT}\)$ (Somme des Carrés Totale) traduit la variation totale de $\(Y\)$ .

  •  $\(\operatorname{SCE}\)$ (Somme des Carrés Expliquée) traduit la variation expliquée par le modèle.

  •  $\(\operatorname{SCR}\)$ (Somme des Carrés Résiduelle) traduit la variation inexpliquée par le modèle.

On appelle coefficient de détermination la quantité suivante :

$\[\operatorname{R}^2=\frac{\operatorname{SCE}}{\operatorname{SCT}}\]$

Ce coefficient $\(\operatorname{R}^2\)$ est dans $\([0,1] \)$ , puisque :

 $\(0\leq \operatorname{SCE}\leq \operatorname{SCT}\)$

Si $\(\operatorname{R}^2=1\)$ , on a alors $\(\operatorname{SCE}=\operatorname{SCT}\)$ : toute la variation est expliquée par le modèle.

Si $\(\operatorname{R}^2=0\)$ , on a alors $\(\operatorname{SCR}=\operatorname{SCT}\)$ : aucune variation n'est expliquée par le modèle.

Dans le cas de la régression linéaire simple, on obtient :
 $\(\operatorname{R}^2=r_{X,Y}^{2}\)$
$\(r_{X,Y} \)$ est la corrélation linéaire (empirique) entre $\(X \)$ et $\(Y\)$ .

Le risque de surinterpréter

Il faut veiller à ne pas surinterpréter le coefficient de détermination :

  • Un bon ajustement linéaire se traduit par un $\(\operatorname{R}^2\)$ proche de 1.

  • A contrario, un $\(\operatorname{R}^2\)$ proche de 1 ne traduit pas forcément un lien linéaire.

  • Un $\(\operatorname{R}^2\)$ proche de 0 traduit un mauvais ajustement linéaire, mais n'implique pas qu'aucune relation ne puisse être établie entre les variables.

Pour illustration, la figure suivante présente :

  • En haut à gauche : un cas de dépendance linéaire entre deux variables pour lequel le coefficient de détermination est proche de 1.

  • En haut à droite : un cas de dépendance, non linéaire, de forme \textit{racine carrée}, entre deux variables, pour lequel le coefficient de détermination est proche de 1.

  • En bas à gauche : un cas de dépendance, non linéaire, parabolique, entre deux variables, pour lequel le coefficient de détermination est proche de 0.

  • En bas à droite : un cas d'indépendance entre deux variables pour lequel le coefficient de détermination est proche de 0.

Exemples de coefficients de détermination
Exemples de coefficients de détermination

Vous savez maintenant comment calculer le coefficient de détermination. Nous allons à présent tester notre modèle.

Exemple de certificat de réussite
Exemple de certificat de réussite