• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appliquez la méthode des Moindres Carrés Ordinaires

L'estimateur des Moindres Carrés Ordinaires

$\(\beta_1\)$ et $\(\beta_2\)$ sont des paramètres inconnus non observables, que l'on cherche à estimer. Il existe plusieurs méthodes pour cela, mais la plus utilisée est celle des MCO.

On appelle estimateur des moindres carrés ordinaires (MCO) de $\(\beta_1\)$ et $\(\beta_2\)$ les valeurs $\(\widehat{\beta}_1\)$ et $\(\widehat{\beta}_2\)$ minimisant la somme des carrés des résidus :

$\[S\left(\beta_1,\beta_2\right)=\sum_{i=1}^n\left(y_i-\beta_1-\beta_2\, x_i\right)^2\\]$

Si, comme la somme des valeurs absolues, la somme des carrés est toujours positive (et nulle si le modèle est parfait), elle présente en sus l'intérêt d'être dérivable, ce qui est plus simple pour déterminer le minimum.

En notant $\(\widehat{y}_{i}=\widehat{\beta}_{1}+\widehat{\beta}_{2}\, x_{i}\)$ , on peut tracer la droite de régression suivante :

Figure 2.1 : Droite de régression
Droite de régression

Notons que la distance minimisée avec les MCO est $\(e_i=y_i-\widehat{y}_i\)$ (en vert), pas la distance du point à la droite de régression (en rouge) :

Figure 2.2 : Distance des moindres carrés
Distance des moindres carrés

La solution obtenue

Dans le cas où au moins un des $\(x_{i} \)$ diffère des autres (ce qui est toujours le cas en pratique), les estimateurs des MCO de $\(\left(\beta_1,\beta_2\right)\)$ valent :

$\[\widehat{\beta}_2=\frac{s_{XY}}{s^2_X}\]$

$\[\widehat{\beta}_1=\bar{y}-\widehat{\beta}_2\, \bar{x}\]$

Remarquons que le coefficient directeur de la droite $\(\widehat{\beta}_2\)$ est proportionnel à la covariance empirique entre $\(X \)$ et $\(Y\)$ , qui est, rappelons-le, une mesure de la dépendance linéaire entre les variables.

La droite de régression

L'équation de la droite de régression est :

$\[y=\widehat{\beta}_{1}+\widehat{\beta}_{2}\, x\]$

On peut montrer que cette droite passe par le barycentre du nuage de points $\((\overline{x},\overline{y})\)$

Valeurs ajustées et résidus

Pour l'observation $\(i\)$ , on appelle valeur ajustée (ou valeur estimée) la quantité :

$\[\widehat{y}_{i}=\widehat{\beta}_{1}+\widehat{\beta}_{2}\, x_{i}\]$

On appelle résidu la différence entre la valeur observée pour la variable à expliquer et son estimation. Il représente la partie inexpliquée par le modèle. Le résidu, pour l'individu $\(i \)$ , est donc : 

$\[e_{i}=y_{i}-\widehat{y}_{i}\]$

Les résidus, dépendant des paramètres estimés, sont calculables, à la différence du bruit qui dépend des paramètres inconnus :

$\[\varepsilon_{i}=y_{i}-\beta_{1}-\beta_{2}\, x_{i}\]$

Le résidu $\(e_{i}\)$ est une estimation du bruit $\(\varepsilon_{i}\)$ . Il représente la partie non expliquée par le modèle pour l'individu $\( i\)$ .

On peut montrer que la somme des résidus est nulle :

$\[\sum_{i=1}^n e_i=0\]$

Pour aller plus loin : les propriétés statistiques des paramètres

On peut montrer que $\(\widehat{\beta}_1\)$ et $\(\widehat{\beta}_2\)$ sont des estimateurs sans biais de $\(\beta_1\)$ et $\(\beta_2\)$ :

$\[\forall j\in\{1,2\} :\mathbb{E}\left(\widehat{\beta}_j\right)=\beta_j\]$

Cela signifie qu'en moyenne, l'estimateur des MCO nous conduira à la bonne solution.

Une petite remarque ici, les deux estimateurs $\(\widehat{\beta}_1\)$ et $\(\widehat{\beta}_2\)$ ne sont pas indépendants, ils sont même linéairement dépendants (covariance non nulle) :

$\[\operatorname{Cov}\left(\widehat{\beta}_1,\widehat{\beta}_2\right)=-\frac{\sigma^2\, \bar{x}}{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}\]$

On peut d'autant plus être confiant dans la qualité de ces estimateurs qu'ils sont dit BLUE (Best Linear Unbiased Estimators) : parmi tous les estimateurs linéaires et sans biais de $\(\beta_1\)$ et $\(\beta_2\)$ , les estimateurs des MCO de $\(\widehat{\beta}_1\)$ et $\(\widehat{\beta}_2\)$ sont de variance minimale.

La variance résiduelle

La variance résiduelle vaut : 

$\[\widehat{\sigma}^2=\frac{1}{n-2}\sum_{i=1}^n e_i^2\]$

C'est un estimateur sans biais de $\(\sigma^2\)$ .

Pour aller plus loin : l'interprétation géométrique

On peut réécrire :

$\[\mathbf{Y} =\beta_1\, \mathbf{1}_n+\beta_2\, \mathbf{X}+\boldsymbol{\varepsilon}\]$

$\[\mathbf{1}_n=\begin{pmatrix}1\\\vdots\\1\\\end{pmatrix}, \ \ {X}=\begin{pmatrix} x_1\\\vdots\\x_n\\\end{pmatrix}\]$

On a :

$\[S\left(\beta_1,\beta_2\right)=\sum_{i=1}^n\left(y_i-\left(\beta_1+\beta_2x_i\right)\right)^2=\left\Vert\mathbf{Y} -\left(\beta_1\mathbf{1}_n+\beta_2\mathbf{X}\right)\right\Vert_{\ell^2}^2\]$

$\(\left\Vert\cdot\right\Vert_{\ell^2} \)$ désigne la norme euclidienne.

En notant $\(\widehat{\mathbf{Y}}=\widehat{\beta}_1\mathbf{1}_n+\widehat{\beta}_2\mathbf{X}\)$ , on a :

$\[\left\Vert\mathbf{Y}-\widehat{\mathbf{Y}}\right\Vert_{\ell^2}^2=\min_{\left(\beta_1,\beta_2\right)}\left\Vert\mathbf{Y}-\left(\beta_1\mathbf{1}_n+\beta_2\mathbf{X}\right)\right\Vert_{\ell^2}^2\ .\]$

 $\(\widehat{\mathbf{Y}}\)$ est la projection orthogonale de $\(\mathbf{Y}\)$ sur le sous-espace vectoriel engendré par les vecteurs $\(\mathbf{1}_n\)$ et $\(\mathbf{X}\ .\)$

Les estimateurs $\(\widehat{\beta}_1\)$ et $\(\widehat{\beta}_2\)$ sont donc les coordonnées de la projection de $\(\mathbf{Y}\)$ dans cet espace.

Vous avez découvert la méthode des Moindres Carrés Ordinaires. Voyons maintenant comment calculer le coefficient de détermination.

Exemple de certificat de réussite
Exemple de certificat de réussite