L'estimateur des Moindres Carrés Ordinaires
β1 et β2 sont des paramètres inconnus non observables, que l'on cherche à estimer. Il existe plusieurs méthodes pour cela, mais la plus utilisée est celle des MCO.
On appelle estimateur des moindres carrés ordinaires (MCO) de β1 et β2 les valeurs ˆβ1 et ˆβ2 minimisant la somme des carrés des résidus :
Si, comme la somme des valeurs absolues, la somme des carrés est toujours positive (et nulle si le modèle est parfait), elle présente en sus l'intérêt d'être dérivable, ce qui est plus simple pour déterminer le minimum.
En notant ˆyi=ˆβ1+ˆβ2xi , on peut tracer la droite de régression suivante :
Notons que la distance minimisée avec les MCO est ei=yi−ˆyi (en vert), pas la distance du point à la droite de régression (en rouge) :
La solution obtenue
Dans le cas où au moins un des xi diffère des autres (ce qui est toujours le cas en pratique), les estimateurs des MCO de (β1,β2) valent :
Remarquons que le coefficient directeur de la droite ˆβ2 est proportionnel à la covariance empirique entre X et Y , qui est, rappelons-le, une mesure de la dépendance linéaire entre les variables.
La droite de régression
L'équation de la droite de régression est :
On peut montrer que cette droite passe par le barycentre du nuage de points (¯x,¯y)
Valeurs ajustées et résidus
Pour l'observation i , on appelle valeur ajustée (ou valeur estimée) la quantité :
On appelle résidu la différence entre la valeur observée pour la variable à expliquer et son estimation. Il représente la partie inexpliquée par le modèle. Le résidu, pour l'individu i , est donc :
Les résidus, dépendant des paramètres estimés, sont calculables, à la différence du bruit qui dépend des paramètres inconnus :
Le résidu ei est une estimation du bruit εi . Il représente la partie non expliquée par le modèle pour l'individu i .
On peut montrer que la somme des résidus est nulle :
Pour aller plus loin : les propriétés statistiques des paramètres
On peut montrer que ˆβ1 et ˆβ2 sont des estimateurs sans biais de β1 et β2 :
Cela signifie qu'en moyenne, l'estimateur des MCO nous conduira à la bonne solution.
Une petite remarque ici, les deux estimateurs ˆβ1 et ˆβ2 ne sont pas indépendants, ils sont même linéairement dépendants (covariance non nulle) :
On peut d'autant plus être confiant dans la qualité de ces estimateurs qu'ils sont dit BLUE (Best Linear Unbiased Estimators) : parmi tous les estimateurs linéaires et sans biais de β1 et β2 , les estimateurs des MCO de ˆβ1 et ˆβ2 sont de variance minimale.
La variance résiduelle
La variance résiduelle vaut :
C'est un estimateur sans biais de σ2 .
Pour aller plus loin : l'interprétation géométrique
On peut réécrire :
où
On a :
où ‖⋅‖ℓ2 désigne la norme euclidienne.
En notant ˆY=ˆβ11n+ˆβ2X , on a :
ˆY est la projection orthogonale de Y sur le sous-espace vectoriel engendré par les vecteurs 1n et X .
Les estimateurs ˆβ1 et ˆβ2 sont donc les coordonnées de la projection de Y dans cet espace.
Vous avez découvert la méthode des Moindres Carrés Ordinaires. Voyons maintenant comment calculer le coefficient de détermination.