L'estimateur des Moindres Carrés Ordinaires
et sont des paramètres inconnus non observables, que l'on cherche à estimer. Il existe plusieurs méthodes pour cela, mais la plus utilisée est celle des MCO.
On appelle estimateur des moindres carrés ordinaires (MCO) de et les valeurs et minimisant la somme des carrés des résidus :
Si, comme la somme des valeurs absolues, la somme des carrés est toujours positive (et nulle si le modèle est parfait), elle présente en sus l'intérêt d'être dérivable, ce qui est plus simple pour déterminer le minimum.
En notant , on peut tracer la droite de régression suivante :
Notons que la distance minimisée avec les MCO est (en vert), pas la distance du point à la droite de régression (en rouge) :
La solution obtenue
Dans le cas où au moins un des diffère des autres (ce qui est toujours le cas en pratique), les estimateurs des MCO de valent :
Remarquons que le coefficient directeur de la droite est proportionnel à la covariance empirique entre et , qui est, rappelons-le, une mesure de la dépendance linéaire entre les variables.
La droite de régression
L'équation de la droite de régression est :
On peut montrer que cette droite passe par le barycentre du nuage de points
Valeurs ajustées et résidus
Pour l'observation , on appelle valeur ajustée (ou valeur estimée) la quantité :
On appelle résidu la différence entre la valeur observée pour la variable à expliquer et son estimation. Il représente la partie inexpliquée par le modèle. Le résidu, pour l'individu , est donc :
Les résidus, dépendant des paramètres estimés, sont calculables, à la différence du bruit qui dépend des paramètres inconnus :
Le résidu est une estimation du bruit . Il représente la partie non expliquée par le modèle pour l'individu .
On peut montrer que la somme des résidus est nulle :
Pour aller plus loin : les propriétés statistiques des paramètres
On peut montrer que et sont des estimateurs sans biais de et :
Cela signifie qu'en moyenne, l'estimateur des MCO nous conduira à la bonne solution.
Une petite remarque ici, les deux estimateurs et ne sont pas indépendants, ils sont même linéairement dépendants (covariance non nulle) :
On peut d'autant plus être confiant dans la qualité de ces estimateurs qu'ils sont dit BLUE (Best Linear Unbiased Estimators) : parmi tous les estimateurs linéaires et sans biais de et , les estimateurs des MCO de et sont de variance minimale.
La variance résiduelle
La variance résiduelle vaut :
C'est un estimateur sans biais de .
Pour aller plus loin : l'interprétation géométrique
On peut réécrire :
où
On a :
où désigne la norme euclidienne.
En notant , on a :
est la projection orthogonale de sur le sous-espace vectoriel engendré par les vecteurs et
Les estimateurs et sont donc les coordonnées de la projection de dans cet espace.
Vous avez découvert la méthode des Moindres Carrés Ordinaires. Voyons maintenant comment calculer le coefficient de détermination.