On souhaite cette fois expliquer, de manière linéaire, une variable Y (variable à expliquer), aléatoire en fonction de p variables (X1,…,Xp) , et non plus d'une seule variable.
Extension naturelle du modèle de régression linéaire simple, le modèle de régression linéaire multiple suppose que :
où :
Y est une v.a.r, observable ;
(X1,…,Xp) sont déterministes (non aléatoires), observables ;
(β1,…,βp) sont des paramètres inconnus (non observables) ;
ε , l'erreur du modèle, est une v.a.r centrée de variance σ2 inconnue (c'est également un paramètre du modèle).
Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour Y et les différentes variables météorologiques (température, vitesse du vent, etc.), ainsi que le pic d'ozone de la veille pour X1,…,Xp .
Les données
On considère ici que l'on dispose de n observations (xi1,…,xip,yi)i∈{1,…,n} d'un échantillon i.i.d de (X1,…,Xp,Y) :
∀i∈{1,…,n}:yi=β1xi1+β2xi2+…+βpxip+εi
De manière identique à la régression linéaire simple, les erreurs (εi)i∈{1,…,n} vérifient pour (i,j)i∈{1,…,n}2 :
E(εi)=0 (elles sont centrées autour de 0) ;
Var(εi)=σ2 (leur variance, inconnue, est constante et égale à σ2 ) ;
Cov(εi,εj)=0 si i≠j (elles n'ont pas de dépendance linéaire).
Matriciellement, on peut réécrire le problème sous la forme suivante :
où :
Régression linéaire multiple avec ou sans constante
En présence d'un terme constant dans le modèle, on considérera que la première variable X1 est égale à 1 :
On est alors en présence de p−1 vraies variables explicatives et de p paramètres à estimer (avec en sus σ2 qui reste à estimer quel que soit le cas).
Linéarisation de modèles de régression
Il est possible de considérer comme variables explicatives des transformations (puissance, exponentielle, logarithme, etc.) de X1,…,Xp .
Après cette introduction au modèle, continuons avec la méthode des Moindres Carrés Ordinaires, que vous avez découverte dans la partie précédente...