Le modèle
La régression linéaire simple permet d'expliquer, de manière linéaire, une variable Y(variable à expliquer), aléatoire en fonction d'une variable explicative X (on la nomme parfois régresseur ou covariable).
Le modèle de régression linéaire simple suppose, comme son nom l'indique, qu'il existe une relation linéaire entre la variable à expliquer et la variable explicative :
Mathématiquement, on considère que :
Y est une variable aléatoire, observable ;
X est une variable déterministe (non aléatoire), observable ;
β1 et β2 sont des paramètres inconnus (non observables) ;
ε est une variable aléatoire centrée (autour de 0) de variance σ2 inconnue (c'est également un paramètre du modèle).
L'objectif est de déterminer, d'estimer les paramètres de la droite de régression : l'ordonnée à l'origine β1 et le coefficient directeur β2 .
Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour Y et la température à 12 h. On sera ainsi en mesure de prédire ce pic d'ozone journalier uniquement en fonction de la température à midi.
Les données
On considère ici que l'on dispose de n observations (xi,yi)i∈{1,…,n} d'un échantillon i.i.d de (X,Y) .
Dans le cas de l’ozone (où n=104 ), xi est la température à 12 h pour le jour i et yi le pic d'ozone journalier.
On a donc, selon le modèle de régression posé précédemment :
Les erreurs (εi)i∈{1,…,n} vérifient pour (i,j)i∈{1,…,n}2 :
E(εi)=0 (elles sont centrées autour de 0) ;
Var(εi)=σ2 (leur variance, inconnue, est constante et égale à σ2 ) ;
Cov(εi,εj)=0 si i≠j (elles n'ont pas de dépendance linéaire).
Pour aller plus loin : l'écriture matricielle
Matriciellement, on peut écrire :
où :
Cette écriture sera très utilisée dans le cas où l'on disposera non pas d'une, mais de plusieurs variables explicatives.
Dans les prochains chapitres, nous allons entrer dans la théorie. Si vous souhaitez un aperçu d'une prévision à l'aide d'une régression linéaire, consultez ce TP.