• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appréhendez le fonctionnement de la régression linéaire multiple

On souhaite cette fois expliquer, de manière linéaire, une variable $\(Y \)$ (variable à expliquer), aléatoire en fonction de $\(p \)$ variables $\(\left( X_{1},\ldots,X_{p}\right)\)$ , et non plus d'une seule variable.

Extension naturelle du modèle de régression linéaire simple, le modèle de régression linéaire multiple suppose que :

$\[Y=\beta_{1}\, X_{1}+\beta_{2}\, X_{2}+\ldots+\beta_{p}\, X_{p}+\varepsilon\]$

où :

  • $\(Y \)$ est une v.a.r, observable ;

  • $\(\left( X_{1},\ldots,X_{p}\right)\)$ sont déterministes (non aléatoires), observables ;

  • $\((\beta_1,\ldots,\beta_p)\)$ sont des paramètres inconnus (non observables) ;

  • $\(\varepsilon\)$ , l'erreur du modèle, est une v.a.r centrée de variance $\(\sigma^2\)$ inconnue (c'est également un paramètre du modèle).

Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour $\(Y \)$ et les différentes variables météorologiques (température, vitesse du vent, etc.), ainsi que le pic d'ozone de la veille pour $\(X_1,\ldots,X_p\)$ .

Les données

On considère ici que l'on dispose de $\(n\)$ observations $\(\left(x_{i1},\ldots,x_{ip},y_i\right)_{i\in\{1,\ldots,n\}}\)$ d'un échantillon i.i.d de $\(\left(X_1,\ldots,X_{p},Y\right)\)$ :

$\(\forall i\in\{1,\ldots,n\} :y_{i}=\beta_{1}\, x_{i1}+\beta_{2}\, x_{i2}+\ldots+\beta_{p}\, x_{ip}+\varepsilon_{i}\ \)$

De manière identique à la régression linéaire simple, les erreurs $\(\left(\varepsilon_i\right)_{i\in\{1,\ldots,n\}} \)$ vérifient pour $\(\left(i,j\right)i\in\{1,\ldots,n\}^2\)$ :

  •  $\(\mathbb{E}\left(\varepsilon_i\right)=0\)$ (elles sont centrées autour de 0) ;

  •  $\(\operatorname{Var}\left(\varepsilon_i\right)=\sigma^2\)$ (leur variance, inconnue, est constante et égale à $\(\sigma^2\)$ ) ;

  •  $\(\operatorname{Cov}\left(\varepsilon_i,\varepsilon_j\right)=0\)$ si $\(i\ne j\)$ (elles n'ont pas de dépendance linéaire).

Matriciellement, on peut réécrire le problème sous la forme suivante :

$\[\mathbf{Y} =\mathbb{X} \boldsymbol{\beta} +\boldsymbol{\varepsilon}\]$

où :

$\[\mathbf{Y} =\begin{pmatrix}y_{1}\\\vdots\\y_{n}\end{pmatrix},\ \mathbb{X} =\begin{bmatrix}x_{11} \ldots x_{1p}\\\vdots \ \ \ \vdots \ \ \ \vdots\\x_{n1}\ldots x_{np}.\end{bmatrix},\ \boldsymbol{\beta} =\begin{pmatrix}\beta_{1}\\\vdots\\\beta_{p}\end{pmatrix},\ \boldsymbol{\varepsilon}=\begin{pmatrix}\varepsilon_{1}\\\vdots\\\varepsilon_{n}\end{pmatrix}\]$

Régression linéaire multiple avec ou sans constante

En présence d'un terme constant dans le modèle, on considérera que la première variable $\(X_1\)$ est égale à 1 : 

$\[\forall i\in\{1,\ldots,n\} :x_{i1}=1\]$

On est alors en présence de $\(p-1\)$ vraies variables explicatives et de $\(p \)$ paramètres à estimer (avec en sus $\(\sigma^2\)$ qui reste à estimer quel que soit le cas).

Linéarisation de modèles de régression

Il est possible de considérer comme variables explicatives des transformations (puissance, exponentielle, logarithme, etc.) de  $\(X_1,\ldots,X_p\)$ .

Après cette introduction au modèle, continuons avec la méthode des Moindres Carrés Ordinaires, que vous avez découverte dans la partie précédente... 

Exemple de certificat de réussite
Exemple de certificat de réussite