Réalisez des modélisations de données performantes

12 heures
Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appréhendez le fonctionnement de la régression linéaire multiple

On souhaite cette fois expliquer, de manière linéaire, une variable $$$Y $$$ (variable à expliquer), aléatoire en fonction de $$$p $$$ variables $$$\left( X_{1},\ldots,X_{p}\right)$$$ , et non plus d'une seule variable.

Extension naturelle du modèle de régression linéaire simple, le modèle de régression linéaire multiple suppose que :

$$\[Y=\beta_{1}\, X_{1}+\beta_{2}\, X_{2}+\ldots+\beta_{p}\, X_{p}+\varepsilon\]$$

où :

$$$Y $$$ est une v.a.r, observable ;
$$$\left( X_{1},\ldots,X_{p}\right)$$$ sont déterministes (non aléatoires), observables ;
$$$(\beta_1,\ldots,\beta_p)$$$ sont des paramètres inconnus (non observables) ;
$$$\varepsilon$$$ , l'erreur du modèle, est une v.a.r centrée de variance $$$\sigma^2$$$ inconnue (c'est également un paramètre du modèle).

Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour $$$Y $$$ et les différentes variables météorologiques (température, vitesse du vent, etc.), ainsi que le pic d'ozone de la veille pour $$$X_1,\ldots,X_p$$$ .

Les données

On considère ici que l'on dispose de $$$n$$$ observations $$$\left(x_{i1},\ldots,x_{ip},y_i\right)_{i\in\{1,\ldots,n\}}$$$ d'un échantillon i.i.d de $$$\left(X_1,\ldots,X_{p},Y\right)$$$ :

$$$\forall i\in\{1,\ldots,n\} :y_{i}=\beta_{1}\, x_{i1}+\beta_{2}\, x_{i2}+\ldots+\beta_{p}\, x_{ip}+\varepsilon_{i}\ $$$

De manière identique à la régression linéaire simple, les erreurs $$$\left(\varepsilon_i\right)_{i\in\{1,\ldots,n\}} $$$ vérifient pour $$$\left(i,j\right)i\in\{1,\ldots,n\}^2$$$ :

$$$\mathbb{E}\left(\varepsilon_i\right)=0$$$ (elles sont centrées autour de 0) ;
$$$\operatorname{Var}\left(\varepsilon_i\right)=\sigma^2$$$ (leur variance, inconnue, est constante et égale à $$$\sigma^2$$$ ) ;
$$$\operatorname{Cov}\left(\varepsilon_i,\varepsilon_j\right)=0$$$ si $$$i\ne j$$$ (elles n'ont pas de dépendance linéaire).

Matriciellement, on peut réécrire le problème sous la forme suivante :

$$\[\mathbf{Y} =\mathbb{X} \boldsymbol{\beta} +\boldsymbol{\varepsilon}\]$$

où :

$$\[\mathbf{Y} =\begin{pmatrix}y_{1}\\\vdots\\y_{n}\end{pmatrix},\ \mathbb{X} =\begin{bmatrix}x_{11} \ldots x_{1p}\\\vdots \ \ \ \vdots \ \ \ \vdots\\x_{n1}\ldots x_{np}.\end{bmatrix},\ \boldsymbol{\beta} =\begin{pmatrix}\beta_{1}\\\vdots\\\beta_{p}\end{pmatrix},\ \boldsymbol{\varepsilon}=\begin{pmatrix}\varepsilon_{1}\\\vdots\\\varepsilon_{n}\end{pmatrix}\]$$

Régression linéaire multiple avec ou sans constante

En présence d'un terme constant dans le modèle, on considérera que la première variable $$$X_1$$$ est égale à 1 :

$$\[\forall i\in\{1,\ldots,n\} :x_{i1}=1\]$$

On est alors en présence de $$$p-1$$$ vraies variables explicatives et de $$$p $$$ paramètres à estimer (avec en sus $$$\sigma^2$$$ qui reste à estimer quel que soit le cas).

Linéarisation de modèles de régression

Il est possible de considérer comme variables explicatives des transformations (puissance, exponentielle, logarithme, etc.) de $$$X_1,\ldots,X_p$$$ .

Après cette introduction au modèle, continuons avec la méthode des Moindres Carrés Ordinaires, que vous avez découverte dans la partie précédente...