Réalisez des modélisations de données performantes

12 heures
Difficile

Licence

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appréhendez le fonctionnement de la régression linéaire

Le modèle

La régression linéaire simple permet d'expliquer, de manière linéaire, une variable $$$Y $$$ (variable à expliquer), aléatoire en fonction d'une variable explicative $$$X $$$ (on la nomme parfois régresseur ou covariable).

Le modèle de régression linéaire simple suppose, comme son nom l'indique, qu'il existe une relation linéaire entre la variable à expliquer et la variable explicative :

$$\[Y=\beta_1+\beta_2\, X+\varepsilon\\]$$

Mathématiquement, on considère que :

$$$Y $$$ est une variable aléatoire, observable ;
$$$X $$$ est une variable déterministe (non aléatoire), observable ;
$$$\beta_1$$$ et $$$\beta_2$$$ sont des paramètres inconnus (non observables) ;
$$$\varepsilon$$$ est une variable aléatoire centrée (autour de 0) de variance $$$\sigma^2$$$ inconnue (c'est également un paramètre du modèle).

L'objectif est de déterminer, d'estimer les paramètres de la droite de régression : l'ordonnée à l'origine $$$\beta_1 $$$ et le coefficient directeur $$$\beta_2$$$ .

Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour $$$Y $$$ et la température à 12 h. On sera ainsi en mesure de prédire ce pic d'ozone journalier uniquement en fonction de la température à midi.

Les données

On considère ici que l'on dispose de $$$n $$$ observations $$$ \left(x_i,y_i\right)_{i\in\{1,\ldots,n\}}$$$ d'un échantillon i.i.d de $$$\left(X,Y\right)$$$ .

Dans le cas de l’ozone (où $$$n=104$$$ ), $$$ x_i$$$ est la température à 12 h pour le jour $$$i $$$ et $$$ y_i $$$ le pic d'ozone journalier.

On a donc, selon le modèle de régression posé précédemment :

$$\[\forall i\in\{1,\ldots,n\} :y_i=\beta_1+\beta_2\, x_i+\varepsilon_i\\]$$

Les erreurs $$$\left(\varepsilon_i\right)_{i\in\{1,\ldots,n\}}$$$ vérifient pour $$$\left(i,j\right)i\in\{1,\ldots,n\}^2$$$ :

$$$\mathbb{E}\left(\varepsilon_i\right)=0$$$ (elles sont centrées autour de 0) ;
$$$\operatorname{Var}\left(\varepsilon_i\right)=\sigma^2$$$ (leur variance, inconnue, est constante et égale à $$$\sigma^2$$$ ) ;
$$$\operatorname{Cov}\left(\varepsilon_i,\varepsilon_j\right)=0$$$ si $$$i\ne j $$$ (elles n'ont pas de dépendance linéaire).

Pour aller plus loin : l'écriture matricielle

Matriciellement, on peut écrire :

$$\[\mathbf{Y}= \mathbb{X}\, \boldsymbol{\beta}+\boldsymbol{\varepsilon} \]$$

où :

$$\[\mathbf{Y} =\begin{pmatrix}y_1\\\vdots \\y_n \\\end{pmatrix},\ \mathbb{X}=\begin{bmatrix}1 x_1\\\vdots\vdots\\1x_n \\\end{bmatrix},\ \boldsymbol{\beta} =\begin{pmatrix}\beta_1 \\\beta_2 \\\end{pmatrix},\ \boldsymbol{\varepsilon}=\begin{pmatrix}\varepsilon_1 \\\vdots \\\varepsilon_n \\\end{pmatrix}\\]$$

Cette écriture sera très utilisée dans le cas où l'on disposera non pas d'une, mais de plusieurs variables explicatives.

Dans les prochains chapitres, nous allons entrer dans la théorie. Si vous souhaitez un aperçu d'une prévision à l'aide d'une régression linéaire, consultez ce TP.