• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Appréhendez le fonctionnement de la régression linéaire

Le modèle

La régression linéaire simple permet d'expliquer, de manière linéaire, une variable Y(variable à expliquer), aléatoire en fonction d'une variable explicative X (on la nomme parfois régresseur ou covariable).

Le modèle de régression linéaire simple suppose, comme son nom l'indique, qu'il existe une relation linéaire entre la variable à expliquer et la variable explicative :

Y=β1+β2X+ε 

Mathématiquement, on considère que :

  • Y est une variable aléatoire, observable ;

  • X est une variable déterministe (non aléatoire), observable ;

  • β1 et β2 sont des paramètres inconnus (non observables) ;

  • ε est une variable aléatoire centrée (autour de 0) de variance σ2 inconnue (c'est également un paramètre du modèle).

L'objectif est de déterminer, d'estimer les paramètres de la droite de régression : l'ordonnée à l'origine β1 et le coefficient directeur β2 .

Dans le cas de l'ozone, on considérera le pic d'ozone journalier pour Y et la température à 12 h. On sera ainsi en mesure de prédire ce pic d'ozone journalier uniquement en fonction de la température à midi.

Les données

On considère ici que l'on dispose de n observations (xi,yi)i{1,,n} d'un échantillon i.i.d de (X,Y) .

Dans le cas de l’ozone (où n=104 ), xi est la température à 12 h pour le jour i et yi le pic d'ozone journalier.

On a donc, selon le modèle de régression posé précédemment :

i{1,,n}:yi=β1+β2xi+εi 

Les erreurs (εi)i{1,,n} vérifient pour  (i,j)i{1,,n}2 :

  •  E(εi)=0  (elles sont centrées autour de 0) ;

  •  Var(εi)=σ2  (leur variance, inconnue, est constante et égale à σ2 ) ;

  •  Cov(εi,εj)=0 si ij (elles n'ont pas de dépendance linéaire).

Pour aller plus loin : l'écriture matricielle

Matriciellement, on peut écrire :

Y=Xβ+ε

où :

Y=(y1yn), X=[1x11xn], β=(β1β2), ε=(ε1εn) 

Cette écriture sera très utilisée dans le cas où l'on disposera non pas d'une, mais de plusieurs variables explicatives.

Dans les prochains chapitres, nous allons entrer dans la théorie. Si vous souhaitez un aperçu d'une prévision à l'aide d'une régression linéaire, consultez ce TP.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite