• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 13/03/2024

Déterminez un intervalle de confiance sur une moyenne

Le coin méthodologique

Considérons un échantillon i.i.d de loi N(μ,σ2) , ou un grand échantillon i.i.d non gaussien (en pratique de taille supérieure à 30).

On va retrouver un intervalle de confiance qui fait intervenir les mêmes types de quantité :

  • La taille de l'échantillon.

  • La dispersion (empirique) de l'échantillon.

  • Des quantiles d'une loi de probabilité : pas la loi gaussienne curieusement ici mais une loi proche, celle de Student (cela est dû à la non-connaissance de la variance théorique σ2 , pour les plus curieux on donne l'argument ci-après).

L'intervalle de confiance bilatère de niveau 1α pour μest alors :

[¯Xtn1,1α2Sn;¯X+tn1,1α2Sn]

tn1,1α2 désigne le quantile d'ordre 1α2 de la loi de Student à n1 degrés de liberté :

T(n1)

Rappelons que S est l'écart type empirique (dans sa version non biaisée) :

S=1n1ni=1(Xi¯X)2

Pour aller plus loin

Mathématiquement, pour établir l'intervalle de confiance, on aurait pu se baser sur le résultat  probabiliste suivant :

n¯XμσN(0,1)

Ce résultat est vrai pour un échantillon i.i.d gaussien, ou asymptotiquement vrai pour un grand échantillon (via le théorème de la limite centrale, le fameux TCL).

Ce résultat fait intervenir l'écart-type théorique, σ , inconnu, l'idée est alors de remplacer cet écart-type théorique inconnu par l'empirique, S , on obtient alors une loi de Student (à n1 degrés de liberté) :

n¯XμST(n1)

On peut alors facilement encadrer notre statistique de la manière suivante :

P(tn1,1α2n¯XμStn1,1α2)=1α

Il faut noter ici qu'on a, pour une loi de Student :

tn1,α2=tn1,1α2

cette loi étant symétrique.

On déduit de cet encadrement le suivant (par simples équivalences) :

P(¯Xtn1,1α2Snμ¯X+tn1,1α2Sn)=1α

d'où l'intervalle de confiance donné précédemment.

Le coin R : consommation d'essence

Si on souhaite encadrer la consommation d’essence moyenne (théorique) μ avec une probabilité de 95%, on obtient alors comme intervalle de confiance (  tn1,1α2=t127,0.9751.97  et  s2.16 )

[31.451.97 2.16128 ; 31.45+1.97 2.16128]

Remarquons ici que l’hypothèse gaussienne n’était pas obligatoire ici, en effet l’échantillon est de taille suffisamment importante (supérieure à 30).

Si on lance “manuellement” les calculs au niveau de test 5% :

alpha <- 0.05
icinf <- xbar-qt(p=1-alpha/2,df=n_essence-1)*sprime/sqrt(n_essence)
round(icinf,digits=2)
## [1] 31.07

icsup <- xbar+qt(p=1-alpha/2,df=n_essence-1)*sprime/sqrt(n_essence)
round(icsup,digits=2)
## [1] 31.83

On obtient alors :

[31.07 ; 31.83]

En pratique, le data analyst peut utiliser la commande  t.test  pour obtenir cet intervalle de confiance :

alpha <- 0.05
t.test(essence$conso,conf.level=1-alpha)
##
## One Sample t-test
##
## data: essence$conso
## t = 164.74, df = 127, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 31.07169 31.82722
## sample estimates:
## mean of x
## 31.44945

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite