Le coin méthodologique
Considérons un échantillon i.i.d de loi N(μ,σ2) , ou un grand échantillon i.i.d non gaussien (en pratique de taille supérieure à 30).
On va retrouver un intervalle de confiance qui fait intervenir les mêmes types de quantité :
La taille de l'échantillon.
La dispersion (empirique) de l'échantillon.
Des quantiles d'une loi de probabilité : pas la loi gaussienne curieusement ici mais une loi proche, celle de Student (cela est dû à la non-connaissance de la variance théorique σ2 , pour les plus curieux on donne l'argument ci-après).
L'intervalle de confiance bilatère de niveau 1−α pour μest alors :
où tn−1,1−α2 désigne le quantile d'ordre 1−α2 de la loi de Student à n−1 degrés de liberté :
Rappelons que S′ est l'écart type empirique (dans sa version non biaisée) :
Pour aller plus loin
Mathématiquement, pour établir l'intervalle de confiance, on aurait pu se baser sur le résultat probabiliste suivant :
Ce résultat est vrai pour un échantillon i.i.d gaussien, ou asymptotiquement vrai pour un grand échantillon (via le théorème de la limite centrale, le fameux TCL).
Ce résultat fait intervenir l'écart-type théorique, σ , inconnu, l'idée est alors de remplacer cet écart-type théorique inconnu par l'empirique, S′ , on obtient alors une loi de Student (à n−1 degrés de liberté) :
On peut alors facilement encadrer notre statistique de la manière suivante :
Il faut noter ici qu'on a, pour une loi de Student :
cette loi étant symétrique.
On déduit de cet encadrement le suivant (par simples équivalences) :
d'où l'intervalle de confiance donné précédemment.
Le coin R : consommation d'essence
Si on souhaite encadrer la consommation d’essence moyenne (théorique) μ avec une probabilité de 95%, on obtient alors comme intervalle de confiance ( tn−1,1−α2=t127,0.975≃1.97 et s′≃2.16 )
Remarquons ici que l’hypothèse gaussienne n’était pas obligatoire ici, en effet l’échantillon est de taille suffisamment importante (supérieure à 30).
Si on lance “manuellement” les calculs au niveau de test 5% :
alpha <- 0.05
icinf <- xbar-qt(p=1-alpha/2,df=n_essence-1)*sprime/sqrt(n_essence)
round(icinf,digits=2)
## [1] 31.07
icsup <- xbar+qt(p=1-alpha/2,df=n_essence-1)*sprime/sqrt(n_essence)
round(icsup,digits=2)
## [1] 31.83
On obtient alors :
En pratique, le data analyst peut utiliser la commande t.test
pour obtenir cet intervalle de confiance :
alpha <- 0.05
t.test(essence$conso,conf.level=1-alpha)
## ## One Sample t-test ## ## data: essence$conso ## t = 164.74, df = 127, p-value < 2.2e-16 ## alternative hypothesis: true mean is not equal to 0 ## 95 percent confidence interval: ## 31.07169 31.82722 ## sample estimates: ## mean of x ## 31.44945