Quels modèles pour nos exemples introductifs ?
Dans le premier exemple, on est dans un modèle dit de Bernoulli : les variables aléatoires suivent la même loi B(p) , et ce de manière indépendante.
Dans le second exemple, on va se placer sous hypothèse gaussienne : les variables aléatoires suivent toutes la même loi N(μ,σ2) , et ce de manière indépendante. Cette hypothèse gaussienne n’est pas anodine, mais on peut l’émettre a priori ici au vu de la forme de l’histogramme ci-dessous.
Le coin R : consommation d’essence
On importe le fichier contenant les consommations d’essence :
essence <- read.table("essence.txt",header=TRUE)
On calcule la moyenne, la variance et l’écart-type de l’échantillon :
xbar <- mean(essence$conso)
round(xbar,digits=2)
## [1] 31.45
sprime <- sd(essence$conso)
round(sprime,digits=2)
## [1] 2.16
sprime2 <- var(essence$conso)
round(sprime2,digits=2)
## [1] 4.66
Si on souhaite obtenir la variance “biaisée”, on peut l’obtenir ainsi :
n_essence <- dim(essence)[1]
v <- sprime2*(n_essence-1)/n_essence
round(v,digits=2)
## [1] 4.63
On peut visualiser l’histogramme :
hist(essence$conso,prob=TRUE,xlab="",ylab="",ylim=c(0, 0.25),main="Histogramme")
On peut visualiser sur cet histogramme la moyenne empirique :
hist(essence$conso,prob=TRUE,xlab="",ylab="",ylim=c(0, 0.25),main="Histogramme")
abline(v=xbar,col="blue",lwd=3)
legend("topright",legend=("Moyenne empirique"),col="blue",lty=1,lwd=3)
On peut visualiser sur cet histogramme la moyenne empirique et le seuil “métier” (le seuil métier est la valeur sur laquelle souhaite communiquer le constructeur : 31 litres au cent) :
mu0 <- 31
hist(essence$conso,prob=TRUE,xlab="",ylab="",ylim=c(0, 0.25),main="Histogramme")
abline(v=xbar,col="blue",lwd=3)
abline(v=mu0,col="red",lwd=3)
legend("topright",legend=c("Moyenne empirique","Seuil testé"),col=c("blue","red"),lty=1,lwd=3)
On peut enfin superposer sur cet histogramme la densité gaussienne :
hist(essence$conso,prob=TRUE,xlab="",ylab="",ylim=c(0, 0.25),main="Histogramme et densité normale")
curve(dnorm(x,mean=xbar,sd=sprime),col="red",lwd=2,add=TRUE,yaxt="n")
On constate que l’écart entre l’histogramme, primo-estimation de la densité de probabilité, et la densité gaussienne sont plutôt proches (car la courbe rouge et l'histogramme sont quasiment superposables).