En statistique descriptive, on souhaite, comme son nom l’indique, décrire un échantillon (contenant une ou plusieurs variables). Mais il est impossible d’inférer/d’extrapoler ce qui est constaté sur un échantillon à la population statistique tout entière.
Si l'on revient à l'exemple du médicament, on ne peut que constater que le taux de guérison observé sur la population vaut 77,8%. Il est pourtant impossible d’affirmer qu’il s’agisse du taux de guérison théorique, il aurait été ainsi possible d’observer un taux de 74% ou 79% sur d’autres échantillons de taille similaire.
De même, dans l'exemple de la consommation d'essence du car, on ne peut que constater que la consommation au 100 moyenne vaut 31.45% sur notre échantillon, il est très probable qu’on observerait d’autres valeurs sur des échantillons différents.
A ce stade on peut distinguer deux sources d’aléas :
La variabilité intrinsèque du phénomène :
Dans le premier exemple, tous les patients présentent des spécificités qui pourront influer sur sa guérison (un patrimoine génétique différent par exemple).
Dans le second exemple, les mesures sont effectuées sur des cars qui peuvent présenter de légers écarts de fabrication, et sur des trajets qui présentent forcément des écarts (notamment en fonction du conducteur).
La variabilité due à l’échantillonnage : on obtiendrait sans nul doute des résultats différents (pas radicalement opposés néanmoins) sur d’autres échantillons.
On suppose donc ici que chaque observation xi est la réalisation d’une variable aléatoire Xi , c’est-à-dire le fruit d’un tirage aléatoire.