Définissez le type de lien entre deux variables quantitatives
Camille, votre cheffe, vous croise dans les couloirs et vous demande votre avancement ; vous lui annoncez fièrement que vous avez fini de repérer les valeurs extrêmes.
Camille vous raconte alors le cas qu’elle a rencontré sur des données clients :
Le mois dernier, j’analysais le nombre de réservations de logements et de restaurants via notre site. Je n’avais pas détecté d’erreur dans les données mais lorsque j’ai représenté le nombre de réservations de restaurants en fonction du nombre de réservations de logements, je me suis rendue compte qu’il y avait une série de points alignés horizontalement. En faisant des recherches, j'ai remarqué que mon prédécesseur avait remplacé les données manquantes du nombre de réservations de restaurants par la moyenne sans le notifier, ce qui était un vrai problème. Je te conseille donc de pousser plus loin ton analyse pour regarder le lien entre les variables.
Par messagerie, elle vous envoie le graphique qui lui a permis de détecter l’erreur.
Maintenant que vous avez pris conscience de l’importance des liens entre les variables, revenons aux principes de base.
Les données sont récoltées sur les mêmes individus statistiques. Les mesures prises peuvent donc être corrélées les unes avec les autres.
En gros, une corrélation, ce sont deux variables qui ont un lien entre elles.
Si ce lien n’est pas dû au hasard, il peut être :
direct, c’est-à-dire que l’une des variables influence l’autre. Dans ce cas, il y a une relation de causalité ; par exemple, la température minimale est corrélée à la température moyenne ;
indirect, c’est-à-dire que les deux variables sont influencées par un ou plusieurs autres paramètres. Dans ce cas, il n’y a pas de relation de causalité ; par exemple, même si les pays où la natalité est la plus forte sont aussi ceux où il y a le plus de cigognes, cela n’implique pas que les cigognes apportent les bébés.
Si le lien est dû au hasard, il n’y a bien sûr pas de causalité non plus.
Il existe plusieurs types de liens entre les variables quantitatives. Ces liens sont définis par l’équation qui lie l’une des variables à l’autre. Lorsque que deux variables sont liées par une équation linéaire du type Y ~ aX + b, on parle de relation linéaire. L’équation peut aussi être quadratique, Y ~ aX² + b, logarithmique, Y ~ a log(X) + b…
Houlà, ça a l’air compliqué ! Qu’est-ce qu’il faut regarder dans cette équation ?
La valeur de b, l’ordonnée à l’origine, indique là où la droite coupe l’axe des ordonnées (l’axe vertical). Cela ne change pas le lien entre les deux variables. Ce qui nous intéresse, c’est la valeur de a. En effet, la relation est :
positive quand a est significativement supérieure à 0. Lorsqu’une variable augmente, l’autre aussi, comme par exemple le nombre de réservations de restaurants et de logements ;
négative quand a est significativement inférieure à 0. Lorsqu’une variable augmente, l’autre diminue. Par exemple, le nombre de réservations de restaurants diminue lorsque la densité d’habitants par km² augmente ;
nulle quand a n’est pas significativement différente de 0. Dans ce cas, il n'y a pas de corrélation linéaire entre les variables. Par exemple, le nombre de réservations de logements n’est pas lié au nombre de chemins de randonnée à proximité.
Afin d’identifier le lien entre les variables quantitatives, il est nécessaire de commencer par le visualiser. C’est ce que nous allons faire juste après !
Représentez ce lien
Grâce au graphique fourni par Camille, vous vous êtes rendu compte qu’il y avait un lien positif entre le nombre de réservations de restaurants et celui de logements. En effet, le nuage de points est le meilleur graphique pour visualiser le lien entre deux variables quantitatives.
La représentation permet d’anticiper la forme de l’équation qui va lier les deux variables. Pour vous apprendre à bien lire les graphiques, votre cheffe Camille vous envoie ceux-ci, ci-dessous. Détaillons-les ensemble :
Visuellement il n’y a pas de lien entre les deux variables : le nombre de réservations de logements n’est pas lié au nombre de chemins de randonnée à proximité, donc on s’arrête là. Cela signifie que le nombre de chemins de randonnée accessibles à côté du logement ne peut pas être estimé à partir de la fréquentation du logement.
Comme détaillé précédemment, il y a une relation linéaire positive entre le nombre de réservations de restaurants et celui de logements. Il reste à définir les paramètres a et b de l’équation Y ~ aX + b. Cette équation permettra de recalculer le nombre de réservations de restaurants manquant à partir du nombre de réservations de logements, car le nombre de réservations de restaurants peut être estimé à partir de celui des logements.
Il y a une relation linéaire négative entre les deux variables : le nombre de réservations de restaurants par le site et la densité humaine. Cela signifie que plus il y a d'habitants autour des restaurants, moins il y a de réservations via le site. Il reste à définir les paramètres a et b de l’équation Y ~ aX + b qui est derrière, avec a < 0.
Vérifiez l’existence du lien
Fier d’avoir compris le lien qu’il peut y avoir entre deux variables quantitatives, vous vous lancez dans l’analyse du lien entre la température minimale et la température moyenne de votre jeu de données.
Pour cela, vous commencez par représenter les données grâce au package{ggplot2}
:
donnees_temperature |>
ggplot() +
aes(x = tmoy, y = tmin) +
geom_point(alpha = 0.2, size = 0.2) +
theme_classic()
Il vous reste à chercher l’équation sous-jacente entre la température minimale et la température moyenne, qui montre graphiquement une relation linéaire positive.
Voici les codes vus dans la vidéo :
# calcul de l'équation linéaire
regression_lineaire <- lm(tmin ~ tmoy, data = donnees_temperature)
## coefficient
regression_lineaire
# validation du modèle (montré les résidus)
summary(regression_lineaire)
# visualisation graphique
donnees_temperature |>
ggplot() +
aes(x = tmoy, y = tmin) +
geom_point(alpha = 0.2, size = 0.2) +
geom_abline(aes(slope = 0.8761321, intercept = -3.0420831)) +
theme_classic()
Est-ce vraiment nécessaire de représenter les données avant de calculer l’équation ?
Oui, absolument.
Voici l’exemple de quatre paires de variables issues du jeu de données {anscombe}
, où l'équation et le coefficient de corrélation sont similaires alors que les nuages de points sont très différents.
Première paire de variables
Ici les données suivent la droite de régression, donc les valeurs de la variable y1 augmentent lorsque les valeurs de x1 augmentent, et l’équation s’écrit ainsi : y1 = 3 + 0,5 * x1.
Seconde paire de variables
Les points ne suivent pas ici une relation linéaire. En effet, il y a visuellement une forme de cloche derrière, donc l’équation linéaire associée n’est pas cohérente ! Il ne faut surtout pas utiliser l’équation trouvée.
Troisième paire de variables
Ici il est visible que les données suivent une droite, mais l’équation déterminée n’est pas la bonne, à cause d’un seul point. Il faut donc modifier ou retirer le point concerné avant de chercher à calculer l’équation.
Quatrième paire de variables
Ici, tous les points sauf un ont la même valeur en x4= 8, sauf un point qui a x4= 19. La détermination de l’équation linéaire n’a ici aucun sens et n’est surtout pas à faire.
Si j’ai bien compris, il ne faut réaliser la régression linéaire que dans le cas où le lien linéaire est évident ?
Oui effectivement, la représentation graphique est indispensable avant la recherche d’équation.
À vous de jouer
Contexte
Camille vous envoie un message :
Bonjour,
Suite à une discussion avec Antoine, j’aurais besoin de savoir rapidement si dans notre jeu de données, les températures minimale et maximale sont liées l’une à l’autre ainsi qu’à la densité de population.Quand peux-tu revenir vers moi ?
Vous lui répondez :
Je m’y mets tout de suite, je te le fais parvenir au plus tôt.
Consignes
Vous devez donc :
Visualiser ces différents liens.
Utiliser les statistiques adaptées si nécessaire.
En résumé
Le nuage de points est la représentation graphique qui permet de visualiser le lien entre deux variables quantitatives.
Lorsque deux variables quantitatives sont liées, il est possible d’écrire une équation qui explique l’une par rapport à l’autre.
L’équation linéaire de la forme Y ~ aX² + b est la plus courante, mais n’a de sens que si les données s’y prêtent.
Vous avez exploré le lien entre deux variables quantitatives. Vous allez à présent faire la même chose pour deux variables qualitatives, dans le prochain chapitre.