• 6 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 27/11/2023

Réalisez une analyse bivariée

Vous venez de voir comment comprendre et analyser une série temporelle.

Cherchons à présent à comprendre comment analyser :

  • deux variables numériques ;

  • une variable numérique avec une variable catégorielle ;

  • deux variables catégorielles.

Pour chaque analyse, nous allons voir comment trouver la meilleure visualisation, et surtout comment nous pouvons réaliser un test statistique sur les données.

Un test statistique, mais pourquoi doit-on faire cela ?

Pour plusieurs raisons, premièrement, car nous ne pouvons nous limiter à une seule analyse graphique pour prendre une décision. Ensuite, il est toujours bien de pouvoir confirmer une hypothèse sur la base de notre test statistique.

Analysez deux variables numériques

Commençons par les tests numériques. Quand nous parlons de test numérique, nous parlons de test sur deux variables quantitatives.

Pour ce test, nous allons nous intéresser au lien de dépendance entre les deux variables quantitatives :

  • le nombre de pièces dans un appartement ;

  • le prix des appartements au mètre carré.

Transformons tout d’abord nos données pour créer un tableau exploitable. Pour ce faire, nous allons refaire un TCD avec en ligne la variable “Nombre de pièces principales” et en valeur la "Moyenne de la surface Carrez au mètre carré”.

Dans cette analyse, nous allons supprimer les valeurs extrêmes qui n’ont pas vraiment de sens, avec le nombre de pièces à 0 ainsi que le nombre de pièces égal à 10, car cela correspond à une surface Carrez de 15 m² (ce qui fait de petites pièces).

Impression d'écran TCD affichant la moyenne de la surface Carrez par nombre de pièces. Cela varie de 1 pièce à 9 pièces, pour une prix moyen de surface carrez des 23.5 à 359.2 .
TCD affichant la moyenne de la surface Carrez par nombre de pièces

Maintenant que nous avons nos données, nous allons créer un nuage de points pour les visualiser plus facilement.

Graphique de nuage de points montrant la moyenne de la surface Carrez par nombre de pièces. Ils suivent plus ou moins une ligne régulière en diagonal.
Nuage de points montrant la moyenne de la surface Carrez par nombre de pièces

Comme nous pouvons le voir sur ce graphique, tous les points ont l'air d’être assez logiques, en suivant une courbe que nous pourrions tracer entre tous les points ; c’est la courbe en pointillé que j’ai ajoutée. C’est une courbe de tendance linéaire que nous pouvons directement ajouter à notre graphique. Au lieu d'insérer une courbe de moyenne mobile comme précédemment, nous ajoutons plutôt une courbe linéaire.

Visuellement, nous pouvons supposer qu’il y a une corrélation entre les deux variables. En effet, la surface moyenne augmente bien proportionnellement au nombre de pièces. Mais à quel point cette corrélation est-elle forte ? C’est exactement ce que nous souhaitons savoir.

Pour connaître la valeur de la corrélation, nous allons utiliser le test statistique de Pearson. Ce test va nous donner la force de la corrélation entre les deux variables, sous la forme du coefficient de corrélation de Pearson. Le résultat de ce test peut aller de -1 jusqu’à 1 en passant bien sûr par le 0 :

  • plus le chiffre est proche de 0 et moins il y a une corrélation ;

  • plus le chiffre s’approche de 1 ou de -1 et plus la corrélation est forte.

Je vous laisse voir le screencast pour la réalisation du test et l’interprétation du résultat :

Le test de Pearson permet donc de confirmer ce que nous avions supposé visuellement. Nous avons fait ici ce test dans Excel, mais nous pouvons également le faire en VBA avec le code suivant, avec toujours "WorksheetFunction.Pearson" :

Sub test_pearson()

Dim test_pearson As Single

test_pearson = WorksheetFunction.Pearson(Range("A4:A12"), Range("B4:B12"))
MsgBox ("le coefficient de Pearson est de : " & test_pearson)

End Sub

Analysez une variable catégorielle et une variable numérique

Vous comprenez maintenant l’importance d’un test statistique, il va vous permettre de confirmer une corrélation ou une hypothèse. En fonction des variables, nous allons avoir des tests statistiques différents. Lançons-nous donc dans la réalisation d’un test statistique entre une variable numérique (quantitative) et une variable catégorielle (qualitative).

Pour ce faire, analysons la différence entre deux moyennes. Dans notre cas, nous allons faire l’analyse de la moyenne du prix des appartements et de celle des maisons. Ce test s’appelle le test t de Student. Il permet de mesurer s'il y a une égalité entre les moyennes.

Pour commencer à faire ce test, nous avons besoin de modeler nos données afin d’avoir deux colonnes :

  • une colonne avec le prix des appartements ;

  • une colonne avec le prix des maisons.

Je vous laisse choisir la technique que vous préférez : utiliser des filtres ou encore faire deux TCD différents. Pour ma part, j’ai fait des filtres et j’ai collé les données sur une nouvelle feuille :

Impression d'écran des données triées en appliquant des filtres, pour voir les appartements dans une colonne et des maisons dans une autre.
Données des maisons et appartements dans deux colonnes différentes

Mais pourquoi faut-il faire cela en fait ?

Étant donné que nous souhaitons analyser les moyennes des deux jeux de données (appartement et maison), nous devons les séparer pour en faire deux variables qui ne sont pas dans le même groupe.

Avant de continuer, nous avons besoin de faire un point sur un nouvel indicateur que nous allons suivre : la variance.

Le test t de Student a deux versions possibles :

  • une version pour les variances égales ;

  • une autre version pour les variances différentes.

Dans notre cas, nous ne savons pas si les variances sont égales ou non pour le moment. C'est pourquoi nous allons réaliser un test préliminaire pour comprendre nos jeux de données, il s’appelle le test f de Fisher. Ce test a pour but de nous dire si les variances entre les deux jeux de données sont égales ou non.

Pour réaliser ce test, ainsi que le test de Student associé, je vous propose de me suivre dans le screencast.

Vous savez maintenant comment faire un test statistique pour savoir si les deux moyennes (et variances) sont égales ou non.

Schema logique partant du besoin : je veux déterminer si la différence entre les moyennes de deux groupes est statistiquement significative.
L’utilisation des tests de Student et de Fisher

Analysez deux variables catégorielles

Nous avons vu ensemble comment nous pouvons analyser deux variables quantitatives, puis une variable quantitative et une variable qualitative. Il nous reste maintenant un dernier test pour deux variables quantitatives, c’est le test du khi2.

Pour réaliser ce test, nous allons analyser la variable “Nature de la mutation” et la variable “Type de bien”. Nous avons déjà utilisé la variable “type de bien” (qui peut avoir comme valeur “maison” ou “appartement”). Concernant la variable “nature de la mutation”, elle peut avoir comme valeur “Échange”, “Vente” et “Adjudication(vente aux enchères).

Nous voulons savoir s'il y a une relation entre les deux variables. Nous allons faire un test du Khi2. Pour commencer, nous devons faire ce qui s’appelle un tableau de contingence avec les valeurs. Pour ce faire, vous devez faire un TCD avec le type de bien en ligne et la nature de la mutation en colonne. Comme valeur, nous allons compter le nombre de clés.

Impression d'écran TCD avec le nombre du type de bien en fonction de la nature mutation. En tête de colonne nous avons : Nombre  de Clés Etiquettes de ligne, puis Etiquettes de colonne Adjudication, puis échange, vente et total général
TCD avec le nombre du type de bien en fonction de la nature de la mutation

Je vous laisse me suivre dans le screencast pour voir la procédure et le résultat :

Nous en avons enfin fini avec les tests statistiques de chaque type de variable.

Ah cool, ce n’était pas si compliqué en fait et il n’y a que trois tests !

Hum… Je vous arrête tout de suite sur ce dernier point, il n’y a pas que trois tests, bien au contraire. Il y a beaucoup d’autres tests statistiques ! C’est ce que nous allons brièvement voir 😉.

Allez plus loin grâce aux tests statistiques

Dans ce paragraphe, oubliez la vision d’Excel pour les tests statistiques. En effet, Excel n’est pas l’outil parfait pour faire des tests, même si certains tests sont désormais natifs dans l’outil. Le plus souvent, pour faire des tests statistiques, on a tendance à utiliser des logiciels dédiés à la statistique comme R ou encore Python. Si vous ne souhaitez pas utiliser un langage de programmation, vous pouvez utiliser une extension (payante) d’Excel qui s’appelle XLSTAT. Elle permet de réaliser une plus grande variété de tests avec une interface plus travaillée.

Mais pourquoi dois-je faire d’autres tests ?

Car, en réalité, il existe de nombreuses autres solutions à tous les tests. Si nous reprenons notre premier exemple, nous avons testé la corrélation de Pearson entre deux variables quantitatives. Mais ce test de corrélation peut se faire seulement avec des données qui suivent une loi normale.

Dans notre exemple, Pearson, c’est le test paramétrique, alors que Spearman est le test non paramétrique.

 Pourquoi ne pas en avoir parlé avant ?

Simplement car Excel ne permet pas de faire le test de Spearman, il est seulement possible d’utiliser le test de Pearson.

Voici la liste des tests statistiques qui sont intéressants à connaître si vous avez envie de vous former :

Type de test

Version paramétrique

Version non paramétrique

Test de corrélation entre deux variables quantitatives

Pearson

Spearman

Test d’association entre deux variables qualitatives

Khi2 avec tableau de contingence

 

Comparer deux variances

Test f de Fisher

 

Comparer deux moyennes

Test t de Student

Mann-Whitney

Comparer plusieurs moyennes

ANOVA

Kruskal-Wallis

Test de normalité

Shapiro-Wilk

 

Toutes les versions paramétriques des tests ci-dessus sont disponibles dans Excel (avec quelques variations comme le test de normalité).

À vous de jouer !

Après plusieurs modifications dans votre fichier, vous êtes presque au bout de votre analyse. Votre chef vous demande de réaliser trois tests statistiques sur vos données afin de confirmer son intuition.

Vous allez devoir réaliser :

  • un test de corrélation entre les variables “prix” et “quantités vendues” ;

  • un test d’association entre les variables “marques” et “Gluten Free”,

  • une comparaison des prix entre les deux marques.

En résumé

  • Les tests statistiques permettent de confirmer ce que nous avons pu remarquer visuellement sur un graphique.

  • Un graphique montrant une corrélation n’est pas suffisant pour confirmer une corrélation, le test statistique est obligatoire.

  • On utilise le test de Pearson entre deux variables quantitatives.

  • Pour comparer une variable qualitative et une variable quantitative, on utilise le test de Student.

  • Le Khi2 permet de tester l’association entre deux variables qualitatives.

  • Excel permet de réaliser la plupart des tests statistiques paramétriques.

Vous avez vu dans ce chapitre comment réaliser un test statistique et comment il peut vous être utile pour mieux comprendre vos données.

Nous allons voir dans le prochain chapitre comment réaliser une modélisation des données avec la régression linéaire.

Exemple de certificat de réussite
Exemple de certificat de réussite