L’entreprise VertiGo ne nous a pas uniquement fourni des données quantitatives à tester. Nous avons aussi des données qualitatives comme le type de voyage, la destination, la saison ou encore le mode de paiement.
Cette fois-ci June a besoin de savoir si la saison influence la destination choisie.
Ok, mais d’abord que cherche-t-on exactement à comprendre avec ce genre de tests ?
Identifiez les besoins
Comprenez les relations
Lorsque vous testez l'indépendance entre deux variables, vous cherchez à déterminer si une relation existe entre elles. Comprendre ces relations peut révéler des schémas ou des tendances cachées dans vos données. Par exemple, savoir si le genre du voyageur influence les préférences de consommation permet d'adapter des stratégies marketing plus efficaces.
Vérifiez si les résultats ne sont pas dus au hasard
Les tests d'indépendance de variables, combinés au calcul de la valeur p, vous permettent de déterminer si deux variables sont indépendantes ou si elles présentent une association statistiquement significative. En vérifiant l'indépendance des variables, vous pouvez éviter des conclusions erronées basées sur des relations apparentes mais non réelles.
Prenez des décisions éclairées
Comme pour les tests de corrélation, les résultats des tests d'indépendance fournissent des bases solides pour la prise de décisions. Dans le domaine de la santé, par exemple, déterminer si un traitement est associé à certains effets secondaires peut influencer les choix thérapeutiques et améliorer les protocoles de soins.
Les tests d'indépendance comme le test de Chi-2 (ou test du chi carré) et le test de Fisher sont spécifiquement conçus pour les données qualitatives car ils analysent les relations entre des catégories distinctes.
Choisissez le test Fisher
Le test exact de Fisher est utilisé pour déterminer s'il y a une association significative entre deux variables catégorielles (genre des clients et type de voyages).
L’hypothèse nulle est d’affirmer qu’il n’y a pas d’association entre les deux variables catégorielles. Alors que l’hypothèse alternative est de dire qu’il y a bien une association entre les deux variables catégorielles.
Les conditions d'application sont variées :
Les données doivent être qualitatives.
Les observations doivent être indépendantes. Chaque observation doit être unique et ne doit pas influencer les autres.
Il est utilisé principalement quand les données sont sous forme de tableaux de contingence 2x2 (il y a deux lignes et deux colonnes).
Les échantillons sont plutôt de petites tailles.
Pour mener à bien ce test, vous avez besoin de connaître l’odds ratio. Il permet de comparer le rapport de probabilité qu’un événement se produise en présence d’un facteur choisi avec celle que ce même événement se produise en l'absence de ce facteur.
Exemple: l'événement = choisir la catégorie aventure, le facteur = l’individu est une femme:
Si l'odds ratio est 1, le fait que l’individu soit une femme n’a aucun impact sur le fait de choisir la catégorie aventure.
Si l'odds ratio est supérieur à 1, être une femme augmente la probabilité de choisir la catégorie aventure.
Si l'odds ratio est inférieur à 1, être une femme diminue la probabilité de choisir la catégorie aventure.
Autre exemple que VertiGo
Une association écologiste souhaite examiner les effets de la pollution sur la présence d’oiseaux entre deux zones (une polluée et une non polluée).
Choisissez le test Chi-2
Le test de Chi-2 est utilisé pour déterminer si une distribution observée de données catégorielles diffère d'une distribution attendue. Il compare les fréquences observées dans différentes catégories à des fréquences attendues si les variables étaient indépendantes. Ce type de test pourrait être utilisé, par exemple, pour comparer la saison et le type de voyages. On reprend nos hypothèses :
H0 : La saison de voyage est indépendante du type de voyage préféré.
H1 : La saison de voyage dépend du type de voyage préféré.
Pour ce test, vous avez besoin de connaître trois concepts clés :
La statistique χ² mesure la somme des carrés des écarts entre les fréquences observées et les fréquences attendues, rapportée aux fréquences attendues.
Le Degré de liberté (df) est calculé en fonction du nombre de catégories des variables étudiées. Par exemple, pour un tableau de contingence de 𝑟 lignes et 𝑐 colonnes, les degrés de liberté sont .
La valeur p est utilisée pour décider si nous rejetons l'hypothèse nulle H0
Les conditions d'application sont variées :
Les données doivent être qualitatives.
Les observations doivent être indépendantes.
Les échantillons doivent être suffisamment grands (chaque catégorie doit avoir une fréquence théorique d'au moins 5).
Il est utilisé principalement quand les données sont sous forme de tableaux de contingence (2x3, 3x3, etc.).
Autre exemple que VertiGo
Une entreprise de marketing souhaite savoir si le type de publicité (télévision, en ligne, imprimée) influence les préférences des consommateurs pour trois produits électroniques différents (smartphone, tablette, ordinateur portable).
Visualisez les tableaux de contingence
Visualiser des tableaux de contingence en statistiques permet de mieux comprendre les relations entre les variables catégorielles et de faciliter l'interprétation des données. Nous pouvons le visualiser de plusieurs façons.
Tableau de contingence brut
Le tableau de contingence brut est très utile pour avoir une vue détaillée des données exactes. Voici un exemple de tableau 4x5 pour le test Chi-2. Celui-ci montrerait la relation entre la saison et le type de voyages sélectionnés par les clients de VertiGo.
| Aventure | Culturel | Détente |
Printemps | 31 | 52 | 37 |
Été | 82 | 132 | 64 |
Automne | 39 | 61 | 42 |
Hiver | 80 | 119 | 58 |
Histogramme
Ce graphique permet de voir comment les fréquences sont distribuées entre les différentes catégories. Il facilite la comparaison des fréquences entre différentes catégories, permettant de repérer rapidement les différences marquantes.
Voici l’histogramme lié à notre test Chi-2.
Heatmap
Le heatmap utilise une échelle de couleurs pour représenter les fréquences, ce qui permet de voir rapidement les points chauds (zones de haute fréquence) et les points froids (zones de basse fréquence). Nous ne l’avons pas vu dans la partie précédente mais c’est aussi une forme de visualisation très courante.
Voici le heat map lié à notre test Chi-2.
En combinant ces différentes visualisations, on obtient une compréhension plus complète des relations entre les variables. Cela permet de confirmer des hypothèses, de repérer des anomalies ou des tendances inattendues et d'améliorer la communication des résultats à travers des représentations visuelles claires et compréhensibles.
Vérifiez toujours la valeur p associée à vos tests
Comme pour les tests de normalité et de corrélation, la valeur p joue un rôle crucial ici. Si votre test d'indépendance indique une association significative avec une valeur p inférieure à 0,05, vous pouvez être confiant dans vos résultats et poursuivre dans cette direction ! En revanche, si la valeur p est supérieure à 0,05, l'association observée pourrait être due au hasard plutôt qu'à une relation réelle entre les variables.
Cartographiez votre test
Cet arbre de décision récapitule la marche à suivre quand vous serez confronté à des variables qualitatives.
À vous de jouer
Contexte
Votre mission est maintenant de sélectionner le bon test pour comparer des données qualitatives.
À partir de “Données clients VertiGo nettoyées”, vous devez analyser si la saison influence la destination choisie par les clients. Les données sont suffisantes pour constituer un grand échantillon et les catégories sont nombreuses.
Consignes
Déterminez quel test de relation entre Chi-2 ou Fisher est le plus adapté.
Justifiez votre choix en expliquant pourquoi ce test est le plus approprié compte tenu des conditions et des caractéristiques des données.
Livrable
Rédigez un rapport justifiant votre choix.
En résumé
Les tests d'indépendance, combinés au calcul de la valeur p, permettent de déterminer si les relations observées entre les variables sont statistiquement significatives ou dues au hasard.
Le test de Fisher est utilisé pour déterminer s'il y a une association significative entre deux variables catégorielles dans de petits échantillons, particulièrement avec des tableaux de contingence 2x2.
Le test de Chi-2 est utilisé pour comparer les fréquences observées et attendues dans des données catégorielles, nécessitant des échantillons suffisamment grands et des fréquences théoriques d'au moins 5 par catégorie.
Les tableaux de contingence permettent de visualiser les relations entre variables catégorielles et facilitent l'interprétation des données à travers des représentations claires et compréhensibles.
Vous connaissez les deux principaux tests pour identifier les potentielles corrélations entre les données quantitatives et les potentielles indépendances entre variables qualitatives. Voyons maintenant comment intégrer des approches pour des données mixtes.