Identifiez les anomalies
Bienvenue dans cette troisième partie. Nous approchons du but !
Dernière étape pour notre dashboard : faire calculer le score emprunteur pour le Crédit Breton. Pour cela, nous allons nous intéresser à la table des situations familiales : elle nous informe sur la capacité d’endettement du demandeur de prêt.
Cependant, comme annoncé par Jeanne, cette table contient des anomalies du fait de mauvaises saisies manuelles. En utilisant l’onglet des données sur votre dashboard, on peut s’apercevoir par exemple que Tigrane Lefebvre et Alexis Chevalier ont respectivement 30 et 20 enfants à charge, ce qui est fortement improbable. 🤣
On peut s’apercevoir également que les catégories des situations familiales ont des redondances, car nous avons deux valeurs possibles avec “PACS” et “Pacsé” pour une même situation.
Dans la vidéo suivante, nous allons voir comment identifier plus rapidement ces anomalies grâce à un outil de Power BI appelé Power Query Editor.
Corrigez les anomalies avant l’importation
Une fois ces anomalies détectées dans la table des situations familiales, il nous faut les corriger.
Découvrons ensemble ces fonctionnalités :
Transformations de tableau
Regrouper par | Réduit la table en groupant les dimensions selon une règle (compter les lignes, ne prendre que le maximum…) |
Utiliser la première ligne pour les en-têtes | Transforme la première ligne en en-tête de colonnes |
Transposer | Transpose les lignes en colonnes et vice versa |
Inverser les lignes | Trie vos lignes dans le sens opposé |
Compter les lignes | Transforme votre table en un simple compte du nombre de lignes |
Transformations de colonne
Type de données / Détecter le type | Changer le type de vos données (texte, date, nombre…) |
Renommer | Renommer le titre de vos colonnes |
Remplacer les valeurs | Remplacer une valeur par une autre dans certaines colonnes |
Remplir | Remplir automatiquement les cellules vides par la valeur de cellule non vide qui les précède |
Pivoter/Dépivoter les colonnes | Dépivoter votre table (utile pour les tableaux croisés dynamiques), cela permet de transformer les colonnes en paires attribut-valeur, où les colonnes deviennent des lignes (https://docs.microsoft.com/fr-fr/power-query/unpivot-column) |
Déplacer les colonnes | Déplacer vos colonnes vers la gauche ou la droite |
Convertir en liste | Convertir une colonne de votre table en liste |
Transformation de texte
Fractionner la colonne | Fractionner une colonne en plusieurs selon un délimiteur |
Changer le format | Ajouter un préfixe/suffixe aux données ou appliquer des transformations de texte (majuscule/minuscule…) |
Fusionner les colonnes | Concaténer plusieurs colonnes en une avec un séparateur |
Extraire des caractères | Extrait une partie du texte de chaque ligne de la colonne (nombre de caractères défini…) |
Analyser | Extrait le texte de ses balises au format XML ou JSON |
Fonctions de nombre
Statistiques | Appliquer une formule statistique à vos colonnes (calcul de la moyenne…) |
Standard | Appliquer une formule mathématique aux lignes de votre colonne (ajouter/soustraire un nombre…) |
Scientifique | Appliquer une transformation mathématique aux lignes de votre colonne comme la valeur absolue, ou une puissance... |
Trigonométrie | Idem pour la trigonométrie (sinus, cosinus…) |
Arrondi | Arrondir vos données au supérieur ou à l’inférieur |
Informations | Transformer les lignes de votre colonne en booléen en réponse à une question du type "La valeur est-elle paire ou impaire ?" |
Fonctions date et heure
Date | Appliquer des transformations de date (afficher l’année/le trimestre correspondant…) |
Heure | Appliquer des opérations sur les heures de vos dates |
Durée | Idem sur les durées |
Dans la vidéo suivante, nous allons voir comment utiliser les fonctions de remplacement de valeurs pour corriger nos données.
Gagnez du temps grâce au langage M
Comme nous venons de le voir dans la vidéo, lorsque nous avons appliqué les opérations de correction des anomalies, une nouvelle étape est apparue dans le Power Query Editor à droite : "Valeur remplacée".
Lorsque vous sélectionnez cette étape, vous pouvez apercevoir un langage de code dans la barre de formule :
=Table.ReplaceValue(#"Type modifié","PACS","Pacsé",Replacer.ReplaceText,{"Situation familliale"})
Table.ReplaceValue
est notre fonction de remplacement, elle reçoit comme paramètres :
une table :
#”Type modifié”
, c'est le nom de la dernière étape appliquée sur notre table des situations de famille. Cette étape a été créée automatiquement par Power Query, pour attribuer les bons types de données à chacune de nos colonnes ;l’ancienne valeur
“PACS”
et la valeur de remplacement“Pacsé”
;l’opération de remplacement à réaliser :
Replacer.ReplaceText
;la colonne sur laquelle la fonction doit s’appliquer :
“Situation familiale”
.
Vous pouvez utiliser directement la barre de formule du Power Query Editor, et gagner du temps dans la réalisation de vos requêtes.
Connaître quelques formules peut également vous aider à comprendre vos erreurs :
Formules de Date | Formules de Texte | Formules de Nombre | Formules de Table |
|
|
|
|
Dans le tableau ci-dessus, j'ai listé certaines des fonctions les plus courantes. Elles ont des noms relativement explicites, mais vous trouverez plus d'informations et la liste exhaustive des fonctions disponibles que je vous invite à découvrir via la documentation de Microsoft.
Pour vérifier que vous suivez, j'en profite pour vous poser une petite question :
Quel résultat donne la formule Text.Clean("Power#(lf)BI"
?
Power#BI
PowerlfBI
PowerBI
La bonne réponse est bien sûr la réponse 3.
En résumé
Dans le Power Query Editor, vous pouvez identifier les anomalies dans vos données grâce au profilage.
Pour corriger les anomalies, le menu “Transformer” dispose de nombreuses fonctions, comme
ReplaceValue
. Ainsi, les opérations de transformation s’appliqueront automatiquement sur vos données.Le langage M est le langage de formule utilisé par Power BI pour réaliser les transformations sur les requêtes.
Connaître certaines formules du langage M peut vous aider à déboguer vos opérations de préparation de données en cas d’erreur, et à gagner du temps.
Dans le chapitre suivant, nous allons voir comment relier des tables pour réaliser des analyses croisées !