@patrickdidier91 : la relation de passage, c'est la normalisation des données : 1/ centrage de la moyenne sur 0 (translation), 2/ division par l'écart type pour obtenir un écart type de 1. C'est pour chaque colonne. Cela se fait par exemple avec le StandardScaler de Scikit-Learn. C'est important pour certains algorithmes qui biaisent leurs prédictions en fonction des ordres de grandeur des variables. Attention, 1/ ce n'est pas le cas pour tous les algorithmes, 2/ l'opération introduit du bruit. Il faut donc lire la documentation de chaque algorithme et sous-peser empiriquement l'avec et sans normalisation. Dernier conseil : coupler la normalisation et ton algo ml dans le cadre d'un pipeline, cela sécurisera ton affaire.
un cours vraiment intéressant, bien structuré et compréhensif!! Merci bien pour une opportunité donnée!!!
Si vous pouvez m'aider avec les fonctionnalités de Python afin d'exécuter les commandes dans le module. Je me suis familiarisé avec le logiciel R pour travailler . Merci bien pour la compréhension!!
Dans le premier chapitre de la troisième partie, nommé "Recherchez une bonne partition", je soupçonne une coquille dans la formule de l'inertie intraclasse. En effet, si c'est bien la moyenne des inerties propres à chaque cluster, il faudrait ajouter un facteur 1/k (i.e. diviser la somme par le nombre total de clusters).
la base de donnée mystère est censé ressembler à un chat en 3D, donc il devrait y avoir 3 variables dans la base de donné non? Pour que les points soient tridimensionnel. Or ce n'est pas le cas, donc il y a peut être quelquechose que je ne comprends pas.
la base de donnée mystère est censé ressembler à un chat en 3D, donc il devrait y avoir 3 variables dans la base de donné non? Pour que les points soient tridimensionnel. Or ce n'est pas le cas, donc il y a peut être quelquechose que je ne comprends pas.
La base de données mystery.csv est bien une table avec 3 variables.
Voici les 5 premiers enregistrement:
On te demande d'utiliser PCA pour récupérer les composantes. Tu verras que les composantes 1 et 2 représentent 95% de la variance totale.
En prenant les composantes 1 et 2, tu visualiseras un chat en 2 dimensions de côté (la meilleure visualisation en 2D) car en prenant les composantes 1 et 3 par exemple, tu auras le chat vu de derrière qui sera compliqué à voir.
Dans la suite du notebook, en bonus, tu vas visualiser les données en 3D avec px.scatter_3d
× Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
× Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
Dr Pepper
Anthony DAVID, PhD