@patrickdidier91 : la relation de passage, c'est la normalisation des données : 1/ centrage de la moyenne sur 0 (translation), 2/ division par l'écart type pour obtenir un écart type de 1. C'est pour chaque colonne. Cela se fait par exemple avec le StandardScaler de Scikit-Learn. C'est important pour certains algorithmes qui biaisent leurs prédictions en fonction des ordres de grandeur des variables. Attention, 1/ ce n'est pas le cas pour tous les algorithmes, 2/ l'opération introduit du bruit. Il faut donc lire la documentation de chaque algorithme et sous-peser empiriquement l'avec et sans normalisation. Dernier conseil : coupler la normalisation et ton algo ml dans le cadre d'un pipeline, cela sécurisera ton affaire.
un cours vraiment intéressant, bien structuré et compréhensif!! Merci bien pour une opportunité donnée!!!
Si vous pouvez m'aider avec les fonctionnalités de Python afin d'exécuter les commandes dans le module. Je me suis familiarisé avec le logiciel R pour travailler . Merci bien pour la compréhension!!
Dans le premier chapitre de la troisième partie, nommé "Recherchez une bonne partition", je soupçonne une coquille dans la formule de l'inertie intraclasse. En effet, si c'est bien la moyenne des inerties propres à chaque cluster, il faudrait ajouter un facteur 1/k (i.e. diviser la somme par le nombre total de clusters).
la base de donnée mystère est censé ressembler à un chat en 3D, donc il devrait y avoir 3 variables dans la base de donné non? Pour que les points soient tridimensionnel. Or ce n'est pas le cas, donc il y a peut être quelquechose que je ne comprends pas.
la base de donnée mystère est censé ressembler à un chat en 3D, donc il devrait y avoir 3 variables dans la base de donné non? Pour que les points soient tridimensionnel. Or ce n'est pas le cas, donc il y a peut être quelquechose que je ne comprends pas.
La base de données mystery.csv est bien une table avec 3 variables.
Voici les 5 premiers enregistrement:
On te demande d'utiliser PCA pour récupérer les composantes. Tu verras que les composantes 1 et 2 représentent 95% de la variance totale.
En prenant les composantes 1 et 2, tu visualiseras un chat en 2 dimensions de côté (la meilleure visualisation en 2D) car en prenant les composantes 1 et 3 par exemple, tu auras le chat vu de derrière qui sera compliqué à voir.
Dans la suite du notebook, en bonus, tu vas visualiser les données en 3D avec px.scatter_3d
Bonsoir à tous, je ne comprends pas depuis la maintenance du site plusieurs cours en rapport avec la data ont été supprimé et leurs liens ramènent vers des cours qui doivent normalement être des pré-requis pour ces cours supprimés je ne comprends pas vraiment ce qui se passe, par exemple le cours "Initiez-vous à la statistique inférentielle" a disparu
Anthony DAVID, PhD