Partage

[COURS] Nettoyez et décrivez votre jeu de données

Team OC 31 octobre 2017 à 11:58:03

Bonjour ! Voilà le fil de discussion dédié au cours Nettoyez et décrivez votre jeu de données.

N'hésitez pas à poser vos questions ici et à échanger les uns avec les autres ! Je ferai de mon mieux pour vous répondre régulièrement.

Si vous avez une question concernant le fonctionnement du cours (accès aux exercices, envoi des exercices, inscription au cours…), contactez directement OpenClassrooms à hello@openclassrooms.com

Bon courage et à bientôt !

Vous êtes demandeur·se d'emploi ?
Sans diplôme post-bac ?

Devenez Développeur·se web junior

Je postule
Formation
courte
Financée
à 100%
20 février 2018 à 11:37:41

Bonjour,

Une question sur la partie "téléchargez les données" :

Je suis dans le cas où ma date est au format 01/02/2020 avec le jour en premier, mes séparateurs sont des ";" et decimal ",". J'utilise donc la troisième ligne de commande proposée :

data = pd.read_csv("operations.csv", parse_dates=[1,2], sep= ';', decimal= ',', dayfirst=True)

Seulement lors de la création des variables "annee", "mois" à la toute fin du fichier, j'ai l'erreur suivante :

AttributeError: 'str' object has no attribute 'year'

Lorsque j'affiche ma colonne "date_operation" elle est toujours sous la forme 01/02/2020.

Quelqu'un aurait une idée d'où pourrait provenir cette erreur ?

Merci pour votre aide,

Anita.

20 février 2018 à 14:27:20

Bonjour Nicolas,

il y a quelque chose qui ne fonctionne pas dans le script 

https://openclassrooms.com/courses/nettoyez-et-decrivez-votre-jeu-de-donnees/telechargez-les-donnees#/id/r-4726749

  (Pdb) next
TypeError: unsupported operand type(s) for -: 'list' and 'str'
> /home/jovyan/Parcours_OC_DataAnalyst/Décrivez et nettoyez votre jeu de données/operations_enrichies_2.py(30)<module>()
-> balance = balance - last_val + LAST_BALANCE
(Pdb) type(balance)
<class 'list'>
(Pdb) type(last_val)
<class 'str'>
(Pdb) type(LAST_BALANCE)
<class 'int'>

Je veux bien tenter de débogguer mais peux-tu expliquer l'opération à effectuer stp ?

Merci d'avance,

Cdlt,

-
Edité par tdupouy 20 février 2018 à 14:28:37

Team OC 20 février 2018 à 17:49:03

AnitaDh a écrit:

Bonjour,

Une question sur la partie "téléchargez les données" :

Je suis dans le cas où ma date est au format 01/02/2020 avec le jour en premier, mes séparateurs sont des ";" et decimal ",". J'utilise donc la troisième ligne de commande proposée :

data = pd.read_csv("operations.csv", parse_dates=[1,2], sep= ';', decimal= ',', dayfirst=True)

Seulement lors de la création des variables "annee", "mois" à la toute fin du fichier, j'ai l'erreur suivante :

AttributeError: 'str' object has no attribute 'year'

Lorsque j'affiche ma colonne "date_operation" elle est toujours sous la forme 01/02/2020.

Quelqu'un aurait une idée d'où pourrait provenir cette erreur ?

Merci pour votre aide,

Anita.


Bonjour Anita, votre colonne de date se trouve t'elle en 2e ou 3e position dans votre csv? Si ce n'est pas le cas, il faudrait vérifer l'argument parse_dates=[1,2]
24 février 2018 à 16:27:21

Question concernant la validation des exercices:

Bonjour à tous, mon exercice est terminé et envoyé.

Je suis désormais dans la partie correction. Hors on ne me propose que 2 exercices à corriger sur les 3 obligatoires. Combien de temps faut-il attendre en moyenne pour arriver au 3 corrections nécessaires pour pouvoir passer à l'étape 2 (recevoir une note)?

Deuxième question : Que ce passe-t-il si personne ne corrige mon exercice? Nous n'aurons jamais de note?

Arnaud

28 février 2018 à 10:14:26

Bonjour,

Dans votre chapitre 'Appréhendez les mesures de forme', au niveau du paragraphe 'Kurtosis empirique', vous présentez les règles d'aplatissement de la distribution en comparaison avec le nombre 3.

Or dans les exemples graphique du cours, le kurtosis est semble plutôt comparé à 0 pour en déduire l'aplatissement.

Pourriez-vous clarifier ce point ?

Eric.

Team OC 28 février 2018 à 12:05:20

ArnaudPeseux1 a écrit:

Question concernant la validation des exercices:


Bonjour Arnaud. C'est normal, car le cours vient d'être publié. Dès qu'il y aura un nombre suffisant d'utilisateurs, les corrections seront disponibles plus rapidement.

Félicitations pour la réalisation de cette activité !

7 mars 2018 à 3:06:26

Bonsoir je n'arrive pas a telecharger les données pour faire le TP en même temps que vous. Merci
A la recherche de la connaissance
30 mars 2018 à 21:10:55

Bonsoir,

Par rapport à la version épurée d'Anaconda (https://conda.io/miniconda.html), en effet, cela ne suffit pas pour le cours: Jupyter n'est pas disponible (bien sûr on peut s'en passer) mais surtout la librairie Panda n'est pas non plus incluse.

Donc pas le choix de télécharger les 500Moctets de la distribution Anaconda :)

A+

Mickael

Team OC 31 mars 2018 à 11:44:40

Merci Mickael d'avoir été notre cobaye ;) On va donc supprimer ce petit paragraphe !
4 avril 2018 à 11:40:36

Bonjour,

Dans la partie "Représentez la distribution empirique d'une variable", sous-partie "du côté du code", l'argument 'normed' est déprécié apparemment (message d'erreur dans Jupyter). Il faut le remplacer par 'density' pour que cela fonctionne correctement.

Versions :

Matplotlib: 2.2.2

Python: 3.6.5

Nouveau code :

# Histogramme
data["montant"].hist(density=True)
plt.show()
# Histogramme plus beau
data[data.montant.abs() < 100]["montant"].hist(density=True,bins=20)
plt.show()


16 avril 2018 à 17:24:20

Bonjour, 

avec le data suivant:

data=pd.read_csv('CA20180415_1255.CSV',parse_dates=[0],sep=';',dayfirst=True,decimal= ',',encoding='latin-1')

j'ai l'erreur suivante:

ParserError Traceback (most recent call last...

ParserError: Error tokenizing data. C error: Expected 2 fields in line 11, saw 5

Dans mon fichier, en ligne 11, j'ai les intitulés des colonnes:

Date;Libellé;Débit Euros;Crédit Euros;

j'ai cherché sur le net mais je ne trouve pas de commandes ou d'instructions pour gérer cela.

merci.

-
Edité par Pasc.alZ 16 avril 2018 à 17:25:26

Team OC 16 avril 2018 à 18:52:35

Bonjour Pascal,

Normalement, vos intitulés de colonnes se trouvent en première ligne, je pense donc que les lignes 1-10 sont probablement inutiles. Essayez de les supprimer et de réenregistrer votre fichier.

Bonne chance !

16 avril 2018 à 22:23:02

tout simplement !!

Super, merci!

[COURS] Nettoyez et décrivez votre jeu de données

× Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
  • Editeur
  • Markdown