Partage
  • Partager sur Facebook
  • Partager sur Twitter

Aide decrivez et nettoyer votre jeu de données

relevés bancaires en format .csv

    2 novembre 2019 à 21:50:10

    Bonsoir, je commence le cours décriver et nettoyer votre jeu de données où l'on va analyser nos relevées bancaires, je voulais le faire avec mes données mais  je ne peux que les télécharger en pdf(je suis chez LCL). Du coup c'est un galère pour les avoir en format csv.

    Je peux enregistrer le pdf puis l'enregistrer en .txt mais après il faut que je sépare manuellement pour chaque ligne, toutes les colonnes en rajoutant les virgules... une galère lol. Quelqu'un a pu résoudre ce problème? 

    Merci 

    • Partager sur Facebook
    • Partager sur Twitter
      19 novembre 2019 à 3:01:22

      Bonjour

      Un petit détail : si on n'inclue pas une ligne reshape sur x, python refuse de faire la régression linéaire sur le jeu de données Iris.

      En terme de code, ça donne cela :

      # cas 2/ X est la variable petal_width et Y la variable sepal_width, sur le dataframe iris_setosa
      x2 = iris_setosa['petal_width']
      y2 = iris_setosa['sepal_width']

      X2 = np.array(x2).reshape((-1, 1))
      Y2 = np.array(y2)

      Je peux calculer le coef directeur et l'ordonnée à l'origine, mais je crains que le reshape ait une influence sur le calcul.

      Est-ce normal ?

      Autre question : lorsque je tente de compiler la boucle, j'obtiens le résultat suivant :

      for (i,individu) in iris.iterrows(): # pour chaque individu de iris,...
          if pd.isnull(individu["petal_width"]): #... on test si individu["petal_width"] est nul.
              a = coeffs["cas 1"]['a']
              b = coeffs["cas 1"]['b']
              X = individu["petal_length"]
              Y = a*X + b
              iris.loc[i,"petal_width"] = Y # on remplace la valeur manquante par Y
              lignes_modifiees.append(i)
              print("On a complété petal_width par {} a partir de petal_length={}".format(Y,X))

      TypeError: can't multiply sequence by non-int of type 'float'

      Note : j'utilise xxx.int*rcept_ et xxx.co*f_ pour obtenir les paramètres. Le résultat se présente sous la forme suivante.

      Cas 1 : le petit b est égal à x.xxxxxxxx , le petit a est égal à [x.xxxxxx]

      Cordialement

      -
      Edité par RichardChazal1 19 novembre 2019 à 3:27:01

      • Partager sur Facebook
      • Partager sur Twitter
        20 novembre 2019 à 0:11:34

        Salut je n'ai pas utiliser reshape pr le coeff directeur. reprend le code du cours

        et l'erreur c'est peut etre que tu n'as rien mis dans le dictionnaire 'coeff'?

        • Partager sur Facebook
        • Partager sur Twitter
          20 novembre 2019 à 17:08:25

          RaphaëlBitoun a écrit:

          Salut je n'ai pas utiliser reshape pr le coeff directeur. reprend le code du cours

          et l'erreur c'est peut etre que tu n'as rien mis dans le dictionnaire 'coeff'?


          Je ne pense pas... j'ai complété les dictionnaires de coefs avec les valeurs numériques fournies par les régressions, et ça marche.

          Le problème se situa à la question 3 : voici un bout de code.

          # cas 1/ X est la variable petal_length et Y la variable petal_width, sur le dataframe iris_dna
          x1 = iris_dna['petal_length']
          y1 = iris_dna['petal_width']

          #reshape pour que Python arrête de nous pourrir la vie avec ses messages d'erreur
          X1 = np.array(x1).reshape((-1, 1))
          Y1 = np.array(y1)

          J'ai du en implémenter pour faire l'activité du cours "initiation au machine learning" pour faire fonctionner la régréssion linéaire, mais pas pour le KNN, ni la SVM...

          Je suis en corriger les exercices d'autres étudiants... et je trouve les mêmes valeurs qu'eux, malgré que leurs scripts ne contiennent pas de X.reshape(), et le mien si. A quoi sert vraiment cette fonction ?

          Si je l'omet, Python me dit ça :

          Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
          • Partager sur Facebook
          • Partager sur Twitter

          Aide decrivez et nettoyer votre jeu de données

          × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
          × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
          • Editeur
          • Markdown