Partage
  • Partager sur Facebook
  • Partager sur Twitter

[BeautifulSoup] Extraire les bonnes données ?

    8 février 2017 à 18:26:08

    Bonjour,

    Je cherche a remplir une base de données aves les résultats des courses cyclistes professionnelles de 2016. Pour cela je prévoie de récupérer les données du site ProCyclingStats via le module BeautifulSoup de Python. 

    Par exemple dans cette page ( http://www.procyclingstats.com/race.php?id=163234 ), Je veux récupérer les noms des coureurs (dans l'ordre, ou bien avec leurs places respectives).

    J'utilise le module urllib pour récupérer le code source, puis je le traite avec BeautifulSoup.

    Seulement, en faisant des essais je n'ai jamais réussi à retourner ce qui m'intéresse (à partir de la l91 dans le code).

    Avec des find_all('a'),(href=re.compile('rider')), ou (class_='rider '), soit il ne me retourne rien, soit il retourne les tags de coureurs situés tout en bas de page et qui n'ont rien à voir, j'ai essayé plain d'autres combinaisons mais rien ne marche.

    Du coup je pense qu'il y a quelque chose que je n'ai pas bien compris avec bsoup, et mon find_all est trop naïf (il faudrait utiliser une fonction dedans ? auquel cas je sais pas trop comment faire)

    Je suis preneur pour tout espèce d'idée :)

    • Partager sur Facebook
    • Partager sur Twitter
      16 février 2017 à 18:53:58

      Le find_all(class_='rider') devrait marcher c'est bizarre
      • Partager sur Facebook
      • Partager sur Twitter

      [BeautifulSoup] Extraire les bonnes données ?

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
      • Editeur
      • Markdown