Partage
  • Partager sur Facebook
  • Partager sur Twitter

Problème de regex

    14 janvier 2015 à 14:49:36

    Bonjour,

    Je souhaite récupérer les liens d'une page web, sauf que ma regex marche mal.

    Mon code :

    re.findall('<a href="?(.*?)"#^\.#>',html.decode())

    Le problème est qu'il sélectionne aussi se qu'il y a après. Comment puis-je faire ?

    Merci de vos lecture/réponse.

    • Partager sur Facebook
    • Partager sur Twitter
      14 janvier 2015 à 15:40:17

      Salut utilise $ pour dire qu'après il n'y a plus rien.

      re.findall('<a href="?(.*?)"#^\.#>$',html.decode())



      -
      Edité par InhumanRampage 14 janvier 2015 à 15:41:30

      • Partager sur Facebook
      • Partager sur Twitter
        14 janvier 2015 à 15:48:39

        Merci bien ;).

        Mais maintenant si je veux récuperer un chaine de caractère entre 2 autre chaine, comment dois-je faire ?

        Car j'ai fait ceci : resultat = re.findall('<span class="military_box_info mb_bottom">(.*?)</span>$', the_page.decode())

        Sauf qu'il me dit systématiquement que ne récupère rien  ...

        • Partager sur Facebook
        • Partager sur Twitter
        Anonyme
          14 janvier 2015 à 16:33:19

          et hop !

          une petite regex et corrigée en plus :)

          \<a href ?= ?\"(?P<entete>https?://)?(?P<corps>.+)\" ?\>

          pour tester :

          https://regex101.com/r/vO4jF0/1

          edit : modif' au groupe entete pour capter aussi les httpS

          -
          Edité par Anonyme 14 janvier 2015 à 16:45:30

          • Partager sur Facebook
          • Partager sur Twitter
          Anonyme
            14 janvier 2015 à 16:45:37

            edit du post précédent
            • Partager sur Facebook
            • Partager sur Twitter

            Problème de regex

            × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
            × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
            • Editeur
            • Markdown