Partage
  • Partager sur Facebook
  • Partager sur Twitter

Scraping de site avec login

    12 mai 2022 à 14:43:18

    Bonjour,

    J'aimerais récupérer des données sur un site dont les pages sont publiques, mais avec un nombre limité de visite.

    (Après X visites en N temps, la page est toujours accessible mais les données sont remplacées par des caractères spéciaux)

    Se connecter à ce site permet d'éviter cette limitation, et donc de visiter autant de page que souhaité.

    Cependant, dans le fichier "robots.txt" du site, il est indiqué :

    User-agent: * 
    Disallow: /login_*

    Indiquant, si je l'ai bien compris, que mon script n'a pas le droit de passer par une page qui s'écrit avec /login_

    Est-il bien interdit pour un scraper de passer par la page de login (et donc de se connecter) ?

    Existe-t-il un moyen d'accéder au site avec le script, en étant connecté directement (de la même manière qu'on est connecté en ouvrant la page quand on a fait "rester connecté" par le passé) ? 

    • Partager sur Facebook
    • Partager sur Twitter
      12 mai 2022 à 19:43:33

      le robots.txt donne des indications aux robots de référencement des pages; donc ton script n'est pas concerné.
      il sera peut-être plus simple de passer/utiliser par selenium pour se connecter au site, le scrapping pouvant se faire ensuite.
      • Partager sur Facebook
      • Partager sur Twitter
        17 mai 2022 à 9:08:03

        Où puis-je trouver plus d'information sur l'utilisation exacte du fichier robots.txt ?

        Ca me semble assez flou, étant donné que Scrapy, qui est une bibliothèque pour le scraping, a une option qui par défaut le fait respecter le fichier robots.txt, ce qui n'aurait pas de sens si ce fichier n'a pas de lien avec le scraping. Est-ce parce que je ne fait que "passer sur la page" sans l'extraire ?

        Mais dans ce cas pour effectuer le traitement, Selenium n'a t-il pas a un moment donné extrait la page ?

        • Partager sur Facebook
        • Partager sur Twitter
          17 mai 2022 à 11:19:20

          Ce site conseil bien de respecter le robots.txt dans le cadre du scraping
          • Partager sur Facebook
          • Partager sur Twitter

          Scraping de site avec login

          × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
          × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
          • Editeur
          • Markdown