Scraping de site avec login

12 mai 2022 à 14:43:18

Bonjour,

J'aimerais récupérer des données sur un site dont les pages sont publiques, mais avec un nombre limité de visite.

(Après X visites en N temps, la page est toujours accessible mais les données sont remplacées par des caractères spéciaux)

Se connecter à ce site permet d'éviter cette limitation, et donc de visiter autant de page que souhaité.

Cependant, dans le fichier "robots.txt" du site, il est indiqué :

User-agent: * 
Disallow: /login_*

Indiquant, si je l'ai bien compris, que mon script n'a pas le droit de passer par une page qui s'écrit avec /login_

Est-il bien interdit pour un scraper de passer par la page de login (et donc de se connecter) ?

Existe-t-il un moyen d'accéder au site avec le script, en étant connecté directement (de la même manière qu'on est connecté en ouvrant la page quand on a fait "rester connecté" par le passé) ?

umfred

12 mai 2022 à 19:43:33

le robots.txt donne des indications aux robots de référencement des pages; donc ton script n'est pas concerné.
il sera peut-être plus simple de passer/utiliser par selenium pour se connecter au site, le scrapping pouvant se faire ensuite.

TristanG5

17 mai 2022 à 9:08:03

Où puis-je trouver plus d'information sur l'utilisation exacte du fichier robots.txt ?

Ca me semble assez flou, étant donné que Scrapy, qui est une bibliothèque pour le scraping, a une option qui par défaut le fait respecter le fichier robots.txt, ce qui n'aurait pas de sens si ce fichier n'a pas de lien avec le scraping. Est-ce parce que je ne fait que "passer sur la page" sans l'extraire ?

Mais dans ce cas pour effectuer le traitement, Selenium n'a t-il pas a un moment donné extrait la page ?

umfred

17 mai 2022 à 10:13:47

https://www.promptcloud.com/blog/how-to-read-and-respect-robots-file/

TristanG5

17 mai 2022 à 11:19:20

Ce site conseil bien de respecter le robots.txt dans le cadre du scraping