Scraper pour un débutant - Siteweb particulier

Sujet résolu

26 juin 2020 à 10:02:26

Bonjour à tous,

D'avance je m'excuse si mon sujet n'est pas bien placé.

Avant d'expliquer mon problème, j'aimerais dire que je suis débutant en HTML ou tout ce qui peut structurer une page web, pardonnez alors mon ignorance. Il n'est pas impossible que pour moi le problème paraît "impossible", alors qu'il est trivial pour vous. Dans ce cas j'apprendrais de mon côté. Pour ce qui est du codage, je maîtrise pas trop mal Python donc j'arriverais à comprendre des concepts algorithmiques.

Rentrons dans le vif du sujet : j'aimerais dans le cadre d'une étude récolter des données sur un site web. (Les données ont pour seul but d'être analysées, point). L'option "tout faire à la main" me paraît impossible car il y a plus de 3000 fiches dans lesquels je veux extraire les données. J'ai alors cherché sur internet et j'ai vu qu'une application google chrome "Web Scraper" permettait simplement ceci (je ne connaissais absolument pas avant). Je me suis alors dit "Chouette, ça va être vite fait". J'ai regardé des vidéos, essayer de comprendre pour transposer ce que je voyais à mon problème mais rien n'y fait...

J'ai l'impression que le site est un peu spécial et qu'il est impossible de récolter les données de façon automatique (peut être est-ce fait exprès, une sorte de protection, dans ce cas j'arrêterais toute tentative, je ne veux pas avoir des problèmes ahah). La navigation se fait par des "clics" pour ouvrir une arborescence de plus en plus profonde (donc pas pas de "liens" URL à suivre, comme j'avais pu le voir dans les tutoriels). De plus, je ne peux pas ouvrir la fiche de mon produit (où je veux récolter les informations) dans un autre onglet et j'ai l'impression que toutes les fiches des différents produits ont le même liens URL. Autre problème, lorsqu'on accède à une fiche et qu'on "l'actualise" dans le navigateur, on tombe sur un "erreur serveur, ressource introuvable"... J'en suis venu à la conclusion qu'il était impossible de récolter les données pour ce site, mais étant simple débutant je me dis que peut être, c'est simplement moi qui ne comprends pas.

Bien sûr, je ne veux pas que vous me donniez une solution toute faite. J'aimerais simplement savoir s'il est possible ou non de récolter les données souhaitées. De même je me répète mais si tous les problèmes rencontrés sont en faite des protections afin que personne ne puisse récolter, je ne chercherais pas plus loin !

Je vous remercie par avance pour la lecture de mon problème et vos réponses.

eclairia

28 juin 2020 à 13:23:56

Bonjour,

Pour pouvoir t'aider à trouver les bonnes urls, il faudrait que tu nous donne le site que tu essayes de scrapper.

"Ils ne savaient pas que c'était impossible, alors ils l'ont fait" Mark Twain

Jeean_

29 juin 2020 à 8:23:21

Bonjour,

merci pour ta réponse ! C'est vrai désolé, j'ai oublié de donner l'URL, la voici : https://www.base-inies.fr/iniesV4/dist/consultation.html.

Le but aurait été pour moi de récupérer simplement le nom des produits ainsi que leur impact (trouvable lorsque l'on ouvre une fiche en particulière dans l'onglet indicateur).

Merci d'avance pour l'aide.

eclairia

29 juin 2020 à 8:47:54

Quand tu regardes dans la console du navigateur dans l'onglet Network et le sous-onglet xhr on peut remarquer un appel ajax vers le site base-inies.fr.

Du coup j'ai cherché sur Google s'ils avaient une api et il semblerait que oui.

https://www.inies.fr/le-webservice-des-donnees-numerisees/

https://www.inies.fr/wp-content/uploads/2019/11/Protocole_connexion_WebService_INIESV4.pdf

-
Edité par eclairia 29 juin 2020 à 11:35:57

"Ils ne savaient pas que c'était impossible, alors ils l'ont fait" Mark Twain

Jeean_

29 juin 2020 à 10:26:38

Effectivement, je n'avais pas vu ça (et même si je l'avais vu je n'aurais pas su que ça pouvait être utile ahah). Sincèrement merci beaucoup, je vais voir avec mon école s'ils n'ont pas une licence commune !

Merci eclairia.