Création d'un script de recherche

Sujet résolu

22 mai 2019 à 11:40:11

Bonjour à tous, j'aimerais créer un script qui me permettrait de récupérer toutes les informations d'un produit(ou d'un mot-clé) sur tout les sites du monde. Le web-scraping me semblait être une bonne piste, mais la, je suis bloqué, des idées ?

Merci d'avance.

potterman28wxcv

22 mai 2019 à 17:32:27

Ce que tu demandes est très compliqué et coûteux à mettre en place. Si Google a des centaines (voire des milliers) de datacenters qui passent la journée à chercher le Web, c'est pas pour rien ! Le Web est immense. D'après Quora, en 2016 il y avait 4.62 milliards de page, soit 4.62 * 10^9. Supposons qu'il te faut 100 ms pour traiter une page (ce qui est extrèmement généreux : ne serait-ce que obtenir la page du web, c'est déjà plus de 100 ms. peut être qu'on peut avoir moins si on charge plusieurs pages en parallèle mais je ne pense pas que ça change grand chose à ce chiffre théorique, facteur 10 tout au plus).

Il faudrait alors 10^8 secondes pour faire une requête. Soit à peu près 3 ans. C'est long !

Ce que fait donc Google, c'est qu'il va indexer les sites web. C'est à dire que, dans une base de donnée gigantesque, il va de temps en temps demander aux sites si ils ont du nouveau, et enregistrer les mots clefs qu'il trouve. La capacité de stockage requise pour faire cela est, tu t'en doutes, énorme. Là encore, si on suppose 1 kB par page (très généreux ici encore), tu es sur du 4.62 * 10^12 octets, de l'ordre de 4 TB (sauf si je me suis gouré dans mes puissances). En pratique je pense que c'est un peu plus. Surtout qu'on est en 2019 maintenant, et que le nombre de 2016 a du augmenter depuis.

Bref : ton projet ne pourra pas aboutir. ça demande des moyens énormes, autant en programmation qu'en ressources.

Par contre, tu pourrais faire un mini moteur de recherche qui cible un site web en particulier. ça, ouais, ça devrait être faisable. Regarde du côté des aspirateurs de site web, ou "website copier" en anglais.

Par exemple peut être ça : https://github.com/d1p/Website-Cloner

L'idée est de télécharger l'index.html, puis à partir de là tu navigues récursivement chacun des liens et stocke les fichiers html quelque part. Pour être capable de lire le HTML, tu peux utiliser ceci : https://pypi.org/project/html/

AmineBenejja1

23 mai 2019 à 10:43:46

Je me doutais que j'ai été un peu trop ambitieux cette fois, merci d'avoir pris le temps de répondre et de m'apporter une solution plus réalisable.

Bonne journée a toi :)

potterman28wxcv

23 mai 2019 à 11:18:10

AmineBenejja1 a écrit:

Je me doutais que j'ai été un peu trop ambitieux cette fois, merci d'avoir pris le temps de répondre et de m'apporter une solution plus réalisable.

Bonne journée a toi :)

Pas de souci

Mets le sujet en résolu si il est résolu