Partage

Contrer un aspirateur de site,

possible?

1 2 >>

20 juillet 2010 à 12:05:59

Bonjour,

Quelle est la méthode(les méthodes) pour contrer petit à petit un aspirateur de site?

Sur le net j'en est trouvé quelques uns, sans doute pas mise à jour.
http://phortail.org/scripts/script-ant [...] eur-0014.html
http://www.tutoriaux-excalibur.com/anti-aspirateur.htm
http://www.lephpfacile.com/howto/9-com [...] e-site-en-php

Que conseillez vous?

DrDam

20 juillet 2010 à 16:03:45

de toute façon, si tu met en ligne un site c'est pour que les gens l'utilise et le parcours ...

ce qui est "sensible" et "secret def" c'est le code qui le fait tourner, alors qu'un aspirateur ( si le .htacces est bien structuré) ne chopera que les pages HTML générés

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

nicodd

20 juillet 2010 à 16:15:00

C'est pas pour autant que tu as envie que ton site se fasse aspirer.

DrDam

20 juillet 2010 à 16:19:27

Que le mec lise toute les pages du site, ou qu'il les téléchargent toute d'un bloc pour les consulter en local ( parcequ'il vas passer le week-end dans un coin perdu où l aura pas internet) ...

tu met la différence où ?

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

nicodd

20 juillet 2010 à 16:25:08

Si tu as un site fréquenté comme le sdz ou même bien plus petit, où chaque génération de page te coûte en bande passante ainsi qu'en temps de calcul et que quelqu'un aspire ton site en faisant des centaines de requêtes par seconde en pénalisant tous les autres utilisateurs du site, cela semble logique de vouloir l'empêcher.

DavidLord

20 juillet 2010 à 16:29:23

Je souhaite l'empêcher simplement parce que je n'est guerre envie que le site soit mis en local et par conséquent téléchargeable quelque part.

Imaginons qu'un site propose un moteur de recherche qui interagit avec une base de donnée pour trouver une fiche d'un film. sans cette base de donnée pas de recherche. Idem pour les fichiers images, ainsi que .js et autres qui peuvent s'y trouver.

Donc je souhaite empêcher du mieux qu'on peut l'aspiration du site web.

Frank9321

20 juillet 2010 à 16:32:39

Tu pourras jamais empêcher une aspiration d'un site. Ce que tu peux faire, c'est freiner son aspiration, mais tu pourras pas l'empêcher complétement.

DavidLord

20 juillet 2010 à 16:36:40

Oui, je parle de freiner.
empêcher que les fichiers soit aspirable
empêcher les aspirateurs connus d'y faire leur action

donc je ne sais actuellement comment ça fonctionne un aspirateur de site, mais vouloir juste freiner en mettant des bannière ça peut être cool.

Jack River

21 juillet 2010 à 0:14:28

Tu ne pourras pas empêcher que tes pages soient « aspirables ». A partir du moment où tu sers du contenu aux internautes qui est accessible aux navigateurs, il est enregistrable.

Un aspirateur de site est seulement un script qui simule une navigation utilisateur, parcourt les pages accessibles directement, et navigue via les liens que tu y mets. Chaque page de ton site est forcément pointée par une balise <a> ou un appel via Javascript.

Comme l'a dit Frank9321, tu peux seulement freiner cette action : Un aspirateur est repérable par le fait qu'il effectue un nombre de requêtes conséquent en un temps limité. Si ton serveur est sous Apache (très probable), tu peux imposer un quota de téléchargement maximum par IP (mod throttle pour Apache 1.x, mod_bwshare pour les versions 2.x).

Il existe aussi des méthodes via des scripts php afin de regarder le nombre de pages vues par minute (par exemple) mais celles-ci consomment des ressources.

De toute façon, si un aspirateur est bien conçu (et n'effectue pas trop de requêtes dans un temps donné), il ne te sera pas possible de le discerner d'un utilisateur normal.

AMHA, c'est beaucoup de travail pour pas grand chose. Si quelqu'un veut aspirer ton site, il le fera d'une manière ou d'une autre (quitte à faire Ctrl/s sur chaque page).
Et étant donné qu'il n'a accès qu'aux pages servies (uniquement du code html), il n'aura qu'une copie à un instant donné de ton site (donc pas les nouvelles news, nouveaux messages de forums etc...).

Donc vouloir éviter les aspirations de site :
- pour des raisons de bande passante : oui.
- pour une confidentialité quelconque : non !

DavidLord

21 juillet 2010 à 0:27:24

D'accord,
donc uniquement les pages html, les images, le css et js sont récupérable?

Jamais ils ne pourront atteindre un dossier sécurisé (/admin/) ou encore la partie de l'administration.

Le site que je prépare fonctionne de la sorte.
On arrive sur le site rien.
On fait une recherche, ça affiche les résultats de la recherche (logique).
A part ça, il ne devrait y avoir rien d'autres.

Donc :
- avoir un .htacess qui bloque les aspirateurs déjà existant
- avoir un script qui vérifie le téléchargement max par IP ou encore la visualisation d'une fiche (je prends l'exemple des fiches de film)
- bloquer le téléchargement ou l'accès au dossier \images\

Mais est ce qu'un dossier sécurisé par un accès pseudo+motdepasse + .htacess laisse passer un aspirateur.
Je rajoute des liens :
http://www.developpez.net/forums/d8496 [...] -aspirateurs/

Anonyme

21 juillet 2010 à 1:09:55

Une solution assez simple est de mettre un pixel invisible (une image de 1x1 pixel de la même couleur que le fond de la page) avec un lien vers une page qui bannit l'ip pendant quelques minutes.
Un visiteur normal n'a que très peu de chances de cliquer dessus, mais un aspirateur suivra tout les liens.
De préférence en haut de la page de façon a être le premier lien, comme ça l'aspirateur n'aspirera rien du tout sauf la page d'accueil.

Mais bon, ça sert a rien d'empêcher les aspirateurs, a part a faire ch*** le monde. Surtout que ça m'étonnerait que quelqu'un essaie d'aspirer un moteur de recherche, ou alors c'est vraiment un noob...

DavidLord

21 juillet 2010 à 1:24:57

Pourquoi faite chi** le monde?
Est ce que le fait de limiter un aspirateur fais chi** le monde?

L'idée du pixel est pas mal, ou sans doute l'utilisation des images sous :
imageshack.us par exemple? non?

Le css/js et html au pire je m'en fou.
mais l'aspiration des icônes des films par exemple facile grandement la tâche par exemple d'un site concurrent qui voudrait carrément se faciliter la tâche.

Donc ta solution serait de piéger l'ip dans un pixel 1x1 invisible et qui n'est accessible théoriquement qu'avec un aspirateur?

SpaceFox

21 juillet 2010 à 1:34:41

C'est sûr que ton site est tellement important et d'une telle qualité que tes concurrents vont se précipiter sur tes ressources pour faire le leur.
Surtout pour des icônes de films, pour lequels c'est tellement facile d'aspirer, disons Allocine, ou IMDB, ou Commeaucinema, ou ...

M'est avis que tu te prends la tête pour rien là.

Les textes du Renard — Zeste de Savoir, la connaissance pour tous — SpaceFox au Japon

DavidLord

21 juillet 2010 à 1:44:03

Comme on dit : "Inutile mais indispensable"
Ton avis pourrais également dire ceci :
Je vais rien mettre pour sécuriser ma base de donnée contre les injections SQL puisque je sais qu'il y a forcément plus grosse base de donnée ailleurs, et donc je ne risque rien.

Je suis pas d'accord, même le plus petit site, aussi inintéressant qu'original peut s'offrir une protection contre les injections SQL ou encore anti-aspirateurs de siteweb...

Je m'intéresse donc à utiliser des solutions pour limiter l'utilisation des aspirateurs de siteweb, par simple curiosité déjà, envie d'en connaitre plus sans doute, et par soucis de contribuer et aider ceux qui cherche une demande similaire.

La solution du pixel invisible, je l'es trouvé nulle par ailleurs sur le web, qui ne sert pas qu'à ça finalement. Donc c'est une bonne idée.

Encore une fois, l'exemple des fiches de film n'étais qu'un exemple comme un autre.

DrDam

21 juillet 2010 à 8:27:44

Citation : DavidLord

Donc ta solution serait de piéger l'ip dans un pixel 1x1 invisible et qui n'est accessible théoriquement qu'avec un aspirateur?

théroriquement, car certaines solution d'accessibilité ( pour mal voyant ) parse les pages comme le ferai un aspirateur ... après tout est une question de choix ..

Citation : DavidLord

Comme on dit : "Inutile mais indispensable"
Ton avis pourrais également dire ceci :
Je vais rien mettre pour sécuriser ma base de donnée contre les injections SQL puisque je sais qu'il y a forcément plus grosse base de donnée ailleurs, et donc je ne risque rien.

tu confond 2 choses ... protéger sa BDD contre les SQL-Injections c'est de la sécurité des données dont on parle ... qui n'a rien à voir avec une gestion de l'accès au site ...

Citation : DavidLord

Je m'intéresse donc à utiliser des solutions pour limiter l'utilisation des aspirateurs de siteweb, par simple curiosité déjà, envie d'en connaitre plus sans doute, et par soucis de contribuer et aider ceux qui cherche une demande similaire.

La solution du pixel invisible, je l'es trouvé nulle par ailleurs sur le web, qui ne sert pas qu'à ça finalement. Donc c'est une bonne idée.

il y aura toujours des solutions pour passer outres ..

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

matheod

21 juillet 2010 à 13:47:20

sinon tu fait des génération de page aléatoire pour faire tourner l'aspirateur en boucle

Voyant que le nombre de page ne s'arrete jamais soit il laisse tourné et ton site prend cher niveau ressource, soit il arrete et t'es contant

mais mettre des faux liens est une bonne idée

DrDam

21 juillet 2010 à 13:59:46

Citation : matheod

mais mettre des faux liens est une bonne idée

pour l'indexation/référencement via google & co ... c'est pas génial

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

SpaceFox

21 juillet 2010 à 14:05:36

Vous avez déjà utilisé un aspirateur de site ?
Parce que c'est pas avec des pages aléatoires (y'a une limite de profondeur) que tu vas les faire tourner en boucle.
Les "faux liens", tout dépend de ce que tu mets dedans... ça peut devenir une vraie catastrophe pour ton serveur.

Et une question :

Qui est le premier utilisateur à avoir un comportement indiscernable d'un aspirateur de site ; et pour cause c'en est exactement un ?
Un indice : c'est aussi le premier visiteur aveugle.

La réponse est...

Le robot Google !
Et tous les robots d'indexation par la même occasion.

Ah ben oui.
Le GoogleBot est un aspirateur de site.
Il fait exactement la même chose : il va sur toutes les pages et les télécharge toutes, en suivant tous les liens de chaque page.
La seule différence c'est qu'au lieu d'enregistrer bêtement les pages sur le disque dur, il les analyse.
En fait, il les enregistre aussi : le cache Google, ça vous dit quelque chose ? C'est quoi sinon une simple aspiration de site ?

Pire que ça, le GoogleBot est 10x plus intelligent que l'aspirateur moyen.
Va-t-il aimer les images de 1 pixel invisibles ? J'ai un très sérieux doute...

Après, si tu veux avoir un site invisible dans tous les moteurs de recherche, c'est ton problème. mais si le but est seulement ça, le robots.txt est bien plus simple.

Les textes du Renard — Zeste de Savoir, la connaissance pour tous — SpaceFox au Japon

nicodd

21 juillet 2010 à 14:10:22

Au dernières nouvelles, il est impossible d'aspirer le Sdz (par des moyens classiques bien sûr) cela ne l'empêche pas d'être très bien indexé.

matheod

21 juillet 2010 à 14:17:09

On peux définir la vitesse d'indexation par google

On peut aussi detecter l'user agent de google.

SpaceFox

21 juillet 2010 à 14:18:36

Faux pour le SdZ.
Je viens de faire le test, il suffit d'utiliser un user-agent de navigateur (ou du googlebot) avec l'aspirateur...

Du coup si tu veux te protéger contre les aspirateur mais être indexé, il faut pas se baser sur l'user-agent mais sur l'IP. Ce qui implique "avoir une liste parfaitement à jour de toutes les IPs de tous les bots de tous les moteurs de recherche".

Les textes du Renard — Zeste de Savoir, la connaissance pour tous — SpaceFox au Japon

mint0

21 juillet 2010 à 14:22:04

Citation : nicodd

Au dernières nouvelles, il est impossible d'aspirer le Sdz (par des moyens classiques bien sûr) cela ne l'empêche pas d'être très bien indexé.

Ha bon ? pourtant un petit wget -r siteduzero.com ma suffit !

Ko Reika

21 juillet 2010 à 14:24:40

Mais eux ils sont de mèche avec le robot google

DrDam

21 juillet 2010 à 14:27:35

Citation : mint0

Citation : nicodd

Au dernières nouvelles, il est impossible d'aspirer le Sdz (par des moyens classiques bien sûr) cela ne l'empêche pas d'être très bien indexé.

Ha bon ? pourtant un petit wget -r siteduzero.com ma suffit !

le " wget -r "... l'aspirateur universel !! et le pire c'est que ça passe quasiment tout les problèmes !!

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

Anonyme

21 juillet 2010 à 15:21:03

Citation : DavidLord

Je souhaite l'empêcher simplement parce que je n'est guerre envie que le site soit mis en local et par conséquent téléchargeable quelque part.

Imaginons qu'un site propose un moteur de recherche qui interagit avec une base de donnée pour trouver une fiche d'un film. sans cette base de donnée pas de recherche. Idem pour les fichiers images, ainsi que .js et autres qui peuvent s'y trouver.

Donc je souhaite empêcher du mieux qu'on peut l'aspiration du site web.

Tu ne pourra rien faire, même si on aspire pas ton site un logiciel peut simuler un navigateur et aller chercher les informations à la demande.

Par exemple au lieu d'aspirer imdb.com on peut simplement faire des recherches dessus à la demande et donc utiliser la BDD de imdb sur son site perso.

DavidLord

21 juillet 2010 à 15:24:58

Qu'est ce que "wget-r" ?

Sinon, je suis d'accord nax, qu'on ne peut rien faire, mais on peut en limiter.
sinon c'est pareil, à quoi sert l'anti clique droit, les divers script "interdiction de copier" et compagnie si l'aspiration est toujours possible?

Concrètement à rien, et oui une personne qui veut aspirer le site pourra le faire.
J'ai moi même tester l'aspiration de site avec le site d'un amis et quelques autres, pour certain impossible d'aspirer avec le plus simple logiciel opensource c'est à dire : HTTrack
sur l'un j'ai réussi sans problème mais sur l'autre impossible.

donc ça veut dire, pour un utilisateur lambda qui s'y connait pas trop, et si un .htacess bloque la majorité des aspirateurs + quelques pièges ça découragera (un peu).

DrDam

21 juillet 2010 à 16:01:03

Citation : DavidLord

Qu'est ce que "wget-r" ?

une commande bash sous linux, qui télécharge via le protocole http ( wget) une cibre de manière récurcive ( -r => i.e. tout les sous dossier)

Citation : DavidLord

Sinon, je suis d'accord nax, qu'on ne peut rien faire, mais on peut en limiter.
sinon c'est pareil, à quoi sert l'anti clique droit, les divers script "interdiction de copier" et compagnie si l'aspiration est toujours possible?

par définition, ils ne servent à rien, si tu met une image sur ton site, tu lui met une WaterMark et si un jour tu la trouve ailleur tu fais valoir tes droits d'auteur ... mais c'est tout sauf la philosophie du Net ... mais bon ...

Par définition, tout ce que tu met sur le net est "public" alors pourquoi le vérouiller ? pour ce qui est des modules d'admin & co, des solution existe mais c'est limite ...
après il y a des config de base à faire : .htaccess, robot.txt , configurer la base pour n'accepter que les requette venant de l'IP du site web ( ou uniquement en localhost, si les 2 sont sur la même machine) , controle de droit sur chaque page des parties admins ... etc ...

Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.

DavidLord

21 juillet 2010 à 16:17:57

Donc concrètement, un dossier "admin" sécurisé du moins du mieux qu'on peut est toujours aspirable.

comment ça se fait alors que sur certains site, impossible d'aspirer, pourtant le codage ne présente pas de réel investissement dans la sécurité.

mint0

21 juillet 2010 à 16:55:27

Citation : DavidLord

comment ça se fait alors que sur certains site, impossible d'aspirer, pourtant le codage ne présente pas de réel investissement dans la sécurité.

exemple ?

Anonyme

21 juillet 2010 à 17:00:56

À te lire j'ai l'impression que tu ne sais pas trop de quoi tu parle.

Essaie d'expliquer ce que tu veux empêcher et surtout pourquoi. Parce que "aspirer" un site ça revient à le visiter et enregistrer, pour empêcher l'aspiration il faudrait empêcher la consultation du site. Tu ne pourra pas différentier un visiteur d'une tache automatique.

De plus qu'est-ce qui t'embête dans le fait d'aspirer un site ?

1 2 >>