Programmer des robots

21 novembre 2017 à 13:29:39

bonjour,

je tient à signaler que je ne demande pas comment faire des pratiques illégales, mais juste des conseils.

j'ai un site web où dans les conditions d'utilisation il y a écrit que l'utilisation d'un robot pour naviguer sur le site (automatisation de tache) peut entraîner la fermeture du compte utilisateur.

donc le robot c'est rien d'autre qu'un programme qui va faire une répétition de requête http pour remplir des champs ou récupérer des pages web.

mais si dans l’entête de la requête http, je met les même informations qu'un navigateur tel que mozilla firefox par exemple, comment peuvent-il savoir que c'est un robot qui va sur leurs site et pas un humain ?

-
Edité par Luzwitz 21 novembre 2017 à 13:29:50

Darev

21 novembre 2017 à 14:34:48

Salut,

On ne se base pas que sur cet élément pour juger si c'est une navigation "normale" d'un humain ou si c'est un programme (robot). Le nombre de pages vues ou de requêtes à la minutes est souvent un bon indicateur à croiser avec l'adresse IP (en plus de l'entête de la requête bien sûr). Les heures de visites et les répétitions peuvent indiquer des choses aussi.

Comme tu parles de formulaires, il est aussi possible d'ajouter des captcha pour freiner les robots (mais c'est contraignant pour l'utilisateur), ou ajouter le fameux champs "honeypot" que les robots rempliront.

Par exemple : je ne sais pas si tu navigues sur une IP fixe via un VPN dans ton entreprise, et que vous êtes un peu nombreux à requêter Google, mais tu as sans doute remarqué qu'il demande parfois de remplir un captcha entre 2 recherches pour juger justement... si tu es robot ou pas.

Après, au vu de ta question, je ne saurais dire si tu te demandes "comment ça marche ?" ou si tu demandes carrément "comment je peux contourner au mieux ?".

-
Edité par Darev 21 novembre 2017 à 14:36:55

Luzwitz

21 novembre 2017 à 14:56:07

Je ne parle pas des captcha ou autres moyen de bloquer l'accès aux robots. Je parle ici d'un site pas très bien sécurisé pour luter contre les robots.

Mais est-ce que le nombre de pages vues et requêtes à la minute peut-être utilisé comme argument valable pour dire "Oui, il a utilisé un robot" ? Ca me parait un peu light comme argument...

Darev

21 novembre 2017 à 15:34:53

Luzwitz a écrit:

Ca me parait un peu light comme argument...

Auprès de qui ?!

Si les logs pour une même IP, un même compte utilisateur avec une même entête http indiquent plus de 1000 pages vues à la minute, je crois qu'on peut clairement dire que ce n'est pas "humain" hein.

-
Edité par Darev 21 novembre 2017 à 16:15:35

Asakha

21 novembre 2017 à 16:44:12

Darev a écrit:

Si les logs pour une même IP, un même compte utilisateur avec une même entête http indiquent plus de 1000 pages vues à la minute, je crois qu'on peut clairement dire que ce n'est pas "humain" hein.

-
Edité par Darev il y a 26 minutes

Comment ça c'est pas possible ? Aurais-je un APM trop performant ? :/