L'explosion du nombre de robots d'exploration (crawlers) appartenant à des laboratoires d'intelligence artificielle (IA) pousse certains webmasters à adopter des contre-mesures originales. L'un d'eux, qui tient le site iczelia.net, a détaillé une méthode pour retourner la situation contre ces programmes automatisés : leur servir délibérément du contenu de faible qualité, appelé « slop ». L'initiative, décrite le 27 mai 2026, vise à nuire à l'entraînement des modèles d'IA qui aspirent massivement les données disponibles sur le web public.
Un problème d'ampleur croissante
L'auteur du site explique que l'hébergement d'un site web en 2026 implique de faire face à une « énorme plaie ». Les robots d'IA, notamment ceux de Meta et d'Anthropic, génèrent selon lui des « vagues incessantes de requêtes complètement inutiles » qui martèlent des pages statiques. Ces programmes, chargés de collecter des données pour entraîner des modèles de langage, ne respectent souvent pas le fichier robots.txt qui définit pourtant les règles de bonne conduite sur le web. Ce constat rejoint des préoccupations plus larges sur le coût serveur et la consommation de bande passante imposée par ces explorations automatisées.
Une solution technique de représailles
Pour se défendre, le webmaster a initialement expérimenté les bombes gzip – des fichiers compressés qui se décompressent en une masse monstrueuse de zéros – contre les scanners de vulnérabilité. Aujourd'hui, il a choisi une approche plus ciblée pour les robots d'IA. Plutôt que de bloquer l'accès (code 403) ou de ralentir les machines, il a décidé de leur fournir des contenus volontairement absurdes et inutiles.
Le système qu'il a mis en place repose sur « Tiny LLM », un modèle de langage de petite taille (dix millions de paramètres), développé par arnir0 et hébergé sur la plateforme Hugging Face. Lorsqu'un agent utilisateur (user-agent) correspondant à un robot d'exploration connu (comme DotBot) se présente, le serveur génère une page HTML complète, mais dont le texte est produit par ce modèle miniature. Le résultat est un discours incohérent, composé de phrases sans queue ni tête, comme : « the L. V. Vandervips We can only make reached with one that can come up with the were there with the whole and so, that is the case, this might be true fight. » La page comprend également des liens vers d'autres pages générées de la même manière, créant un labyrinthe de non-sens.
Efficacité et implications
D'après les logs du serveur, le stratagème fonctionne : les robots continuent de suivre les liens et de consommer ces pages, ce qui génère des milliers de requêtes sur des chemins inexistants (comme /journal/made-beach). L'auteur suggère que cette technique pourrait « considérablement nuire à l'entraînement des modèles », en se référant à des travaux de recherche sur la contamination des données d'entraînement par de petits échantillons de texte de mauvaise qualité. Il ajoute ironiquement : « Profitez de vos données d'entraînement », en concluant son message par un clin d'œil.
L'initiative de ce webmaster illustre la tension croissante entre les propriétaires de sites web et les grandes entreprises d'IA qui exploitent le contenu public de l'internet sans contrepartie, ni souvent sans autorisation explicite. En retournant les outils d'IA contre leurs propres créateurs, l'auteur propose une forme de guérilla numérique qui pose la question de la qualité des données d'entraînement des futurs modèles de langage. Il envisage d'ailleurs d'améliorer son prototype en utilisant un modèle plus sophistiqué qui prendrait ses propres articles de blog comme point de départ pour y introduire des erreurs subtiles, rendant la contamination encore plus difficile à détecter.