Près de 20 % des sites les plus fréquentés bloquent les crawlers d'IA générative

GPTBot d'OpenAI est de loin le crawler le plus bloqué par les plus importants sites web mondiaux. (Photo : Sujins/Pixabay)

Pour empêcher que leurs données ne servent à entraîner les modèles d'IA générative, 18,6% des 1 000 premiers sites web mondiaux en bloquent l'accès par les crawlers. Sans surprise, le plus visé est le GPTBot d'OpenAI.

Peu après avoir annoncé son crawler GPTBot le 9 août, l'éditeur de ChatGPT, OpenAI, a également partagé les éléments qui permettent d'en bloquer l'activité. Et les entreprises ne se sont pas fait prier pour s'en saisir. Selon la plateforme de détection de contenu généré par l'IA Originality.AI, 18,6% des 1000 premiers sites web au monde bloqueraient au moins un crawler d'IA générative.

Le plus influent site de la liste est tout simplement celui d'Amazon, suivi par le moteur de recherche Quora et la plateforme de recrutement Indeed. À la date du 29 août, le seul GPTbot d'OpenAI était déjà bloqué par 12% des sites contre 9,1% une semaine plus tôt. Seuls 6% interdisent le fonctionnement de CCBot (basé sur le crawler Nutch d'Apache) et 3,2% ChatGPT-User (ce user agent n'est pas un crawler et n'est déclenché que lors de requêtes des utilisateurs). Le New York Times et Shutterstock, par exemple, font partie des rares à interdire à la fois GPTBot et CCBot. Le trio Amazon, Quora et Indeed ne bloque que celui d'OpenAI.

L'exploitation des données pour entraîner les modèles d'IA Pourquoi une telle propension de ces sites à bloquer les robots des IA générative ? La réponse est assez simple. La façon dont ces outils au succès fulgurant depuis moins d'un an exploitent les données à leur disposition ne brille pas par sa transparence. Difficile ainsi d'identifier les données exploitées par une de ces IA génératives pour répondre à une requête spécifique. Et difficile donc de savoir à qui pourraient appartenir ces résultats ou comment se répartirait leur potentielle propriété intellectuelle. Plus inquiétant encore pour les sites concernés, OpenAI a confirmé qu'il exploitait ces données pour répondre aux requêtes de ses utilisateurs, mais aussi potentiellement pour entraîner ses modèles LLM (large language model).

Par Emmanuelle Delsol