Mieux détecter les bots et remplacer notre CAPTCHA

Traduire cet article

Chaque grand site web, y compris Wikipédia, doit faire face à des bots malveillants – un problème qui s’aggrave sur l’internet d’aujourd’hui, et qui ne s’améliore pas. Wikipédia a besoin d’outils les plus robustes pour se défendre contre les activités automatisées malveillantes (y compris celles pilotées par l’IA). À la Fondation Wikimedia, nous avons communiqué en avril pour expliquer comment nous protégeons notre infrastructure contre les collectes de données  qui utilisent excessivement le contenu Wikimedia comme données d’apprentissage. Dans cet article, nous parlons d’une nouvelle façon de protéger Wikimedia contre les bots malveillants qui mènent des activités généralement propres aux humains, comme la création de comptes et l’édition.

Pour ce faire, nous testons un nouveau service de détection de bots sur Wikipédia. Nous commencerons par l’appliquer au niveau de la création de comptes, et pourrons par la suite étendre son utilisation pour protéger la modification ou d’autres actions sensibles.

Notre objectif est de fonder les bases pour mieux se protéger contre le vandalisme automatisé, comme les modifications massives de remplacement de mots que la Wikipédia en anglais a subies en juillet, ou la tentative de prise de contrôle automatisée de comptes que nous avons affrontée en mars. Nous souhaitons également être mieux préparés contre les faux-nez automatisés qui pourraient modifier des contenus ou perturber les processus mis en place par la communauté de bénévoles pour garantir l’intégrité et établir un consensus.

Ce nouveau service de détection de bots remplacera l’utilisation de notre CAPTCHA actuel, un puzzle visuel basique de « saisie de mot » généré par un logiciel qui remonte aux années 2000. Pour faire simple, ce système appartient à une ère antérieure du Web et n’est pas équipé pour se défendre contre les attaquants modernes soutenus par l’IA. Nous avons par ailleurs reçu de nombreux retours indiquant que le CAPTCHA actuel est trop difficile à utiliser pour des utilisateurs humains.

Le service que nous allons essayer est hCaptcha, un service tiers spécialisé dans la détection de robots. Il accorde une attention particulière aux clients soucieux de la confidentialité, notamment Signal et de nombreux autres services internet, ce qui en fait un choix pertinent pour Wikipédia.

Lors de cet essai, nous évaluerons dans quelle mesure hCaptcha parviendrait-il à arrêter ou à ralentir l’activité des bots, et comment aiderait-il les véritables humains à utiliser Wikipédia plus facilement.

Pour être parfaitement transparents, cet essai impliquera une intégration directe de nos wikis avec un service tiers propriétaire. C’est une nouveauté pour Wikimedia, et nous, en tant que Fondation, ne prenons pas cette décision à la légère. Cependant, il n’est pas réalisable pour nous de construire nous-mêmes un service capable de protéger les projets à notre époque. Les organisations spécialisées dans les services de détection de robots disposent d’une expertise et de ressources considérablement supérieures à la nôtre – spécialement pour le travail en continu consistant à suivre le jeu du chat et de la souris entre la détection et l’évitement des bots, qui évolue chaque année.

Nous avons toujours géré Wikipédia de la manière la plus respectueuse de la vie privée possible, ce qui nous a permis d’éviter les formes de divulgation d’informations et de suivi en ligne, devenues si courantes sur le web moderne. Pour maintenir cet engagement, nous avons configuré le système de telle sorte que hCaptcha ne puisse pas voir les adresses IP brutes des visiteurs, ni les actions spécifiques entreprises ou les URL consultées. Toute information sur les appareils des visiteurs collectée dans le cadre de la détection de bots sera supprimée par hCaptcha dans un délai de 10 jours.

En résumé, c’est l’occasion d’améliorer en même temps l’accessibilité et la sécurité des wikis, tout en limitant soigneusement l’impact sur la vie privée des utilisateurs. Voici quelques détails techniques supplémentaires sur son fonctionnement :

  • Contrairement à notre CAPTCHA actuel, avec cette nouvelle approche, le service fonctionnera principalement de manière invisible. La grande majorité des visiteurs (environ 99,9 %) ne verront jamais de puzzle à résoudre.
  • Les visiteurs qui verront un puzzle devront le compléter pour créer un compte. Il s’agit de puzzles visuels, mais pour les utilisateurs ayant des problèmes de vue ou d’autres besoins d’accessibilité, un puzzle basé sur du texte est disponible et peut être complété en utilisant uniquement un clavier.
  • Le service renverra un « score de risque » qui correspond à son niveau de confiance quant au fait que le compte a été créé par un utilisateur non authentique. Ce score de risque ne sera pas public, mais sera enregistré de manière privée pour permettre l’analyse et les réponses aux activités potentiellement automatisées par la Fondation Wikimedia et les enquêteurs bénévoles.
  • Les adresses IP des visiteurs ne seront pas envoyées au service – toutes les requêtes vers le service passent par un proxy que nous hébergeons nous-mêmes, qui supprime les IP brutes et utilise à la place des versions hachées.
  • Le code que nous chargeons depuis le service sera mis en sandbox (isolation) afin qu’il ne puisse pas voir ou interférer avec le contexte de la page de la session utilisateur, et pour que le service ne puisse pas voir l’URL spécifique de la page.
  • Consultez notre page projet pour plus de détails techniques.

Nous projetons également d’intégrer les données de détection de bots que nous obtiendrons grâce à ce système dans les outils que nous fournissons à nos enquêteurs bénévoles de confiance pour qu’ils puissent faire face aux faux-nez et à d’autres activités non authentiques. Cela s’inscrit dans notre effort plus large en matière de sûreté et de sécurité pour cette année, qui vise à intégrer davantage de signaux et d’outils de lutte contre les abus dans les wikis, et vous verrez certaines de ces idées dans nos plans publics à court terme.

À partir des prochaines semaines et sur plusieurs mois, nous analyserons la manière dont les bots interagissent avec les wikis, nous assurerons que hCaptcha ne rend pas accidentellement l’utilisation de Wikipédia plus difficile, et nous identifierons toute mesure supplémentaire que nous pourrions prendre en matière de protection de la vie privée et de sécurité. Nous examinerons cette analyse et nous engagerons un dialogue public avec les communautés sur le déroulement de l’essai avant de prendre des décisions concernant l’extension de l’utilisation de hCaptcha pour remplacer notre CAPTCHA actuel.

Nous resterons en contact avec les communautés tout au long de ce processus. Merci aux bénévoles qui ont déjà fourni des retours directs, qui ont contribué à façonner notre modèle de respect de la vie privée et notre mise en œuvre technique. Nous partagerons des mises à jour au fur et à mesure de l’avancement des travaux – veuillez partager vos réflexions sur notre page projet et vous abonner à l’infolettre de notre équipe pour rester informé.

Pouvez-vous nous aider à traduire cet article ?

Pour que cet article soit diffusé au plus grand nombre, nous avons besoin de votre aide. Pouvez-vous traduire cet article pour faire passer le message ?