
Depuis début 2024, la demande pour le contenu créé par la communauté de bénévoles de Wikimedia – notamment pour les 144 millions d’images, vidéos et autres fichiers sur Wikimedia Commons – a considérablement augmenté. Dans cet article, nous expliquons les raisons de cette tendance et son impact.
Les projets Wikimedia constituent la plus grande collection de connaissances ouvertes au monde. Nos sites sont une destination précieuse pour les personnes en quête d’information et pour toutes sortes d’entreprises qui accèdent automatiquement à notre contenu comme élément clé de leurs produits. Plus particulièrement, le contenu a toujours été un élément essentiel des résultats des moteurs de recherche, ce qui a incité les utilisateurs à revenir sur nos sites. Mais avec l’essor de l’IA, la dynamique est en train de changer : nous observons une augmentation significative du volume de requêtes, la majeure partie de ce trafic étant générée par des robots de scraping qui collectent des données d’entraînement pour les grands modèles linguistiques (LLM) et d’autres cas d’utilisation. Les requêtes automatisées pour notre contenu ont connu une croissance exponentielle, parallèlement à l’économie technologique au sens large, via des mécanismes tels que le scraping, les API et les téléchargements groupés. Cette expansion s’est produite en grande partie sans attribution suffisante, pourtant essentielle pour inciter de nouveaux utilisateurs à participer au mouvement, et elle pèse lourdement sur l’infrastructure sous-jacente qui maintient nos sites accessibles à tous.
Un regard dans les coulisses : l’affaire Jimmy Carter
À la mort de Jimmy Carter en décembre 2024, sa page sur Wikipédia en anglais a enregistré plus de 2,8 millions de vues en une journée. Un chiffre relativement élevé, mais gérable. Au même moment, de nombreux utilisateurs ont visionné une vidéo d’une heure et demie du débat présidentiel de Carter avec Ronald Reagan en 1980. Cela a provoqué une augmentation du trafic réseau, doublant son débit normal. En conséquence, pendant environ une heure, quelques connexions de Wikimedia à Internet ont été entièrement saturées, ralentissant le chargement des pages pour certains utilisateurs. Cette soudaine augmentation de trafic a alerté notre équipe de fiabilité du site , qui a rapidement réagi en modifiant les chemins empruntés par nos connexions Internet afin de réduire la congestion. Cela n’aurait néanmoins pas dû poser de problème, la Fondation étant parfaitement équipée pour gérer les pics de trafic lors d’événements exceptionnels. Que s’est-il donc passé ?
Depuis janvier 2024, la bande passante utilisée pour le téléchargement de contenu multimédia a augmenté de 50 %. Cette augmentation ne provient pas des lecteurs humains, mais en grande partie des programmes automatisés qui extraient le catalogue d’images sous licence libre de Wikimedia Commons pour alimenter les modèles d’IA. Notre infrastructure est conçue pour supporter des pics de trafic humains soudains lors d’événements à fort intérêt, mais le volume de trafic généré par les robots d’extraction est sans précédent et présente des risques et des coûts croissants.
Le graphique ci-dessous montre que la demande de bande passante de base pour le contenu multimédia est en constante augmentation depuis début 2024, et rien ne laisse présager un ralentissement. Cette augmentation de l’utilisation de base signifie que nous disposons de moins de marge de manœuvre pour gérer des événements exceptionnels susceptibles de provoquer une augmentation du trafic : une part importante de notre temps et de nos ressources est consacrée à la gestion du trafic non humain.

65 % de notre trafic le plus cher provient des robots.
La Fondation Wikimedia diffuse du contenu à ses utilisateurs via un
réseau mondial de centres de données . Cela nous permet d’offrir une expérience plus rapide et plus fluide aux lecteurs du monde entier. Lorsqu’un article est demandé plusieurs fois, nous le mémorisons (ou le mettons en cache) dans le centre de données le plus proche de l’utilisateur. Si un article n’a pas été demandé depuis un certain temps, son contenu doit être diffusé depuis le centre de données principal. La requête « voyage » ensuite de l’emplacement de l’utilisateur jusqu’au centre de données principal, recherche la page demandée et la renvoie à l’utilisateur, tout en la mettant en cache dans le centre de données régional pour les utilisateurs suivants.
Alors que les lecteurs humains ont tendance à se concentrer sur des sujets spécifiques, souvent similaires, les robots d’exploration ont tendance à « lire en masse » un plus grand nombre de pages et à visiter également les pages les moins populaires. Cela signifie que ces types de requêtes sont plus susceptibles d’être transmises au centre de données principal, ce qui augmente considérablement la consommation de nos ressources.
Lors de la migration de nos systèmes, nous avons constaté que seule une fraction du trafic coûteux transitant par nos principaux centres de données se comportait comme le font habituellement les navigateurs web, c’est-à-dire interprétant le code JavaScript. En y regardant de plus près, nous avons découvert qu’au moins 65 % de ce trafic gourmand en ressources pour notre site web provenait de robots, une proportion disproportionnée compte tenu du nombre total de pages vues par ces derniers, qui représente environ 35 % du total. Cette utilisation intensive perturbe également constamment notre équipe chargée de la fiabilité du site, qui doit bloquer le trafic excessif provenant de ces robots d’exploration avant qu’il ne cause des problèmes à nos lecteurs.
Wikimedia n’est pas la seule à faire face à ce défi. Comme indiqué dans notre
rapport sur les tendances mondiales 2025 , les entreprises technologiques se précipitent pour extraire des informations créées et vérifiées par des humains sur les sites web. Les éditeurs de contenu , les projets open source et les sites web de toutes sortes signalent des problèmes similaires. De plus, les robots d’exploration ont tendance à accéder à n’importe quelle URL. Au sein de l’infrastructure Wikimedia, nous observons du scraping non seulement sur les projets Wikimedia, mais aussi sur des systèmes clés de notre infrastructure de développement, tels que notre plateforme de révision de code ou notre outil de suivi des bugs. Tout cela consomme du temps et des ressources dont nous avons besoin pour soutenir les projets, les contributeurs et les lecteurs de Wikimedia.
Notre contenu est gratuit, notre infrastructure ne l’est pas : Établir une utilisation responsable de l’infrastructure.
Fournir un contenu fiable implique également de soutenir un modèle de « connaissance en tant que service », où nous reconnaissons qu’Internet tout entier s’appuie sur le contenu Wikimedia. Mais cela doit se faire de manière durable pour nous : comment pouvons-nous continuer à soutenir notre communauté, tout en limitant la consommation automatique de contenu ? Comment pouvons-nous orienter les développeurs et les réutilisateurs vers des canaux d’accès privilégiés et pris en charge ? De quelles orientations avons-nous besoin pour encourager une réutilisation responsable du contenu ?
Nous avons commencé à travailler à la résolution systémique de ces questions et avons mis l’accent sur la mise en place de moyens durables pour les développeurs et les réutilisateurs d’accéder au contenu de la connaissance au cours du prochain exercice financier de la Fondation. Pour en savoir plus, consultez notre projet de plan annuel : WE5 : Utilisation responsable des infrastructures . Notre contenu est gratuit, mais pas notre infrastructure : nous devons agir dès maintenant pour rétablir un équilibre sain, afin de pouvoir consacrer nos ressources d’ingénierie au soutien et à la priorisation des projets Wikimedia, de nos contributeurs et de l’accès humain à la connaissance.

Pouvez-vous nous aider à traduire cet article ?
Pour que cet article soit diffusé au plus grand nombre, nous avons besoin de votre aide. Pouvez-vous traduire cet article pour faire passer le message ?
Commencer la traduction