¿Cómo afectan los indexadores web al funcionamiento de los proyectos Wikimedia?

Translate this post

La petición de contenidos creados por la comunidad de voluntarios de Wikimedia ha crecido significativamente desde principios de 2024, especialmente de los 144 millones de imágenes, vídeos y otros archivos de Wikimedia Commons. En esta publicación discutiremos las razones de esta tendencia y su impacto.

Los proyectos Wikimedia son la mayor colección de conocimiento abierto del mundo. Nuestros sitios son un destino inestimable para las personas que buscan información, y para todo tipo de empresas que acceden a nuestros contenidos de forma automática como aportación fundamental a sus productos. Sobre todo, el contenido ha sido un componente fundamental de los resultados de los motores de búsqueda, lo que a su vez ha hecho que las personas usuarias volvieran a nuestros sitios. Pero con el auge de la inteligencia artificial (IA), la dinámica está cambiando. Estamos observando un aumento significativo del volumen de solicitudes, y la mayor parte de este tráfico está impulsado por bots de scraping que recopilan datos de entrenamiento para grandes modelos lingüísticos (LLM) y otros casos de uso. Las solicitudes automatizadas de nuestros contenidos han crecido exponencialmente, junto con la economía tecnológica en general, a través de mecanismos como el scraping, las API y las descargas masivas. Esta expansión se ha producido en gran medida sin una atribución suficiente, lo cual es clave para impulsar a más personas a participar en el movimiento, y está causando una carga significativa en la infraestructura subyacente que mantiene nuestros sitios disponibles para todas y todos.

Una visión entre bastidores: El caso Jimmy Carter

Cuando Jimmy Carter murió en diciembre de 2024, su página en la Wikipedia en inglés recibió más de 2,8 millones de visitas en el transcurso de un día. Fue una cifra relativamente alta, pero manejable. Al mismo tiempo, bastantes usuarios reprodujeron un vídeo de una hora y media del debate presidencial de 1980 entre Carter y Ronald Reagan. Esto provocó un aumento del tráfico en la red, duplicando su ritmo normal. Como consecuencia, durante aproximadamente una hora un pequeño número de conexiones de Wikimedia a Internet se llenaron por completo, provocando tiempos de carga de página lentos para algunas personas. El repentino aumento del tráfico alertó a nuestro equipo de Fiabilidad del Sitio, que rápidamente pudo solucionar el problema cambiando las rutas por las que pasan nuestras conexiones a Internet para reducir la congestión. Aun así, esto no debería haber causado ningún problema, ya que la Fundación está bien equipada para gestionar picos de tráfico elevados durante acontecimientos excepcionales. ¿Qué pasó?

Hemos visto crecer en un 50% el ancho de banda utilizado para descargar contenidos multimedia desde enero de 2024. Este aumento no procede de personas lectoras, sino en gran medida de programas automatizados que rastrean el catálogo de imágenes con licencia abierta de Wikimedia Commons para alimentar con imágenes los modelos de inteligencia artificial. Nuestra infraestructura está preparada para soportar picos repentinos de tráfico humano durante eventos de gran interés, pero la cantidad de tráfico generado por bots indexadores web no tiene precedentes y presenta riesgos y costos crecientes.

El gráfico siguiente muestra que la demanda de ancho de banda de base para contenidos multimedia no ha dejado de crecer desde principios de 2024, y no hay indicios de que vaya a ralentizarse. Este aumento en el uso de base significa que tenemos menos espacio para dar cabida a eventos excepcionales en los que pueda producirse un aumento del tráfico, es decir, una cantidad significativa de nuestro tiempo y recursos se destina a responder al tráfico no humano.

El 65% de nuestro tráfico más caro procede de bots

La Fundación Wikimedia sirve contenidos a las personas a través de una red global de centros de datos. Esto nos permite ofrecer una experiencia más rápida y fluida a quienes nos leen en todo el mundo. Cuando un artículo se solicita varias veces, memorizamos —técnicamente almacenamos en caché— su contenido en el centro de datos más cercano a quien lo solicita. Si hace tiempo que no se solicita un artículo, su contenido debe servirse desde el centro de datos central. Entonces, la solicitud «viaja» desde la ubicación del usuario hasta el centro de datos central, busca la página solicitada y se la devuelve a la persona lectora, al tiempo que la almacena en caché en el centro de datos regional para cualquier persona posterior.

Mientras que los lectores humanos tienden a centrarse en temas específicos (a menudo similares), los robots rastreadores tienden a «leer en masa» un mayor número de páginas y a visitar también las menos populares. Esto significa que este tipo de peticiones es más probable que se reenvíen al centro de datos central, lo que resulta mucho más caro en términos de consumo de recursos.

Mientras realizábamos una migración de nuestros sistemas, nos dimos cuenta de que sólo una fracción del costoso tráfico que llegaba a nuestros centros de datos centrales se comportaba como lo harían normalmente los navegadores web, interpretando código javascript. Cuando miramos más de cerca, descubrimos que al menos el 65% de este tráfico que consume recursos que recibimos para el sitio web procede de bots, una cantidad desproporcionada dado que el total de páginas vistas procedentes de bots es de aproximadamente el 35% del total. Este elevado uso también está causando constantes trastornos a nuestro equipo de Fiabilidad del Sitio, que tiene que bloquear el tráfico abrumador de estos rastreadores antes de que cause problemas a nuestas personas lectoras.

Wikimedia no es la única que se enfrenta a este reto. Como señalamos en nuestro informe sobre tendencias mundiales para 2025, las empresas tecnológicas se apresuran a rastrear sitios web en busca de información creada y verificada por seres humanos. Los editores de contenidos, los proyectos de código abierto y los sitios web de todo tipo informan de problemas similares. Además, los indexadores web tienden a acceder a cualquier URL. Dentro de la infraestructura de Wikimedia, estamos observando indexado no sólo de los proyectos Wikimedia, sino también de sistemas clave de nuestra infraestructura de desarrolladores, como nuestra plataforma de revisión de código o nuestro rastreador de errores. Todo ello consume tiempo y recursos que necesitamos para apoyar los proyectos Wikimedia, y a las personas colaboradoras y a las lectoras.

Nuestros contenidos son gratuitos, nuestra infraestructura no: hacia un uso responsable de las infraestructuras

Ofrecer contenidos fiables también significa apoyar un modelo de «conocimiento como servicio», en el que reconocemos que todo Internet se nutre de los contenidos de Wikimedia. Pero esto tiene que ser sostenible para nosotros: ¿Cómo podemos seguir facilitando el trabajo de nuestra comunidad y, al mismo tiempo, poner límites al consumo automático de contenidos? ¿Cómo podemos canalizar a los desarrolladores y reutilizadores hacia canales de acceso preferentes y compatibles? ¿Qué orientación necesitamos para incentivar la reutilización responsable de contenidos?

Hemos empezado a trabajar para abordar estas cuestiones de forma sistemática y, en el próximo ejercicio fiscal de la Fundación, nos hemos centrado en establecer vías sostenibles para que desarrolladores y reutilizadores accedan a los contenidos del conocimiento. Puede obtener más información en nuestro proyecto de plan anual: WE5: Uso responsable de la infraestructura. Nuestros contenidos son gratuitos, pero nuestra infraestructura no: tenemos que actuar ahora para restablecer un equilibrio saludable, para que podamos dedicar nuestros recursos de ingeniería a apoyar y priorizar los proyectos Wikimedia, nuestras personas colaboradoras y el acceso humano al conocimiento.

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?