Wie Crawler den Betrieb der Wikimedia-Projekte beeinflussen

Translate this post

Seit Anfang 2024 ist die Nachfrage nach den von der Wikimedia-Community erstellten Inhalten – insbesondere den 144 Millionen Bildern, Videos und anderen Dateien auf Wikimedia Commons – deutlich gestiegen. In diesem Beitrag werden wir die Gründe für diesen Trend und seine Auswirkungen erörtern.
Die Wikimedia-Projekte sind die größte offenen Wissens-Sammlungen der Welt. Unsere Seiten sind unersetzliche Quellen für Menschen, die auf der Suche nach Informationen sind, und für Unternehmen, die automatisch auf unsere Inhalte zugreifen und diese in ihre Produkte einfließen lassen. Vor allem aber finden sich die Inhalte in Suchmaschinenergebnissen, was wiederum Nutzer*inne auf unsere Websites bringt. Mit dem Aufkommen künstlicher Intelligenz ändert sich diese Dynamik: Wir beobachten einen erheblichen Anstieg des Anfragevolumens, wobei der größte Teil des Verkehrs von Scraping-Bots verursacht wird, die Trainingsdaten für große Sprachmodelle (LLMs) und andere Anwendungen sammeln. Die automatisierten Anfragen haben parallel zur allgemeinen Technologiewirtschaft über Mechanismen wie Scraping, APIs und Massendownloads exponentiell zugenommen. Dies hat zwei Auswirkungen: Erstens fehlen aufgrund der fehlenden Kennzeichnung die Ermutigung neuer Ehrenamtlicher zu den Wikimedia Projekten beizutragen. Zweitens führt der Traffic zu einer erheblichen Belastung der zugrundeliegenden technischen Infrastruktur.

Ein Blick hinter die Kulissen: Der Fall Jimmy Carter

Als Jimmy Carter im Dezember 2024 starb, wurde seine Seite in der englischsprachigen Wikipedia innerhalb eines Tages mehr als 2,8 Millionen Mal aufgerufen. Das war relativ viel, aber überschaubar. Zur gleichen Zeit spielten einige Benutzer*innen ein 1,5 Stunden langes Video von Carters Präsidentschaftsdebatte mit Ronald Reagan im Jahr 1980 ab. Dies führte zu einer Verdopplung des Traffics. Infolgedessen war eine kleine Anzahl von Wikimedia-Verbindungen zum Internet für etwa eine Stunde vollständig ausgelastet, was bei einigen Benutzer*innen zu langsamen Ladezeiten führte. Der plötzliche Anstieg des Datenverkehrs alarmierte unser Site Reliability Team, das schnell Abhilfe schaffen konnte. Durch eine Umlenkung der Pfade, die unsere Internetverbindungen durchlaufen, gelang es die Überlastung zu verringern. Dennoch hätte dies eigentlich nicht passieren dürfen, da die Server der Wikimedia Foundation hohe Traffic-Spitzen im Normalfall aushalten. Was ist also passiert?

Seit Januar 2024 ist die für das Herunterladen von Multimedia-Inhalten verwendete Bandbreite (die maximale Geschwindigkeit, mit der Daten über eine Internetverbindung übertragen werden können) um 50 % gestiegen. Dieser Anstieg stammt nicht etwa von menschlichen Usern, sondern größtenteils von automatisierten Programmen, die den Wikimedia-Commons-Bilderkatalog mit offen lizenzierten Bildern durchforsten, um KI-Modelle mit Bildern zu füttern. Unsere Infrastruktur ist darauf ausgelegt, plötzliche – menschengemachte – Traffic-Spitzen bei Ereignissen von hohem Interesse zu bewältigen. Die von Scraper-Bots erzeugte Datenverkehrsmenge ist beispiellos und verusacht wachsende Risiken und Kosten.

Die folgende Grafik zeigt, dass die Basis-Bandbreitennachfrage für Multimedia-Inhalte seit Anfang 2024 stetig gestiegen ist – und es gibt keine Anzeichen für eine Verlangsamung. Dieser Anstieg bedeutet, dass wir weniger Spielraum haben, um außergewöhnliche Ereignisse zu bewältigen, wenn es zu einem Traffic-Spitze kommt: Ein erheblicher Teil unserer Zeit und unserer Ressourcen wird darauf verwendet, auf nicht-menschlichen Traffic zu reagieren.

Multimedia Bandbreiten-nachfrage für die Wikimedia-Projekte.

65 % unseres teuersten Datenverkehrs stammt von Bots

Die Wikimedia Foundation stellt ihren Nutzenden Inhalte über ein globales Netzwerk von Rechenzentren zur Verfügung. Dadurch können Leser*innen auf der ganzen Welt schnell und nahtlos Inhalte aufrufen. Wenn ein Artikel mehrfach angefordert wird, speichern wir seinen Inhalt in dem Rechenzentrum, das dem Nutzer am nächsten liegt. Wenn ein Artikel eine Zeit lang nicht angefordert wurde, muss sein Inhalt vom zentralen Rechenzentrum bereitgestellt werden. Die Anfrage „reist“ dann den ganzen Weg vom Standort des Nutzers zum zentralen Rechenzentrum, sucht die angeforderte Seite und liefert sie dem Nutzer zurück, während sie gleichzeitig im regionalen Rechenzentrum für jeden nachfolgenden Nutzer zwischengespeichert wird.

Während menschliche Nutzende dazu neigen, sich auf bestimmte – oft ähnliche – Themen zu konzentrieren, neigen Crawler-Bots dazu, eine größere Anzahl von Seiten zu „lesen“ und auch die weniger beliebten Seiten zu besuchen. Das bedeutet, dass diese Art von Anfragen mit größerer Wahrscheinlichkeit an das zentrale Rechenzentrum weitergeleitet werden, wodurch erheblich mehr unserer Ressourcen verbraucht werden.

Bei einer Migration unserer Systeme stellten wir fest, dass nur ein Bruchteil des teuren Datenverkehrs, der auf unsere Kernrechenzentren traf, sich so verhielt, wie es Webbrowser normalerweise tun, nämlich bei der Interpretation von Javascript-Code. Bei näherer Betrachtung stellten wir fest, dass mindestens 65 % des ressourcenintensiven Datenverkehrs, den wir für die Website erhalten, von Bots stammt – ein unverhältnismäßig hoher Anteil, wenn man bedenkt, dass die gesamten Seitenaufrufe durch Bots etwa 35 % der Gesamtzahl ausmachen. Dies verursacht auch ständige Störungen für unser Site Reliability Team, das jedes Mal Traffic-Spitzen durch Crawler blockieren muss, bevor sie Probleme für unsere Leser verursacht.

Wikimedia ist mit dieser Herausforderung nicht allein. Wie im Bericht „Globale Trends 2025“ erwähnt, wetteifern Technologieunternehmen darum, Websites nach von Menschen erstellten und verifizierten Informationen zu durchsuchen. Content publishers, Open-Source-Projekte und Websites aller Art berichten über ähnliche Probleme. Außerdem neigen Crawler dazu, auf jede URL zuzugreifen. Innerhalb der Wikimedia-Infrastruktur beobachten wir Scraping nicht nur bei den Wikimedia-Projekten, sondern auch bei wichtigen Systemen in unserer Entwickler-Infrastruktur, wie unserer Code-Review-Plattform oder unserem Bug-Tracker. All dies verbraucht Zeit und Ressourcen, die wir für die Wikimedia-Projekte, Mitwirkende und Leser benötigen.

Unsere Inhalte sind kostenlos, unsere Infrastruktur ist es nicht: Verantwortungsvolle Nutzung der Infrastruktur


Vertrauenswürdige Inhalte zu liefern bedeutet auch, ein „Wissen als Dienstleistung“-Modell zu unterstützen, bei dem wir anerkennen, dass das gesamte Internet auf Wikimedia-Inhalte zurückgreift. Dies muss jedoch nachhaltig sein: Wie können wir unsere Communitys weiterhin unterstützen, während wir gleichzeitig dem automatisiertem Konsum von Inhalten Grenzen setzen? Wie können wir Entwickler*innen und Wiederverwender in bevorzugte, unterstützte Zugangskanäle leiten? Welche Leitlinien brauchen wir, um eine verantwortungsvolle Wiederverwendung von Inhalten zu incentivieren?

Die Wikimedia Foundatiom hat begonnen, diese Fragen systematisch anzugehen. Wir haben uns für das kommende Geschäftsjahr vorgenommen, nachhaltige Wege für Entwickler und Wiederverwender für den Zugang zu Wissensinhalten zu schaffen. Mehr dazu in unserem Entwurf des Jahresplans : WE5: Verantwortungsvolle Nutzung der Infrastruktur. Unsere Inhalte sind kostenlos, unsere Infrastruktur ist es nicht: Wir müssen jetzt handeln, um ein gesundes Gleichgewicht wiederherzustellen, damit wir unsere technischen Ressourcen der Unterstützung und Priorisierung der Wikimedia-Projekte, unserer Mitwirkenden und des menschlichen Zugangs zu Wissen widmen können.

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?