Quo vadis, Crawler? Fortschritte und die nächsten Schritte beim Schutz unserer Infrastruktur

Translate this post

Vor einem Jahr berichtete die Wikimedia Foundation von einem deutlichen Anstieg des Bot-Traffics auf den Wikimediaprojekten, der größtenteils von Crawlern stammte, die Inhalte extrahieren, um generative KI-Systeme zu trainieren. Wir haben über den Einfluss dieser Crawler berichtet und unseren Aktionsplan vorgestellt, um eine gerechtere Nutzung unserer Ressourcen sicherzustellen. Schauen wir uns an, welche Fortschritte wir beim Schutz unserer Infrastruktur gemacht haben, was wir dabei gelernt haben und welche nächsten Schritte anstehen.

Zusammenfassung: Hohe Nachfrage, erhöhte Belastung, geringere Transparenz

Da generative KI zunehmend auf hochwertige, von Menschen erstellte Inhalte zurückgreift, ist der automatisierte Traffic auf Wikimedia-Seiten stark angestiegen. Die Inhalte von Wikimedia sind zwar kostenlos, die Infrastruktur, die sie bereitstellt, ist es jedoch nicht. Crawler greifen in der Regel auf jeden Teil des Wikimedia-Ökosystems zu – Artikel, Mediendateien und Entwicklerplattformen –, was das Risiko einer Überlastung der Systeme birgt und den Einfluss auf die Erfahrung unserer Leser und Beitragenden beeinträchtigt. Gleichzeitig führen LLM-gestützte Features wie Such-Zusammenfassungen oder Chatbots dazu, dass Benutzer die Informationsquelle seltener kennen oder Links folgen, wie aktuelle Studien gezeigt haben. Im gesamten Web verzeichnen Publisher mehr Bot-Traffic und weniger menschliche Benutzer/innen – ein Trend, den wir ebenfalls beobachten. Das führt zu einem Ungleichgewicht: Es werden immer mehr Inhalte extrahiert, während immer weniger Menschen dazu beitragen, sie aufrechtzuerhalten.

Wie sieht ein Open-Access-Modell aus, wenn sich so viele nicht an die Regeln halten? Was müssen wir ändern, um eine Nachhaltigkeit bei der Nutzung unserer Infrastruktur zu ermöglichen – und durchzusetzen? Diese und andere Fragen haben unseren Ansatz geprägt. Anstatt zu fragen: „Wie können wir die Weiterverwendung verhindern?“, haben wir darüber nachgedacht, wie wir eine nachhaltige, verantwortungsvolle Weiterverwendung ermöglichen können.

Vorrang für Menschen und missionsorientierten Datenverkehr

Wir sorgen für eine faire Auslastung, indem wir unseren Lesern sowie den Autoren von Inhalten und technischen Beitragenden Vorrang beim Zugriff einräumen, missbräuchlichen Datenverkehr blockieren und Unternehmen, die in großem Umfang auf unsere Daten zugreifen möchten, dazu auffordern, unsere Wikimedia Enterprise-Dienste zu nutzen, die für Anwendungsfälle mit hohem Datenaufkommen konzipiert sind, anstatt Seiten zu scrapen oder die Ressourcen der Community zu überbeanspruchen.

Um das zu erreichen, haben wir unsere Bot-Richtlinie aktualisiert, um klare Erwartungen zu formulieren, unsere Tools zur Bot-Erkennung und -Abwehr verbessert und investieren in unsere API-Infrastruktur, um eine zentrale Verwaltung, verbesserte Governance und eine optimierte Entwicklererfahrung für unsere bevorzugten Zugriffswege zu ermöglichen.

Lesende, Beitragende, verantwortungsbewusste Bots und missbräuchliche Bots nutzen alle dieselben Zugriffspunkte auf unsere Websites und unsere Infrastruktur. Wir haben unsere Arbeit daher mit größter Sorgfalt koordiniert, um den Einfluss auf unsere Lese- und Bearbeitungscommunity so gering wie möglich zu halten, mit dem Ziel, niemanden daran zu hindern, auf unsere Projekte zuzugreifen.

Als Ergebnis dieser Arbeit blockieren oder drosseln wir derzeit etwa 25 % aller automatisierten Anfragen, die von Crawlern stammen, die sich nicht an unsere Richtlinien halten (bis zu Milliarden von Anfragen pro Tag). Da wir unsere Erkennungsmechanismen weiter verbessern, gehen wir davon aus, dass diese Zahl steigen wird. Anfang dieses Monats haben wir außerdem damit begonnen, globale Ratenbegrenzungen für den API-Verkehr einzuführen, wobei eine zweite Einführungsphase für April 2026 geplant ist.

Crawler-Anfragen, die täglich blockiert werden (in Milliarden)
Crawler-Anfragen, die täglich blockiert werden (in Milliarden)

Sowohl das Crawlen der Website als auch die Nutzung der APIs sind für jeden innerhalb der Grenzen der Bot-Richtlinie weiterhin möglich. Scraping mit höheren Raten ist generell eingeschränkt. Höhere Ratenlimits für die APIs zu erhalten, ist jedoch leicht möglich und die bevorzugte Zugriffsmethode. Die Faustregel lautet: Je stärker die bereitgestellte Identifizierung, desto höher das gewährte Limit. Da wir den Einfluss auf unsere technische Community minimieren wollen, gibt es mehrere Optionen für Beitragende, ihre Bots und Tools zu identifizieren und bei Bedarf höhere Limits zu erhalten. Bot-Besitzer, die sich nicht sicher sind, wie sie die benötigten Bedarfe decken, können die Wikimedia Foundation kontaktieren.

Guter Bot, böser Bot oder Mensch? Wie man legitime Benutzer/innen von missbräuchlichen Bots unterscheidet

Eine Voraussetzung dafür, den Zugriff für Menschen und missionsorientierten Datenverkehr zu priorisieren und Missbrauch zu verhindern, ist die Fähigkeit, legitime Benutzer/innen (sowohl Bots als auch Menschen) von missbräuchlichen Bots zu unterscheiden. Früher gab es weniger missbräuchliche Bots, und sie waren leichter zu identifizieren. Und traditionelle Webcrawler wie Suchmaschinen-Bots hielten sich an bewährte Praktiken: Sie verlangsamten ihre Geschwindigkeit, wenn der Server Fehler zurückgab, und bemühten sich, in den Serverprotokollen leicht zu identifizieren zu sein. Außerdem brachten sie Besucher zurück auf die Seiten, indem sie Seiten indexierten und in den Suchergebnissen anzeigten, sodass alle davon profitierten. Darüber hinaus verlassen sich die Wikimedia-Communities auf ihre eigenen Bots und maßgeschneiderten Tools, um Arbeitsabläufe von der Erstellung von Inhalten bis hin zur Überwachung auf Vandalismus zu unterstützen und zu beschleunigen.

Diese neue Generation von Bots ignoriert jedoch regelmäßig bisherige Erfahrungen und verhält sich ungebührlich: Sie senden Anfragen so schnell sie können, täuschen die Identität echter Webbrowser vor und umgehen Ratenbeschränkungen. Bots als Gegner zu betrachten, war für uns eine neue Erfahrung und zwang uns dazu, unsere Bot-Erkennung in vielen Iterationen zu verbessern.

Bots, die ihre Spuren verwischen: Ein räuberisches Geschäftsmodell

Viele moderne Bots agieren außerhalb der etablierten Regeln des Internets, ignorieren die von Website-Betreibern auferlegten Beschränkungen und extrahieren Daten so schnell wie möglich, ohne Rücksicht auf die Stabilität der Host-Websites. Als Reaktion darauf haben Website-Betreiber begonnen, strengere Ratenbeschränkungen für Anfragen aus Rechenzentren und von einzelnen Quellen einzuführen. Als Folge davon greifen Crawling-Betreiber jedoch auf ein zwielichtiges Netzwerk sogenannter „Residential Proxies“ zurück – Unternehmen, die den Zugang zu privaten Heim- oder Mobilfunkverbindungen verkaufen, um ihre Datenextraktion im legitimen Browsing-Verkehr zu verbergen. In dieser neuen Welt kann ein Website-Betreiber kaum etwas tun, um die Flut zu stoppen, da diese Netzwerke Hunderte Millionen von IP-Adressen umfassen können, ohne Benutzer/innen in irgendeiner Weise zu identifizieren. Vielleicht ist dir aufgefallen, dass du auf vielen Websites mittlerweile aufgefordert wirst, „zu bestätigen, dass du ein Mensch bist“, bevor du Zugriff erhältst; diese Netzwerke sind höchstwahrscheinlich der Grund für diese Verhaltensänderung und der Grund, warum gemeinschaftsorientierte Seiten des Wissens wie unsere (und OpenStreetMap) ihr Bestes tun, um dasselbe zu tun, während sie gleichzeitig das Recht unserer Benutzer/innen respektieren, nicht umfassend getrackt zu werden.

Ein Blick in die Zukunft: Auf Bedrohungen reagieren und die Chancen der Wiederverwendung erkunden

In den kommenden Monaten wollen wir unsere Erkennungssysteme weiter verbessern, um sie an das sich schnell ändernde Verhalten von Bots (wie z. B. Residential-Proxys) anzupassen; wir werden weiterhin API-Ratenbeschränkungen einführen und optimieren sowie in unsere API-Infrastruktur investieren. Dazu gehört auch die Fertigstellung einer speziellen Attribution-API, die es Wiederverwendern erleichtert, Wege zur Auffindbarkeit bereitzustellen. Außerdem haben wir damit begonnen, unsere Medieninfrastruktur zu verbessern, um die Plattform widerstandsfähiger gegen umfangreiches Scraping zu machen.

Während wir die nächste Phase dieser Arbeit planen, prüfen wir auch Möglichkeiten, die über den Schutz unserer Infrastruktur hinausgehen: Wir wollen Wege finden, um sicherzustellen, dass die Wiederverwendung von Inhalten langfristig von Nachhaltigkeit geprägt ist – unter anderem, indem wir dazu beitragen, dass Beitragende wieder zu uns zurückkehren – und um die Auffindbarkeit und die Entwicklererfahrung rund um die APIs, unsere bevorzugten Zugangskanäle, weiter zu verbessern.Während wir die nächste Phase dieser Arbeit planen, prüfen wir auch Möglichkeiten, die über den Schutz unserer Infrastruktur hinausgehen: Wir wollen Wege finden, um sicherzustellen, dass die Wiederverwendung von Inhalten langfristig von Nachhaltigkeit geprägt ist – unter anderem, indem wir dazu beitragen, dass Beitragende wieder zu uns zurückkehren – und um die Auffindbarkeit und die Entwicklererfahrung rund um die APIs, unsere bevorzugten Zugangskanäle, weiter zu verbessern.

Auch wenn noch einiges zu tun ist, um diese Initiative abzuschließen und vor neuen Formen des Missbrauchs zu schützen, haben wir bisher große Fortschritte gemacht. Ohne die Unterstützung unserer großartigen Entwickler-Community wäre das nicht möglich gewesen – vielen Dank an alle, die ihren Code mit Updates auf die neuesten Best Practices aktualisiert haben, Feedback gegeben, Fragen gestellt, anderen Entwicklern geholfen oder Fehler gemeldet haben!

Wir werden weiterhin über diese Arbeit in Mailinglisten und Blogbeiträgen berichten – bleibt dran für das nächste Update!

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?