Todos os grandes websites, incluindo a Wikipédia, lidam com bots maliciosos – algo que vem piorando na internet de hoje. A Wikipédia precisa de ferramentas mais robustas para se defender de atividades maliciosas automatizadas (incluindo aquelas feitas com IA). Nós, da Fundação Wikimedia, escrevemos em abril sobre a necessidade de proteger nossos servidores contra o uso abusivo de webscrapers que coletam o conteúdo dos projetos Wikimedia para treinamento de dados. Nesta publicação, falamos sobre uma nova maneira de proteger a Wikimedia de bots maliciosos que realizam atividades geralmente destinadas a humanos, como criar contas e editar páginas.
Para isso, estamos testando um novo serviço de detecção de bots na Wikipédia. Começaremos aplicando-o à criação de contas e poderemos expandi-lo posteriormente para proteger edições ou outras ações sensíveis.
Nosso objetivo é estabelecer as bases para uma melhor defesa contra vandalismo automatizado, tal como as edições massivas de substituições de palavras que a Wikipédia em inglês sofreu em julho e tentativa automatizada de invasão de contas que enfrentamos em março. Também queremos estar mais bem preparados contra fantoches automatizados que podem alterar o conteúdo das páginas ou afetar os processos internos e, assim, proteger a integridade e o consenso comunitário.
Este novo serviço de detecção de bots substituirá o uso do nosso CAPTCHA atual, um desafio visual básico de “digite a palavra” gerado por um software que remonta aos anos 2000. Em termos simples, este sistema vem de uma era anterior da web e não está equipado para se defender contra invasores modernos equipados com IA. Também recebemos muitos comentários de que o CAPTCHA atual é problemático para os usuários.
O serviço que testaremos é o hCaptcha, um serviço externo, especializado em detecção de bots. Eles têm um foco específico em clientes que se preocupam com a privacidade, incluindo o Signal e muitos outros serviços de internet, o que os torna uma boa opção para a Wikipédia.
Neste teste, queremos saber o quão bem o hCaptcha consegue interromper ou desacelerar a atividade de bots e o quanto ele ajuda as pessoas de verdade a usarem a Wikipédia com mais facilidade.
Gostaríamos de deixar claro que este teste envolverá a integração direta de wikis com um serviço de terceiros. Isso é novo para a Wikimedia e é algo que nós, como Fundação, levamos muito a sério. No entanto, não é viável construirmos um serviço que consiga manter os projetos seguros nestes novos tempos. Organizações dedicadas à execução de serviços de detecção de bots têm muito mais experiência e recursos a oferecer do que nós – especialmente o trabalho contínuo de acompanhar o jogo de gato e rato da detecção e evasão de bots, que muda a cada ano.
Sempre operamos a Wikipédia da maneira com a maior preocupação possível no que diz respeito à privacidade, o que nos ajudou a evitar o tipo de compartilhamento de informações e o rastreamento online que se tornaram tão comuns na internet moderna. Para manter esse compromisso, configuramos o hCaptcha para que ele não possa ver os endereços IP dos visitantes, nem saiba quais ações específicas estão sendo realizadas ou quais URLs estão sendo acessadas. Quaisquer informações sobre os dispositivos dos visitantes que sejam coletadas como parte da detecção de bots serão descartadas pelo hCaptcha em até 10 dias.
No geral, esta é uma oportunidade de melhorar a acessibilidade e a segurança das wikis simultaneamente, limitando cuidadosamente o impacto na privacidade do usuário. Para mais detalhes técnicos sobre como isso irá acontecer:
- Ao contrário do nosso CAPTCHA atual, com esta nova abordagem, o serviço funcionará de forma invisível. A maioria dos visitantes (cerca de 99,9%) nunca verá um desafio para resolver.
- Os visitantes que visualizarem um desafio precisarão concluí-lo para criar uma conta. Trata-se de desafios visuais, mas para usuários com deficiência visual ou outras necessidades de acessibilidade, haverá desafios baseados em texto que podem ser concluídos usando apenas o teclado.
- O serviço nos enviará uma “pontuação de risco”, que representa a probabilidade de que a conta foi criada por um usuário não autêntico. Essa pontuação de risco não será pública, mas será salva de forma privada para permitir análises e respostas a atividades potencialmente controladas por bots pela WMF e pelos verificadores de contas da comunidade.
- Os endereços IP dos usuários não serão enviados ao hCaptcha – toda a comunicação irá passar por um servidor proxy que hospedamos, que substitui os IPs reais por versões em hash.
- O código que carregamos do hCaptcha será colocado em sandbox para que não possam ver ou interferir no contexto da página da sessão do usuário e para não possam ver o URL específico da página.
- Consulte a página do projeto para mais detalhes técnicos.
Nosso planejamento é incorporar os dados de detecção de bots obtidos nas ferramentas que fornecemos aos nossos verificadores de contas da comunidade, para que possam melhor combater os sockspuppets e outras atividades não autênticas. Isso faz parte do nosso esforço em segurança e proteção deste ano, ao incorporar mais sinais e ferramentas antiabuso nas wikis, e você verá algumas dessas ideias em nossos planos públicos de curto prazo.
A partir das próximas semanas e ao longo de vários meses, analisaremos como os bots estão interagindo com as wikis, garantindo que o hCaptcha não esteja dificultando o uso da Wikipédia e identificando quaisquer medidas adicionais de privacidade e segurança que possamos adotar. Revisaremos essa análise e nos comunicaremos publicamente com as comunidades sobre o andamento do teste antes de tomarmos decisões sobre a expansão do uso do hCaptcha para substituir o nosso CAPTCHA atual.
Manteremos contato com as comunidades durante todo este processo. Agradecemos aos voluntários que nos forneceram feedback diretamente até agora, o que ajudou a moldar nosso modelo de privacidade e implementação técnica. Compartilharemos atualizações conforme o andamento deste trabalho – compartilhe suas ideias em nossa página do projeto e assine a newsletter da nossa equipe para manter contato.
Can you help us translate this article?
In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?
Start translation