Busca semântica: facilitando que as pessoas leitoras encontrem a informação que querem

Translate this post

Como você encontra o que está buscando na Wikipédia?

Se as pessoas leitoras sabem o exato artigo que querem ler (por exemplo, Gato), algumas podem ir para a Wikipédia e digitá-lo no campo de busca. 

Mas se elas têm uma pergunta – por exemplo, Gatos conseguem ver no escuro? – é muito mais provável que elas vão para um mecanismo de busca externo e façam a pergunta. Aí elas talvez cliquem pelos resultados e cheguem no artigo relevante da Wikipédia, ou apenas leiam a prévia de um artigo gerada pelo mecanismo de busca sem entrar no site. Hoje, estima-se que 78% das sessões de leitura na Wikipédia comecem em mecanismos de busca externos, com cerca de 90% delas vindo de buscas no Google.

O valor da Wikipédia reside no fornecimento de conteúdo confiável, feito por e para humanos. Se queremos que o mundo use e aprecie esse conteúdo, ele precisa conseguir encontrá-lo, sem que o material seja remixado e regurgitado por uma IA numa plataforma de uma big tech. Quando as pessoas leitoras consistentemente acham mais fácil acessar o conteúdo da Wikipédia por outros sites, a Wikipédia corre o risco de se tornar uma fonte de dados em segundo plano em vez de um destino para aprendizado, curiosidade e alegria.

Nesta postagem, explicamos por que a busca na Wikipédia não atende a muitas pessoas leitoras hoje, o que as nossas pesquisas mostram sobre como as pessoas realmente buscam e como estamos explorando a busca semântica em parceria com pessoas editoras.

O problema: pessoas leitoras frequentemente não conseguem encontrar o que querem na Wikipédia

Resultados atuais (janeiro de 2026) por meio de busca por palavras-chave dentro do site.

Como o exemplo acima mostra, a busca na Wikipédia não é muito efetiva se alguém tem uma pergunta ou quer explorar um tópico que não se acomoda apenas em um único artigo. Quando pessoas leitoras se deparam com esse atrito, elas frequentemente recorrem a grandes mecanismos de busca. O tipo de busca que eles oferecem – frequentemente chamada de busca semântica – vai além da combinação de palavras ao usar aprendizado de máquina para entender a intenção da pessoa usuária.

Explorando a busca semântica na Wikipédia

Para lidar com esta lacuna, uma equipe interdisciplinar na Fundação Wikimedia — o grupo de trabalho de Recuperação de Informação — está trabalhando na melhoria da busca dentro da plataforma para que as pessoas leitoras possam encontrar o que estão procurando diretamente na Wikipédia.

Particularmente, estamos explorando questões como:

  • Com que frequência as pessoas leitoras chegam com perguntas ou consultas exploratórias, em vez de um artigo específico em mente?
  • Em que situações a busca por palavras-chave dificulta que as pessoas leitoras encontrem informações relevantes?
  • Abordagens baseadas em significado poderiam ajudar as pessoas leitoras a encontrar artigos e seções existentes da Wikipédia mais efetivamente?
  • Que riscos, limitações ou escolhas devem ser cuidadosamente considerados antes de seguir investigando isto?

Enquanto alguns mecanismos de busca agora colocam resumos gerados por IA no topo do resultado das buscas, isto é uma funcionalidade separada do que estamos explorando aqui. Este trabalho foca em tirar proveito da busca semântica para revelar melhor artigos e seções da Wikipédia existentes e criados por pessoas editoras, e não em gerar novas respostas e resumos.

Resultados da pesquisa

O grupo de trabalho completou recentemente um relatório de pesquisa com base em pesquisa de design, prototipagem técnica e feedback da comunidade para testar se este problema é real e se melhorar a busca ajudaria significativamente as pessoas leituras. Segue um resumo do que aprendemos:

1. Cerca de 98% das sessões de leitura da Wikipédia vêm de fora da pesquisa na Wikipédia.

  • O pequeno grupo que usa a busca interna tem muito mais probabilidade de ser composto de pessoas editoras do que leitoras casuais. A maior parte das pessoas leitoras navega entre artigos voltando a mecanismos de busca externos, mesmo quando ligações existem dentro da própria Wikipédia.

2. Cerca de 80–95% das sessões de busca dentro da wiki usam sugestões automáticas (autocomplete).

  • A preferência pelas sugestões automáticas – aquelas que aparecem à medida que alguém digita – mostra que pequenas melhorias na velocidade podem ter um grande impacto.

3. Entre 4–7% das consultas de busca na Wikipédia são escritas como perguntas, mas essas consultas têm menos chance de sucesso.

  • Enquanto estas são uma minoria das buscas, elas mostram que algumas pessoas leitoras as tentam e que muitas outras provavelmente as evitam porque aprenderam que não funcionam.

O que vem a seguir: experimentação e discussão com a comunidade

Com base nesta pesquisa, acreditamos que uma abordagem de busca híbrida, combinando busca semântica e por palavra-chave, tem o maior potencial para ajudar as pessoas leitoras a encontrarem informações mais facilmente. Em testes iniciais, combinar ambas produziu os resultados mais relevantes e a maior satisfação entre as pessoas leitoras.

Nosso próximo passo é um experimento em pequena escala que testa uma experiência de busca híbrida na Wikipédia. Os resultados deste experimento, juntamente ao feedback de pessoas editoras, ajudará a determinar se e como a busca semântica deveria se tornar parte das ferramentas de busca da Wikipédia.

Nós documentaremos o progresso no Meta-Wiki e no MediaWiki e compartilharemos atualizações por meio de Esplanadas, newsletters, chamadas comunitárias e eventos. Comentários de pessoas editoras, especialmente sobre riscos e escolhas, moldarão diretamente se e como a busca semântica será desenvolvida, testada ou pausada.

O valor da Wikipédia está enraizado em conhecimento confiável e criado por humanos. Ao melhorar a busca, podemos ajudar mais as pessoas a encontrarem esse conhecimento, explorarem o que amam e seguirem retornando.

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?