📚 Continue Lendo
Mais artigos do nosso blog
A **Wikimedia está tornando o Wikidata mais acessível e otimizado para IA**, visando facilitar a pesquisa e o uso de seus extensos dados por desenvolvedores e modelos de inteligência artificial. O projeto irmão da Wikipédia, Wikidata, anunciou a incorporação de uma nova base de dados estruturada de maneira mais intuitiva para ingestão por modelos de linguagem grandes, prometendo um avanço significativo na democratização do acesso à informação curada.
Desde a sua concepção, o Wikidata serve como um repositório para dados estruturados, permitindo que informações sobre figuras como o escritor britânico Douglas Adams, autor de “O Guia do Mochileiro das Galáxias” de 1979, sejam acessadas. No Wikidata, detalhes que vão desde seu signo de nascimento (Peixes) até o identificador numérico padronizado de seus livros em bibliotecas mundiais (13230702) estão armazenados. Este acervo vasto é disponibilizado tanto em páginas da web para usuários humanos quanto em formatos legíveis por máquinas, como JSON, para sistemas robóticos.
Wikidata Otimizado para IA: Facilidade a Desenvolvedores
A inovação provém do Projeto de Incorporação da Wikipédia, desenvolvido pelo capítulo alemão da Wikimedia Foundation, Wikimedia Deutschland, que também supervisiona o Wikidata. Com sede em Berlim, a equipe dedicou o último ano a transformar os 19 milhões de entradas do Wikidata, originalmente em dados com estruturas complexas, em vetores que capturam o contexto e o significado inerente a cada item. Esta transformação para um formato vetorizado é a chave para a nova “amizade” do Wikidata com os modelos de inteligência artificial, impulsionando a pesquisa e a recuperação de dados de forma mais eficaz.
Visualmente, a informação neste formato vetorizado pode ser concebida como um grafo, um sistema de pontos conectados por linhas, conforme explicou Lydia Pintscher, líder de portfólio do Wikidata, em entrevista. Isso significa que uma entidade como Douglas Adams estaria interligada não apenas à categoria “humano”, mas também aos títulos de suas obras literárias, criando uma teia de relações que os modelos de IA podem processar e compreender com maior profundidade contextual. Essa abordagem reflete a interconexão de dados de forma semântica, facilitando buscas por significado e associações, em vez de meras correspondências textuais.
Os líderes do projeto asseguram que, apesar dessas profundas mudanças nos bastidores, a experiência do usuário final no frontend do Wikidata e da Wikipédia permanecerá inalterada; a Wikipédia não se transformará em um chatbot interativo, mas o acesso ao backend se tornará muito mais simples para desenvolvedores de IA. Este é um esforço estratégico para fomentar a criação de novos aplicativos e ferramentas, incluindo chatbots próprios, que poderão se beneficiar da riqueza de informações armazenadas nos “cofres” do Wikidata.
Segundo Pintscher, a meta central da iniciativa é equilibrar o campo de jogo para desenvolvedores de IA, especialmente aqueles que operam fora do círculo mais rico e influente das gigantes da tecnologia, como OpenAI e Anthropic. Enquanto grandes corporações possuem recursos suficientes para vetorizar o Wikidata por conta própria, o benefício é imenso para startups e equipes menores. A oportunidade de acessar dados curados e vetorizados lhes oferece uma “vantagem” competitiva essencial, disse Pintscher, citando o projeto Govdirectory — que facilita encontrar contatos de autoridades públicas globais por meio de dados do Wikidata — como um exemplo de uso positivo.
Uma preocupação comum com chatbots de IA atuais é sua tendência de priorizar palavras e tópicos mais populares na internet, resultando em vieses. Com o acesso simplificado ao Wikidata, a equipe do projeto espera que sistemas de IA futuros reflitam melhor uma gama mais ampla de tópicos, incluindo nichos menos representados na vasta rede da internet, como reiterou Pintscher. Ela sugeriu que esta abordagem pode ser mais eficaz para incorporar novas informações em sistemas como o ChatGPT do que depender de gerar vasto conteúdo e aguardar uma retreinamento, cuja inclusão dos novos dados é incerta. Para entender melhor a missão e os projetos da Wikimedia Foundation, é possível consultar o seu portal oficial.

Imagem: Alex Castro via theverge.com
Na prática, o formato vetorizado permitirá que os sistemas de inteligência artificial não apenas acessem informações pontuais, mas também compreendam o contexto intrínseco a essas informações. Philippe Saadé, gerente de projeto de IA no Wikidata, esclareceu essa distinção fundamental, destacando que a camada contextual aprimorará significativamente a capacidade dos modelos de IA de interpretar e responder a consultas complexas.
Para alcançar este avanço, a equipe utilizou um modelo da empresa de IA Jina AI, responsável por converter os dados estruturados do Wikidata, que foram capturados até 18 de setembro de 2024, em vetores. A infraestrutura para armazenar essa nova base de dados vetorizada é fornecida gratuitamente pela DataStax, uma empresa do grupo IBM, que apoia o projeto.
A equipe do Wikidata está agora em fase de espera por feedback de desenvolvedores que começarão a utilizar a base de dados otimizada. Esse retorno será crucial antes que a base de dados seja atualizada com informações mais recentes, adicionadas ao longo do último ano. Saadé mencionou que, embora o banco de dados atual não inclua dados completamente novos inseridos no último ano, pequenas edições ou ajustes em entradas existentes no Wikidata não comprometerão a utilidade do sistema. Ele explicou que o vetor computado representa “uma ideia geral de um item”, o que minimiza a relevância de pequenas modificações. Esta estabilidade é fundamental para garantir que o sistema continue a ser uma ferramenta confiável para o desenvolvimento de IA, mesmo antes de uma atualização completa.
Em suma, a iniciativa da Wikimedia com o Wikidata representa um salto na forma como a informação estruturada é disponibilizada e consumida por modelos de IA, prometendo democratizar o acesso e fomentar inovações. Para aprofundar a compreensão sobre os impactos da tecnologia na sociedade, especialmente no uso de dados por modelos de IA, recomendamos a leitura de outras análises sobre o tema em nosso site. Continue explorando nossas editorias para se manter atualizado sobre o universo da tecnologia e seu papel transformador.
Image: Alex Castro / The Verge
Recomendo
🔗 Links Úteis
Recursos externos recomendados