A Wikipedia está tornando seus dados mais acessíveis aos desenvolvedores de IA, liberando um conjunto de dados otimizado para aprendizado de máquina, em um esforço para reduzir a raspagem e a tensão em seus servidores causados por bots AI automatizados.
A Wikimedia Foundation fez parceria com a Kaggle, uma plataforma comunitária de ciência de dados de propriedade do Google, para publicar um conjunto de dados beta de conteúdo estruturado da Wikipedia em inglês e francês. Esse conjunto de dados foi “projetado com os fluxos de trabalho de aprendizado de máquina em mente”, facilitando os desenvolvedores de acessar dados de artigo legíveis por máquina para vários aplicativos de IA, incluindo modelagem, ajuste fino, benchmarking, alinhamento e análise.
O conjunto de dados inclui uma variedade de conteúdo, como resumos de pesquisa, descrições curtas, links de imagem, dados do InfoBox e seções de artigos. No entanto, ele exclui referências e elementos não escritos, como arquivos de áudio. Em 15 de abril, os dados são apresentados em “representações JSON bem estruturadas”, que devem ser mais atraentes para os desenvolvedores do que raspar ou analisar o texto do artigo bruto. Espera -se que esse movimento alivie a tensão nos servidores da Wikipedia, que atualmente estão sendo fortemente consumidos pela atividade automatizada da AI Bot.
A Wikimedia Foundation já possui acordos de compartilhamento de conteúdo com o Google e o Internet Archive. No entanto, essa parceria com a Kaggle visa tornar os dados mais acessíveis a empresas menores e cientistas de dados independentes. Ao hospedar o conjunto de dados, Kaggle está desempenhando um papel crucial para manter os dados acessíveis, disponíveis e úteis para a comunidade de aprendizado de máquina.
“Como o local da comunidade de aprendizado de máquina vem para ferramentas e testes, Kaggle está extremamente empolgado por ser o host dos dados da Wikimedia Foundation”, disse Brenda Flynn, líder de parcerias da Kaggle. “Kaggle está animado para desempenhar um papel em manter esses dados acessíveis, disponíveis e úteis.”
O lançamento do conjunto de dados foi anunciado em 17 de abril de 2025, marcando um passo significativo no esforço da Wikipedia para se envolver com os desenvolvedores de IA e gerenciar o impacto do tráfego acionado por IA em sua plataforma.
Source: A Wikipedia oferece dados AI-Ready para conter a raspagem








