O Openai provocou uma revolução tecnológica com a estréia do ChatGPT em novembro de 2022, e milhões de usuários incríveis em todo o mundo ficaram impressionados com a capacidade de seu icônico chatbot de se envolver em conversas humanas sobre qualquer tópico que eles pudessem sonhar.
Ele iniciou uma mania para a IA que só ficou mais maníaca a cada dia, com todas as empresas de tecnologia que valem a pena procurar entrar em ação com seus próprios modelos generativos de IA. Vimos rapidamente uma resposta do Google e da Meta com seus modelos de idiomas de Gêmeos e Llama, e a Microsoft, que já está intimamente associada ao OpenAI, também avançou na construção de seus próprios modelos.
Acrescente a isso o anfitrião das startups de IA, variando de antropia a coerente até os laboratórios AI21 e agora Deepseek, e fica claro que a indústria se tornou um louco gratuitamente, com dezenas de jogadores concorrentes que se esforçam para ganhar dinheiro no nível insano de demanda por ferramentas de IA de próxima geração.
Os modelos de IA são treinados e construídos usando vastas quantidades de dados e precisam de quantidades cada vez maiores para melhorar. Para obter esses dados, a maioria dos desenvolvedores de IA vai para a fonte mais óbvia – a Internet pública, onde raspam livremente quantidades enormes de informações.
Rastejando e raspando
Uma coisa que a maioria das pessoas não percebe é que não há lugar fácil onde você possa ir apenas “baixar a internet”. Portanto, o que os desenvolvedores de IA fazem é confiar em ferramentas conhecidas como “rastreadores da web”, que vasculham a World Wide Web, passando do Link para o Link, enquanto indexam todas as informações que eles vêem em um banco de dados. Em seguida, eles usam “Scrappers da Web”, que passam por esse banco de dados e baixam todas as informações às quais os leva.
Empresas com recursos imensos, como Google e Microsoft, possuem o dinheiro e a experiência para criar esses rastreadores e raspadores da Web, e essa habilidade provavelmente lhes dá uma vantagem sobre os rivais que não podem. Para restos, eles tendem a recorrer a recursos existentes, como o Common Crawl, que é uma organização sem fins lucrativos que rasteja a Web e o baixa, compilando as informações em um banco de dados enorme e de código aberto que é atualizado a cada poucos meses. Outro recurso é a rede aberta de inteligência artificial em larga escala, conhecida como Laion, cheia de links para imagens encontradas na web e qualquer legenda publicada ao lado deles.
Além disso, existem outras organizações sem fins lucrativos que têm interesse em promover o desenvolvimento de IA, como o Instituto Allen para a IA. Ele trabalha para compilar conjuntos de dados abertos para grandes desenvolvedores de modelos de idiomas, como o banco de dados DOLMA, que contém mais de três trilhões de tokens de várias páginas da web, livros, peças de código, trabalhos acadêmicos e enciclopédias encontrados online.
Os criadores de conteúdo pressionam
Esses bancos de dados são todos criados por rastreadores e raspadores da web, mas há muita controvérsia sobre essa prática comum, pois levanta questões sobre a precisão e confiabilidade dos modelos treinados usando essas informações. Afinal, há muitas informações de lixo e rumores e boatos postados online. Obviamente, isso também levou a disputas em relação aos direitos autorais, com muitos criadores de conteúdo argumentando que deveriam ser compensados, já que a IA é percebida como uma ameaça aos seus meios de subsistência.
Algumas empresas tentaram contornar isso pagando para acessar dados. Por exemplo, o OpenAI chegou a um acordo com organizações de notícias como Axel Springer e o Internet Forum Reddit, pagando para acessar seu conteúdo. Outros, como a Meta, estão usando seus próprios dados, como milhões de postagens públicas no Facebook e Instagram, para treinar seus modelos. Elon Musk, o proprietário da X, diz que sua empresa está fazendo o mesmo para treinar sua família Grok da LLMS. A Amazon afirmou que usará dados de voz de clientes que conversam com seu assistente digital Alexa.

No entanto, essas práticas também não são tão populares, pois muitos usuários de mídia social se sentem bastante desconfortáveis com a ideia de que suas postagens e comentários estão sendo usados para treinar modelos de IA.
Houve muitos insultos, mas os desenvolvedores de IA são incapazes de saciar sua sede por dados cada vez maiores, já que é a força vital de seus algoritmos. Como tal, há perguntas sobre onde eles podem obter as informações necessárias para continuar criando novos aplicativos inovadores de IA.
Sintetizar dados pode ser uma solução
Uma solução possível para essa questão pode ser “dados sintéticos”, que são informações artificialmente geradas por máquinas que primeiro consomem quantidades enormes de dados do mundo real.
Se você tiver muitos dados do mundo real, é possível criar o máximo de informações sintéticas com base nisso como você precisará, mas há perguntas sobre a qualidade dessa informação artificial. Afinal, tudo é adquirido a partir de dados reais feitos por seres humanos e, se esses dados de origem forem imprecisos ou tendenciosos, as informações sintéticas resultantes provavelmente ampliarão esses problemas.
Como resultado, quanto mais informações sintéticas usadas para treinar modelos de IA, pior serão seus preconceitos e imprecisões, levando a mais “alucinações”, que se referem a casos em que a IA comete erros ou simplesmente cria fatos do nada.
Se os dados sintéticos se tornarem uma solução viável para a crescente demanda por conjuntos de dados de treinamento, é necessário garantir que ela atenda a uma linha de base dos padrões de qualidade, o que só será possível se algum tipo de contribuição humana permanecer.
Aumentar a qualidade dos dados com a concorrência
É aqui que Fração ai poderia fazer a diferença. É o criador de um protocolo exclusivo baseado em blockchain que transformou a tarefa de gerar dados sintéticos em uma competição, onde desenvolvedores humanos criam agentes de IA que competem para gerar novos conjuntos de dados. Ao criar um agente de IA bem -sucedido que se destaca na criação de dados sintéticos, os desenvolvedores podem obter recompensas substanciais por sua participação.
A fração da IA hospeda competições regulares entre agentes de IA, que competem para criar os conjuntos de dados mais precisos e confiáveis, de acordo com os requisitos específicos. Eles pagam uma taxa em criptomoeda para participar dessas competições, mas apenas os melhores desempenhos são recompensados, pressionando os desenvolvedores a criar melhores agentes de IA.
Os construtores podem criar esses agentes sem nenhuma habilidade de codificação, simplesmente inserindo instruções. Essa abordagem garante que seja acessível a qualquer pessoa.
Além disso, a fração da IA também depende de “jogadores”, que participam dos tokens de criptomoeda ETH para proteger a rede. Eles também ganham recompensas por fazer isso, através da combinação de uma parte das taxas de concorrência, taxas de protocolo e qualquer receita proveniente do licenciamento de seus conjuntos de dados sintéticos.
A coisa engenhosa sobre a fração da IA é que ela introduz uma abordagem completamente nova para a rotulagem de dados que deve garantir que ela produz informações sintéticas de qualidade muito melhor. Tradicionalmente, a rotulagem de dados é feita apenas por humanos, que é preciso, mas muito lento, ou pelos modelos de IA, que são muito mais rápidos, mas menos precisos.
A fração da IA permite que os humanos diga aos agentes como eles devem estar rotulando dados, para que esses agentes possam fazê -lo com mais precisão em escalas muito mais altas. É uma abordagem que combina as vantagens de ambos os métodos e oferece valor para os três participantes do ecossistema.
Os construtores, ou criadores dos agentes da IA, são recompensados por criar agentes mais eficazes, o que garante dados de melhor qualidade. Como apenas os melhores agentes são recompensados, aqueles cujos agentes perdem são forçados a melhorar seus agentes para que possam começar a ganhar. Os jogadores têm a oportunidade de obter um rendimento regular em seus investimentos, apoiando a criação de mais dados de treinamento. Por fim, os desenvolvedores de IA se beneficiam de um fluxo contínuo de novos dados sintéticos de alta qualidade que podem ser usados para treinar modelos de IA mais capazes.
A necessidade de humanos no circuito
É uma nova abordagem que mostra que tem potencial real. A Fração AI já demonstrou sua capacidade de ajustar um pequeno LLM multimodal para permitir que ele se apresente em pé de igualdade com o GPT-4 do OpenAI, por uma fração do custo desse modelo maior.
O protocolo demonstra a importância de garantir que os seres humanos permaneçam no loop durante o processo de criação de dados sintéticos. Os seres humanos são uma das principais razões por trás do sucesso inicial do ChatGPT. Enquanto estava em desenvolvimento, a OpenAI contratou centenas de trabalhadores para experimentar uma versão inicial do ChatGPT e fornecer feedback, que foi usado para melhorar seu desempenho. Em última análise, isso teve um impacto transformador na qualidade das respostas do chatbot, provocando a luta louca pela IA que existe hoje.
À medida que os modelos de IA se tornam mais difundidos e mais sofisticados, o mundo está rapidamente ficando sem dados confiáveis. Os dados sintéticos, criados com humanos no loop, emergiram como as soluções mais viáveis para esse problema, e sua importância para a indústria de IA continuará a crescer.
Crédito da imagem em destaque: Maxim Berg/Unsplash
Os desenvolvedores da AI post estão ficando sem dados. Onde eles podem conseguir mais? apareceu pela primeira vez no Techbriefly.
Source: Os desenvolvedores de IA estão ficando sem dados. Onde eles podem conseguir mais?
