Para desenvolver seu modelo de linguagem avançado, GPT-4, a OpenAI utilizou uma enorme quantidade de dados de vídeo do YouTube.
Diz-se que a empresa transcreveu mais de um milhão de horas de conteúdo de vídeo.
Esta notícia chega juntamente com uma tendência mais ampla na indústria da inteligência artificial (IA), onde os gigantes da tecnologia estão a encontrar formas cada vez mais criativas (e por vezes controversas) de reunir o combustível que os seus modelos de IA desejam – os dados.
Por que os sussurros do YouTube são importantes para a IA
O New York Timesrecentemente lançou luz sobre esse desenvolvimento preocupante, já que o YouTube perguntou se os vídeos em sua plataforma eram usados como fonte de dados de treinamento para SORA ou não, alguns dias atrás.
Então, por que recorrer ao YouTube para obter dados de treinamento? É simples, realmente. O YouTube oferece um tesouro praticamente ilimitado de linguagem falada. Cada vlog, vídeo de unboxing e tutorial incoerente inclui a fala humana em toda a sua glória diversa e confusa. Como grandes modelos de linguagem como o GPT-4 aprendem “ingerindo” e analisando grandes quantidades de texto, o áudio transcrito de vídeos torna-se um material inestimável.
No entanto, transformar o áudio do YouTube em dados de treinamento utilizáveis levanta questões complexas. Ferramenta de reconhecimento de fala da OpenAI ‘Sussurrar‘ desempenhou um papel crucial na transcrição da grande quantidade de material de vídeo. Este processo de transcrição, embora necessário, coloca em foco considerações sobre direitos autorais e uso justo.
Dados, dados em todos os lugares… Mas está tudo bem com a OpenAI para capturar?
A busca por conjuntos de dados robustos para potencializar a IA não é de forma alguma exclusiva da OpenAI. Os gigantes da tecnologia enfrentam o mesmo desafio. Afinal, os modelos de IA são notoriamente ávidos por dados. Quanto mais diversificados e de alta qualidade forem os dados de entrada, mais bem equipados estarão os modelos para lidar com a complexidade do mundo real.
A pressão para encontrar fontes de dados criativas é compreensível. No caso da OpenAI, a empresa supostamente explorou opções como podcasts e audiolivros depois de enfrentar uma escassez de materiais de treinamento mais convencionais em 2021. Mas esta busca por dados tem uma desvantagem potencial – ultrapassar os limites do que é considerado legal e eticamente aceitável.

A zona cinzenta onde os dados de IA e os direitos autorais colidem
O YouTube tem seus próprios termos de serviço claros, que normalmente restringem a forma como seu conteúdo pode ser usado. Embora existam disposições de “uso justo” na legislação de direitos autorais (com interpretações variadas entre os países), confiar nelas como justificativa para a extração extensiva de dados pode ser uma aposta legal.
A questão está longe de ser simples. Quando as empresas de tecnologia usam conteúdo existente para treinar seus sistemas de IA, surgem questões:
- Isso limita potencialmente a capacidade dos criadores de conteúdo original de lucrar com seu trabalho?
- Os criadores serão suficientemente compensados se o seu material alimentar o desenvolvimento de ferramentas comerciais de IA?
- Deveriam existir diretrizes ou regulamentos mais claros para a recolha de dados de formação em larga escala?
O grande apetite da IA levanta questões ainda maiores
O caso OpenAI destaca uma tendência mais ampla – a necessidade insaciável de dados na indústria moderna de IA. À medida que as tecnologias de IA se tornam mais sofisticadas, as preocupações éticas e legais em torno da forma como os dados de formação são obtidos assumirão um papel central.
Quer se trate de vídeos do YouTube, repositórios de código ou outros tipos de conteúdo gerado pelo usuário, garantir o uso justo e responsável dos dados será crucial para manter a confiança do público nesta tecnologia em rápida evolução.
Crédito da imagem em destaque: Zac Wolff/Remover respingo
Source: OpenAI supostamente usou dados do YouTube no desenvolvimento do GPT-4








