Os autores acusaram a NVIDIA de violação de direitos autorais em uma ação coletiva ampliada movida recentemente, alegando que a empresa obteve milhões de livros piratas do Arquivo de Anna para treinamento em IA. A reclamação cita documentos internos indicando que a NVIDIA buscou acesso de alta velocidade aos dados da biblioteca shadow. A NVIDIA, fabricante de chips, obteve um aumento nas receitas do setor de inteligência artificial devido à demanda por seus chips de aprendizagem de IA e serviços de data center. A empresa desenvolve modelos de IA como NeMo, Retro-48B, InstructRetro e Megatron, treinados usando seu hardware e extensas bibliotecas de texto. Este desafio legal segue ações judiciais anteriores em que os autores acusaram empresas de tecnologia de treinar modelos de IA em livros piratas. No início de 2024, os autores processaram a NVIDIA, alegando que seus modelos de IA foram treinados no conjunto de dados Books3, que incluía obras protegidas por direitos autorais do site Bibliotik sem permissão. A NVIDIA defendeu suas ações como uso justo, afirmando que os livros funcionavam como correlações estatísticas para seus modelos de IA. Durante a descoberta, os demandantes descobriram evidências adicionais. Na sexta-feira, os autores apresentaram uma reclamação alterada que ampliou o processo. Esta atualização incluiu mais livros, autores e modelos de IA, juntamente com novas reivindicações de “biblioteca sombra”. Autores, incluindo Abdi Nazemian, citaram e-mails e documentos internos da NVIDIA, afirmando que a empresa baixou voluntariamente milhões de livros protegidos por direitos autorais. A denúncia alega que “pressões competitivas levaram a NVIDIA à pirataria”, envolvendo o que é descrito como colaboração com o Anna’s Archive. De acordo com a reclamação alterada, um membro da equipe de estratégia de dados da NVIDIA contatou o Anna's Archive para avaliar as ofertas de dados. A reclamação detalha a interação: “Desesperada por livros, a NVIDIA contatou o Arquivo de Anna – a maior e mais descarada das bibliotecas sombra restantes – sobre a aquisição de seus milhões de materiais piratas e 'incluindo o Arquivo de Anna em dados de pré-treinamento para nossos LLMs'.” O Arquivo de Anna cobrou dezenas de milhares de dólares pelo “acesso de alta velocidade” às suas coleções piratas; A NVIDIA investigou as especificidades desse acesso. A denúncia afirma que o Arquivo de Anna informou a NVIDIA sobre a natureza ilegal de sua biblioteca. A biblioteca pirata então perguntou aos executivos da NVIDIA se a permissão interna para prosseguir foi concedida. A permissão foi supostamente concedida dentro de uma semana, após a qual o Arquivo de Anna forneceu acesso aos seus livros piratas. “Uma semana depois de entrar em contato com o Arquivo de Anna, e dias depois de ser avisado pelo Arquivo de Anna sobre a natureza ilegal de suas coleções, a administração da NVIDIA deu ‘luz verde’ para prosseguir com a pirataria. O Arquivo de Anna ofereceu à NVIDIA milhões de livros pirateados com direitos autorais”, afirma a denúncia. O Anna's Archive prometeu à NVIDIA acesso a aproximadamente 500 terabytes de dados, contendo milhões de livros normalmente disponíveis através do sistema de empréstimo digital do Internet Archive, que por sua vez enfrentou escrutínio legal. A reclamação não especifica se a NVIDIA pagou ao Anna’s Archive por esse acesso. Além do banco de dados Books3, a reclamação alega que a NVIDIA baixou livros da LibGen, Sci-Hub e Z-Library. Os autores também alegam que a NVIDIA distribuiu scripts e ferramentas que permitem aos clientes corporativos baixar automaticamente “The Pile”, que contém o conjunto de dados pirata do Books3. Essas alegações introduzem acusações de violação indireta e contributiva, alegando que a NVIDIA gerou receita dos clientes ao facilitar o acesso a esses conjuntos de dados. Os autores buscam indenização por danos, aplicando-se aos autores nomeados e potencialmente a centenas de outros na ação coletiva. Esta é a primeira divulgação pública de correspondência entre uma grande empresa de tecnologia dos EUA e o Anna's Archive, aumentando potencialmente a visibilidade da biblioteca pirata após recentes perdas de nomes de domínio. Uma cópia da primeira queixa consolidada e alterada, apresentada no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, está disponível em formato PDF. Os autores nomeados incluem Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III e Susan Orlean.
Source: Autores acusam NVIDIA de pirataria massiva de treinamento de IA