A Nvidia revelou o Nemotron 3 Nano Omni, um modelo aberto de IA multimodal que integra recursos de visão, áudio e linguagem em uma arquitetura unificada.
O modelo visa abordar ineficiências nos atuais sistemas empresariais de IA, que muitas vezes dependem de pipelines fragmentados. Ele processa uma variedade de entradas – incluindo texto, imagens, áudio, vídeo, documentos, gráficos e interfaces gráficas – enquanto gera saídas de texto.
Construído em uma arquitetura híbrida de mistura de especialistas de 30 bilhões de parâmetros, o Nemotron 3 Nano Omni ativa aproximadamente 3 bilhões de parâmetros por inferência. A Nvidia afirma que fornece a capacidade de conhecimento de modelos maiores, ao mesmo tempo que reduz significativamente os custos de computação.
A Nvidia afirmou que o Nemotron 3 Nano Omni atinge um rendimento até 9 vezes maior do que modelos omni abertos comparáveis. Para tarefas de raciocínio de vídeo, ele oferece uma taxa de transferência aproximadamente três vezes maior com requisitos de computação 2,75 vezes menores, apoiados por uma janela de contexto de 256 mil tokens. O modelo supostamente lidera seis benchmarks para inteligência de documentos complexos e compreensão de vídeo e áudio.
Adotantes notáveis do modelo incluem Foxconn, Palantir e H Company. “A utilização do Nemotron 3 Nano Omni permite que nossos agentes analisem rapidamente gravações em tela full HD, um recurso que antes era inviável”, disse Gautier Cloix, CEO da H Company.
Dell, Oracle e Infosys estão atualmente avaliando o modelo para possível adoção. Nemotron 3 Nano Omni pode ser acessado em plataformas como Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr e mais de 25 plataformas parceiras. Ele vem equipado com pesos abertos, conjuntos de dados e receitas de treinamento para implantação em vários ambientes.
Este modelo faz parte da família Nemotron 3 mais ampla da Nvidia, que inclui modelos Super e Ultra projetados para tarefas de raciocínio mais intensivas. A série Nemotron 3 atingiu mais de 50 milhões de downloads no ano passado.








