O Vale do Silício está colocando apostas substanciais nos ambientes de aprendizado de reforço (RL) como uma ferramenta fundamental para avançar os agentes de IA capazes de lidar autonomamente em tarefas complexas de software. Durante anos, os executivos das principais empresas de tecnologia aumentaram o potencial desses agentes para revolucionar a produtividade, interagindo com aplicativos em nome dos usuários. No entanto, exemplos atuais voltados para o consumidor, como o agente ChatGPT da OpenAI e o cometa da Perplexity, revelam limitações significativas em sua capacidade de executar processos de várias etapas de maneira confiável. Essa lacuna provocou um aumento nas técnicas inovadoras, com ambientes RL emergindo como uma solução promissora. Esses motivos de treinamento simulados imitam as interações de software do mundo real, permitindo que os modelos de IA aprendam através de tentativas e erros, assim como os conjuntos de dados rotulados alimentados pela era anterior de avanços generativos de IA. Os ambientes RL funcionam como simulações controladas, onde os agentes da IA praticam tarefas em um ambiente virtual, recebendo recompensas ou multas com base em seu desempenho. Imagine um espaço de trabalho digital replicando um navegador Chrome, onde um agente é encarregado de navegar na Amazon para comprar um par de meias. O sucesso pode envolver a seleção correta de itens, a conclusão da finalização da compra e evitando erros, como comprar a quantidade errada ou ficar preso nos menus. Como um fundador descrito em uma entrevista recente, a construção desses ambientes é semelhante a “criar um videogame muito chato”. Ao contrário dos conjuntos de dados estáticos, que fornecem entradas e saídas fixas, os ambientes RL devem antecipar e lidar com ações de agentes imprevisíveis, fornecendo feedback consistente para orientar o aprendizado. Essa complexidade exige design robusto para garantir que a simulação permaneça útil mesmo quando os agentes se desviam dos caminhos esperados. A demanda por esses ambientes disparou entre os principais laboratórios de IA, incluindo OpenAI, Google DeepMind, Anthropic e Meta. Jennifer Li, parceira geral da Andreessen Horowitz, destacou em uma entrevista à TechCrunch de que “todos os grandes laboratórios de IA estão construindo ambientes RL internamente”. No entanto, a natureza intrincada do desenvolvimento levou essas organizações a procurar parcerias com fornecedores de terceiros para ambientes de alta qualidade e ferramentas de avaliação. Essa tendência acendeu uma onda de investimento e empreendedorismo, com startups e empresas estabelecidas correndo para capturar uma parte do que poderia se tornar um mercado de vários bilhões de dólares. De acordo com relatos da informação, a liderança da Anthropic até discutiu a alocação de mais de US $ 1 bilhão para os ambientes RL no próximo ano, destacando a prioridade estratégica dessa tecnologia. Precedentes históricos ilustram o papel fundamental da RL no desenvolvimento da IA. Em 2016, o OpenAI introduziu “RL Gyms”, estruturas iniciais para agentes de treinamento em cenários simulados. Nesse mesmo ano, o Alphago do Google Deepmind alcançou uma vitória marcante ao derrotar um campeão mundial no jogo de Go, alavancando o RL dentro de um ambiente simulado para dominar a tomada de decisões estratégicas. Esses esforços lançaram as bases, mas as aplicações de hoje marcam uma evolução significativa. Os ambientes modernos de RL têm como alvo grandes modelos baseados em transformadores, projetados para tarefas de uso geral em diversas ferramentas de software, contrastando com os sistemas especializados em mundo fechado, como o AlphaGo. Os pesquisadores agora começam com modelos fundamentais mais avançados, mas a ambição de criar agentes amplamente capazes introduz novos desafios, como garantir a confiabilidade em interações abertas. Os gigantes marcantes de dados estabelecidos estão girando agressivamente para atender a essa demanda, aproveitando sua infraestrutura existente e relacionamentos com clientes. O Surge, que supostamente gerou US $ 1,2 bilhão em receita no ano passado de colaborações com laboratórios de IA como OpenAI, Google, Antrópico e Meta, observaram um “aumento significativo” nos pedidos de ambientes de RL, de acordo com o CEO Edwin Chen. Em resposta, a empresa estabeleceu uma organização interna dedicada para se concentrar em sua criação. Esse movimento posiciona surge para fazer a transição da anotação tradicional de dados para simulações dinâmicas, capitalizando seu histórico comprovado no suporte à pesquisa de Frontier AI. A Mercor, avaliada em US $ 10 bilhões, é outro participante importante, enfatizando ambientes RL específicos de domínio, adaptados a setores como codificação, saúde e direito. A startup garantiu parcerias com o OpenAI, Meta e Antrópico, e seu CEO, Brendan Foody, enfatizou em uma entrevista do TechCrunch que “poucos entendem o quão grande é a oportunidade em torno dos ambientes RL”. A abordagem de Mercor envolve a elaboração de simulações especializadas que abordam desafios de nicho, como navegar em bancos de dados legais ou analisar registros médicos, potencialmente acelerando a adoção de IA em indústrias regulamentadas. Escala AI, uma vez que o líder indiscutível na rotulagem de dados com uma avaliação de US $ 29 bilhões, enfrentou contratempos recentes. O investimento de US $ 14 bilhões da Meta em um empreendimento concorrente e o ex -CEO da caça furtiva do escala levaram a contratos perdidos com o Google e o OpenAI, juntamente com a concorrência interna na Meta. No entanto, a escala está se adaptando expandindo -se em ambientes RL. Chetan Rane, chefe de produto da Scale para agentes e ambientes RL, observou: “Esta é apenas a natureza do negócio [Scale AI] está dentro. A escala provou sua capacidade de se adaptar rapidamente. Fizemos isso nos primeiros dias de veículos autônomos, nossa primeira unidade de negócios. Quando o ChatGPT foi lançado, a AI em escala adaptada a isso. E agora, mais uma vez, estamos adaptando-se a novos espaços de fronteira, como agentes e ambientes. “Esse pivô reflete a história de reinvenção da escala, desde carros autônomos até o boom do chatbot, posicionando-o para reclamar a relevância da era do agente. Visão ambiciosa para “automatizar todos os trabalhos”, iniciando os ambientes RL para agentes de codificação de IA. O trabalho já está colaborando com o desenvolvimento de RL, embora ambas as partes se recusassem a comentar. Fund e Menlo Ventures, a startup lançou um hub de ambientes RL no mês passado. Parte do que estamos fazendo é apenas tentar criar uma boa infraestrutura de código aberto em torno dela. O serviço que vendemos é calculado, por isso é uma ONRAMP conveniente para o uso de GPUs, mas estamos pensando nisso mais a longo prazo. “Ao facilitar o acesso à GPU, o intelecto principal não apenas promove o progresso orientado pela comunidade, mas também explora a crescente necessidade de soluções de hardware escalável no treinamento de IA. Ambientes ” – uma força dominante semelhante à escala alimentou a onda de IA generativa. O influxo de financiamento reflete o otimismo de que os ambientes RL poderiam desbloquear o próximo salto na IA agêntica, ativando sistemas que se integrem sem problemas com os flowes da Web, com a funda de open, com os flows de abertura do campo, a competitividade do campo é intensiva, com a saída da Web, com a funda de abertura do campo. Posição “curta” em Startups de RL em um podcast recente. Retornos decrescentes. O empreendimento multibilionário de bilhões de dólares-essas simulações podem impulsionar os agentes de IA de uso geral. “Acho que as pessoas estão subestimando o quão difícil é escalar ambientes. Até o melhor publicamente disponível [RL environments] Normalmente não funciona sem modificação séria. “A escala requer não apenas mais ambientes, mas os refinamentos para mitigar esses problemas, garantindo que as simulações permaneçam fiéis a aplicações reais. Até os benchmarks públicos geralmente exigem ajustes extensos, destacando a lacuna entre os protótipos e as ferramentas prontas para a produção. Andrej Karpath, enquanto um investidor no interior e um advogado para um advertido para um interior de um interior. X, ele afirmou: “Sou otimista em ambientes e interações agênticas, mas estou com o aprendizado de reforço especificamente”.
Source: A IA em escala se expande em ambientes RL para agentes de IA





