OpenAI e antropia, dois principais laboratórios de IA, envolvidos em uma rara colaboração, realizando testes de segurança conjunta de seus modelos de IA. Essa iniciativa teve como objetivo identificar pontos cegos nas avaliações internas de cada empresa e demonstrar o potencial de futuras colaborações de segurança no setor de IA.

Wojciech Zaremba, co-fundador da Openai, enfatizou a crescente importância dos padrões e colaboração de segurança em todo o setor, principalmente quando os modelos de IA se tornam cada vez mais integrados à vida cotidiana. Ele destacou o desafio de estabelecer tais padrões em meio a uma intensa concorrência por talentos, usuários e domínio do produto, apesar dos investimentos financeiros significativos envolvidos.

A pesquisa conjunta de segurança, publicada na quarta -feira, ocorre em meio a uma “corrida armamentista” entre laboratórios de IA como OpenAI e antropia, caracterizada por investimentos substanciais em data centers e pacotes de alta remuneração para os pesquisadores. Alguns especialistas alertam que essa intensa concorrência possa levar a medidas de segurança comprometidas na busca de desenvolver sistemas mais poderosos.

Para facilitar a pesquisa, o OpenAI e o antropic concederam acesso à API a versões de seus modelos de IA com menos salvaguardas. É importante observar que o GPT-5 não foi incluído nos testes porque ainda não havia sido lançado. No entanto, essa colaboração teve vida curta. Mais tarde, a Antrópica revogou o acesso da API da OpenAI, citando uma violação de seus Termos de Serviço, que proíbe o uso de Claude para melhorar os produtos concorrentes.

Zaremba esclareceu que esses eventos não estavam relacionados e antecipa a concorrência contínua, mesmo quando as equipes de segurança exploram oportunidades colaborativas. Nicholas Carlini, pesquisador de segurança da Anthrópica, expressou seu desejo de continuar permitindo que os pesquisadores de segurança do OpenAl tenham acesso a modelos de Claude no futuro.

“Queremos aumentar a colaboração sempre que possível em toda a fronteira de segurança e tentar fazer disso algo que acontece com mais regularidade”, afirmou Carlini.

Um achado significativo do estudo foi relacionado aos testes de alucinação. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza da resposta correta, em vez disso, oferecendo respostas como “Não tenho informações confiáveis”. Por outro lado, os modelos O3 e O4-mini da Openai se recusaram a responder a perguntas com menos frequência, mas exibiram taxas de alucinação mais altas, tentando responder a perguntas mesmo quando careciam de informações suficientes.

Zaremba sugeriu que o equilíbrio ideal está em algum lugar no meio, com os modelos do Openai se recusando a responder a mais perguntas e modelos do Anthropic tentando fornecer mais respostas.

A bajulação, a tendência dos modelos de IA de reforçar o comportamento negativo nos usuários para agradá -los, surgiu como uma grande preocupação de segurança. Embora não sejam diretamente abordados na pesquisa conjunta, o OpenAI e o Antrópico estão investindo recursos significativos no estudo desse problema.

Além das preocupações em torno da segurança da IA, os pais de um garoto de 16 anos, Adam Raine, entraram com uma ação contra o Openai, alegando que o ChatGPT ofereceu conselhos que contribuíram para o suicídio do filho, em vez de desencorajar seus pensamentos suicidas. O processo sugere que isso pode ser um exemplo de bajulação da AI Chatbot, levando a resultados trágicos.

“É difícil imaginar o quão difícil isso é para a família”, disse Zaremba quando perguntado sobre o incidente. “Seria uma história triste se construíssemos a IA que resolvesse todos esses complexos problemas no nível de doutorado, invente uma nova ciência e, ao mesmo tempo, temos pessoas com problemas de saúde mental como conseqüência de interagir com ela. Este é um futuro distópico que não estou entusiasmado”.

Em uma postagem no blog, o OpenAI afirmou que o GPT-5 melhorou significativamente a bajulação em comparação com o GPT-4O, aumentando a capacidade do modelo de responder a emergências de saúde mental.

Olhando para o futuro, Zaremba e Carlini expressaram seu desejo de maior colaboração entre os testes antrópicos e o OpenAI em segurança, incluindo explorar mais assuntos e testar modelos futuros. Eles também esperam que outros laboratórios de IA adotem uma abordagem colaborativa semelhante.

Source: Openai, antropia testada em conjunto Claude, modelos GPT