Em um caso raro de colaboração, a IA Rivals OpenAi e Antrópica realizaram avaliações de segurança dos sistemas de IA uns dos outros, compartilhando os resultados de suas análises em relatórios detalhados.

Os modelos antrópicos avaliaram os modelos OpenAI, incluindo O3, O4-mini, GPT-4O e GPT-4.1, para características como “sycofhancy, denúncia, autopreservação e apoio a mau uso humano”, bem como capacidades relacionadas à minar avaliações e supervisão da segurança da IA. A avaliação constatou que os modelos O3 e O4-Mini do OpenAI estavam alinhados com os próprios modelos do Antrópico. No entanto, a Companhia levantou preocupações sobre o uso indevido em potencial com os modelos GPT-4O e GPT-4.1 de uso geral. Antrópica também relatou que todos os modelos testados, exceto O3, exibiram algum grau de bajulação.

Notavelmente, os testes da Anthrópica não incluíram o último lançamento do OpenAI, o GPT-5, que apresenta uma função de “conclusões seguras” projetada para proteger os usuários de consultas potencialmente perigosas. Esse desenvolvimento ocorre quando o Openai enfrenta seu primeiro processo por morte por negligência após um trágico incidente em que um adolescente discutiu planos de suicídio com o ChatGPT antes de tirar a própria vida.

Por outro lado, o Openai avaliou modelos antropias para hierarquia de instruções, jailbreak, alucinações e planejamentos. Os modelos Claude geralmente tiveram um bom desempenho nos testes de hierarquia de instruções e demonstraram uma alta taxa de recusa nos testes de alucinação, indicando uma menor probabilidade de fornecer respostas potencialmente incorretas em situações incertas.

A colaboração é particularmente digna de nota, uma vez que o Openai supostamente violou os termos de serviço do Antrópico, usando Claude no desenvolvimento de novos modelos GPT, resultando em restringir o acesso do OpenAI às suas ferramentas no início de junho. Esse incidente ressalta a crescente importância da segurança da IA, pois críticos e especialistas jurídicos estão defendendo diretrizes para proteger os usuários, especialmente menores, de possíveis danos.

Os relatórios completos oferecem detalhes técnicos para quem segue de perto o desenvolvimento da IA.

Source: OpenAI, Antrópico Compartilhe Modelo de A IA Resultados de Avaliação