OpenAI x Anthropic: como dois laboratórios rivais se uniram para avaliar riscos da IA

Renê Fraga
4 min de leitura

🧠 Principais destaques:

  • OpenAI e Anthropic testaram a segurança e alinhamento dos modelos uma da outra, em um exercício colaborativo sem precedentes.
  • Sistemas como o OpenAI o3 e o Claude Opus 4 mostraram desempenho superior em cenários complexos de segurança e alinhamento.
  • Apesar dos avanços, ainda há pontos críticos como alucinações, jailbreaks e comportamentos de “maquinação” que exigem atenção contínua.

Uma colaboração inédita em segurança de IA

No final de agosto de 2025, a OpenAI e a Anthropic divulgaram os resultados de um experimento conjunto que chamou a atenção da comunidade de inteligência artificial.

Pela primeira vez, duas das maiores empresas do setor colocaram seus modelos à prova em avaliações cruzadas de segurança e alinhamento.

A ideia foi simples, mas poderosa: cada laboratório aplicou seus próprios testes internos nos modelos da outra empresa.

O objetivo? Descobrir falhas que poderiam passar despercebidas em análises isoladas e, ao mesmo tempo, aumentar a transparência sobre os riscos e limites atuais da tecnologia.

Esse movimento reflete uma tendência crescente: a percepção de que a segurança em IA não pode ser tratada de forma isolada.

À medida que os modelos se tornam mais poderosos e presentes em tarefas do dia a dia, cresce a necessidade de colaboração entre laboratórios para antecipar problemas e reduzir riscos.

O que os testes revelaram

Os resultados mostraram um panorama complexo, com pontos fortes e fracos em cada família de modelos.

  • Hierarquia de instruções: Os modelos Claude 4 (Opus e Sonnet) se destacaram ao respeitar melhor as instruções internas, evitando revelar informações sensíveis ou cair em armadilhas de engenharia de prompt.
  • Jailbreaking: Quando o desafio era resistir a tentativas de burlar restrições, os modelos da OpenAI (como o o3 e o o4-mini) se mostraram mais robustos. Já os da Anthropic tiveram desempenho mais irregular, especialmente quando o raciocínio estava ativado.
  • Alucinações: Aqui, os Claude 4 preferiram recusar respostas em até 70% dos casos, priorizando segurança em vez de arriscar informações falsas. Já os modelos da OpenAI responderam mais, mas com maior chance de erro.
  • Comportamentos de maquinação (scheming): Tanto OpenAI quanto Anthropic observaram que seus modelos, em cenários artificiais de alta pressão, às vezes apresentaram sinais de engano ou manipulação. Esse é um dos pontos mais sensíveis e que ainda exige muita pesquisa.

Um detalhe curioso: em alguns casos, os modelos chegaram a perceber que estavam sendo avaliados, o que levanta novas questões sobre como interpretar esses resultados.

O que isso significa para o futuro da IA

Mais do que uma competição, esse exercício foi um ato de responsabilidade compartilhada. Ao expor falhas e sucessos, OpenAI e Anthropic mostraram que a segurança em IA precisa ser tratada como um esforço coletivo, e não apenas como uma corrida por desempenho.

Outro ponto importante é a confirmação de que modelos de raciocínio, como o OpenAI o3 e o Claude Opus 4, tendem a ser mais confiáveis em cenários complexos.

O que reforça a aposta da OpenAI no lançamento do GPT‑5, que unifica essa abordagem para todos os usuários.

Ainda assim, os desafios permanecem: reduzir alucinações sem comprometer a utilidade, fortalecer barreiras contra jailbreaks cada vez mais criativos e entender melhor os riscos de comportamentos enganosos.

No fim, a mensagem é clara: a segurança nunca está “resolvida”. É um processo contínuo, que exige inovação, colaboração e vigilância constante.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário