Principais destaques
- OpenAI lança o EVMbench para avaliar como agentes de IA lidam com falhas em contratos inteligentes
- GPT-5.3-Codex mostra avanço expressivo em exploração de vulnerabilidades
- Empresa destina US$ 10 milhões em créditos para fortalecer a defesa cibernética
A OpenAI anunciou o lançamento do EVMbench, um novo benchmark criado em parceria com a gestora cripto Paradigm para testar a capacidade de agentes de inteligência artificial na identificação, correção e exploração de vulnerabilidades em contratos inteligentes baseados em blockchain.
A iniciativa surge em um momento sensível para o setor, que continua acumulando perdas milionárias com ataques a protocolos descentralizados.
Somente em janeiro de 2026, invasões a plataformas DeFi resultaram em prejuízos estimados em US$ 86 milhões. Grande parte dessas falhas está ligada a erros em contratos inteligentes, que seguem como um dos principais pontos de risco do ecossistema cripto.
Como o EVMbench coloca a IA à prova
O EVMbench reúne 120 vulnerabilidades reais extraídas de 40 auditorias profissionais de contratos inteligentes. Muitas dessas falhas vieram de competições abertas de auditoria, como as realizadas pela Code4rena, além de cenários identificados no processo de segurança da blockchain Tempo, focada em pagamentos com stablecoins.
A estrutura avalia agentes de IA em três frentes distintas:
- Detecção: o sistema mede a capacidade da IA de encontrar falhas em contratos, avaliando a taxa de recuperação de vulnerabilidades.
- Correção: a IA precisa ajustar o código vulnerável sem comprometer a funcionalidade original.
- Exploração: os agentes executam ataques simulados para drenar fundos em um ambiente isolado conectado a uma rede Ethereum local.
Nos testes iniciais, o GPT-5.3-Codex alcançou 72,2% de desempenho no modo de exploração, um salto significativo em relação aos 31,9% registrados pelo GPT-5 cerca de seis meses antes.
Apesar da evolução, a taxa de sucesso em detecção e correção ainda está longe do ideal, mostrando que muitas vulnerabilidades continuam desafiando os sistemas atuais.
A lacuna entre explorar e proteger
Os resultados revelam um ponto sensível no avanço da IA aplicada à segurança. Os agentes apresentaram melhor desempenho quando receberam objetivos claros de exploração, mas enfrentaram dificuldades ao realizar auditorias completas ou ao corrigir falhas mantendo o funcionamento do contrato.
No modo de detecção, por exemplo, muitos sistemas interromperam a análise após encontrar um único problema, deixando outras vulnerabilidades ocultas. Já na fase de correção, pequenas alterações para eliminar falhas frequentemente afetaram o comportamento do código, o que evidencia a complexidade da tarefa.
A própria OpenAI reconheceu que o EVMbench não reflete toda a complexidade do ambiente real. Muitos contratos amplamente utilizados no mercado passam por auditorias contínuas e níveis mais profundos de escrutínio.
Segundo a Paradigm, atualmente há mais de US$ 100 bilhões depositados em contratos de criptomoedas de código aberto. À medida que modelos de linguagem avançam na capacidade de encontrar exploits, cresce também a preocupação com o uso indevido dessas tecnologias.
US$ 10 milhões para fortalecer a defesa digital
Além de lançar o benchmark, a OpenAI anunciou a destinação de US$ 10 milhões em créditos de API para apoiar iniciativas de defesa cibernética. O foco está em projetos de código aberto e em sistemas de infraestrutura crítica, considerados pilares do ecossistema digital.
A iniciativa se conecta ao lançamento do GPT-5.3-Codex, classificado pela empresa como de alta capacidade para tarefas de cibersegurança dentro de sua Estrutura de Preparação. Organizações envolvidas em pesquisas de segurança poderão solicitar apoio por meio do Programa de Bolsas de Cibersegurança da OpenAI.
O movimento deixa claro que o avanço da inteligência artificial na área de segurança é uma via de mão dupla. A mesma tecnologia capaz de encontrar falhas pode ajudar a preveni-las. O desafio agora é garantir que a evolução ocorra com responsabilidade e transparência.
