Principais destaques
- Um novo benchmark acadêmico mostra que os modelos de IA mais avançados não passam de 40% de acerto em questões altamente especializadas.
- O exame foi criado para explorar os limites do conhecimento humano e envolveu quase mil pesquisadores de dezenas de países.
- Especialistas alertam que bons resultados em testes não significam avanço direto rumo à inteligência artificial geral.
Um teste ambicioso criado para medir até onde a inteligência artificial consegue ir foi oficialmente publicado na Nature e trouxe um recado claro para o setor.
Mesmo os sistemas de IA mais avançados da atualidade ainda estão bem distantes do desempenho humano quando confrontados com perguntas que exploram a fronteira do conhecimento científico.
Batizado de “Último Exame da Humanidade”, o benchmark reúne 2.500 questões de nível altamente especializado, distribuídas por mais de 100 subáreas acadêmicas.
O conteúdo vai desde a interpretação de inscrições antigas até análises anatômicas complexas, exigindo raciocínio profundo e, em parte dos casos, a combinação de texto e imagens.
Um exame criado para desafiar até especialistas
O projeto é resultado de uma colaboração global envolvendo quase mil professores e pesquisadores de mais de 500 instituições em cerca de 50 países. A iniciativa foi liderada pela organização sem fins lucrativos Center for AI Safety em parceria com a Scale AI.
Desde a concepção, os criadores tomaram o cuidado de eliminar qualquer questão que modelos de IA já conseguissem responder corretamente.
O objetivo foi construir um retrato fiel do que ainda separa sistemas artificiais do raciocínio humano especializado. Cerca de 41% das perguntas são de matemática, e 14% exigem interpretação multimodal, combinando linguagem e imagens.
Resultados melhoram, mas continuam baixos
Quando o teste foi apresentado pela primeira vez, em janeiro de 2025, os resultados chamaram atenção pelo desempenho extremamente baixo. Modelos da OpenAI e da Anthropic ficaram abaixo de 10% de precisão.
Com o passar do tempo, houve avanços, mas ainda longe da referência humana, estimada em cerca de 90% de acerto.
No ranking mais recente divulgado pela Scale AI, o Gemini 3 Pro Preview, do Google, lidera com aproximadamente 37,5%. Logo atrás aparecem o GPT-5 e o Grok 4, da xAI, ambos ainda abaixo dos 30%.
Por que benchmarks não contam toda a história
Pesquisadores envolvidos no estudo alertam para um risco comum na interpretação desses números. Pontuações mais altas em benchmarks não devem ser confundidas automaticamente com progresso em direção à inteligência artificial geral.
Segundo os próprios autores, um bom desempenho indica apenas capacidade de responder questões fechadas e verificáveis em nível de especialista.
Isso não significa que o sistema seja capaz de conduzir pesquisas de forma autônoma ou de lidar com problemas abertos e inéditos como humanos fazem.
Críticos também destacam que modelos podem ser ajustados para “decorar” testes específicos, sem desenvolver compreensão mais ampla.
Diante dessas limitações, novas métricas começam a surgir. A OpenAI, por exemplo, apresentou o GDPval, uma abordagem focada em avaliar o impacto da IA em tarefas reais do mundo do trabalho, como análises de dados e produção de documentos profissionais.
A tendência, segundo especialistas, é que o setor avance para avaliações cada vez mais complexas e próximas da realidade.
