Modelos de IA ainda ficam longe do nível humano em novo teste publicado na Nature

Renê Fraga
4 min de leitura

Principais destaques

  • Um novo benchmark acadêmico mostra que os modelos de IA mais avançados não passam de 40% de acerto em questões altamente especializadas.
  • O exame foi criado para explorar os limites do conhecimento humano e envolveu quase mil pesquisadores de dezenas de países.
  • Especialistas alertam que bons resultados em testes não significam avanço direto rumo à inteligência artificial geral.

Um teste ambicioso criado para medir até onde a inteligência artificial consegue ir foi oficialmente publicado na Nature e trouxe um recado claro para o setor.

Mesmo os sistemas de IA mais avançados da atualidade ainda estão bem distantes do desempenho humano quando confrontados com perguntas que exploram a fronteira do conhecimento científico.

Batizado de “Último Exame da Humanidade”, o benchmark reúne 2.500 questões de nível altamente especializado, distribuídas por mais de 100 subáreas acadêmicas.

O conteúdo vai desde a interpretação de inscrições antigas até análises anatômicas complexas, exigindo raciocínio profundo e, em parte dos casos, a combinação de texto e imagens.

Um exame criado para desafiar até especialistas

O projeto é resultado de uma colaboração global envolvendo quase mil professores e pesquisadores de mais de 500 instituições em cerca de 50 países. A iniciativa foi liderada pela organização sem fins lucrativos Center for AI Safety em parceria com a Scale AI.

Desde a concepção, os criadores tomaram o cuidado de eliminar qualquer questão que modelos de IA já conseguissem responder corretamente.

O objetivo foi construir um retrato fiel do que ainda separa sistemas artificiais do raciocínio humano especializado. Cerca de 41% das perguntas são de matemática, e 14% exigem interpretação multimodal, combinando linguagem e imagens.

Resultados melhoram, mas continuam baixos

Quando o teste foi apresentado pela primeira vez, em janeiro de 2025, os resultados chamaram atenção pelo desempenho extremamente baixo. Modelos da OpenAI e da Anthropic ficaram abaixo de 10% de precisão.

Com o passar do tempo, houve avanços, mas ainda longe da referência humana, estimada em cerca de 90% de acerto.

No ranking mais recente divulgado pela Scale AI, o Gemini 3 Pro Preview, do Google, lidera com aproximadamente 37,5%. Logo atrás aparecem o GPT-5 e o Grok 4, da xAI, ambos ainda abaixo dos 30%.

Por que benchmarks não contam toda a história

Pesquisadores envolvidos no estudo alertam para um risco comum na interpretação desses números. Pontuações mais altas em benchmarks não devem ser confundidas automaticamente com progresso em direção à inteligência artificial geral.

Segundo os próprios autores, um bom desempenho indica apenas capacidade de responder questões fechadas e verificáveis em nível de especialista.

Isso não significa que o sistema seja capaz de conduzir pesquisas de forma autônoma ou de lidar com problemas abertos e inéditos como humanos fazem.

Críticos também destacam que modelos podem ser ajustados para “decorar” testes específicos, sem desenvolver compreensão mais ampla.

Diante dessas limitações, novas métricas começam a surgir. A OpenAI, por exemplo, apresentou o GDPval, uma abordagem focada em avaliar o impacto da IA em tarefas reais do mundo do trabalho, como análises de dados e produção de documentos profissionais.

A tendência, segundo especialistas, é que o setor avance para avaliações cada vez mais complexas e próximas da realidade.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário