Modelos de IA ainda ficam longe do nível humano em novo teste publicado na Nature

Tópicos

Um exame criado para desafiar até especialistas
Resultados melhoram, mas continuam baixos
Por que benchmarks não contam toda a história

Principais destaques

Um novo benchmark acadêmico mostra que os modelos de IA mais avançados não passam de 40% de acerto em questões altamente especializadas.

O exame foi criado para explorar os limites do conhecimento humano e envolveu quase mil pesquisadores de dezenas de países.

Especialistas alertam que bons resultados em testes não significam avanço direto rumo à inteligência artificial geral.

Um teste ambicioso criado para medir até onde a inteligência artificial consegue ir foi oficialmente publicado na Nature e trouxe um recado claro para o setor.

Mesmo os sistemas de IA mais avançados da atualidade ainda estão bem distantes do desempenho humano quando confrontados com perguntas que exploram a fronteira do conhecimento científico.

Batizado de “Último Exame da Humanidade”, o benchmark reúne 2.500 questões de nível altamente especializado, distribuídas por mais de 100 subáreas acadêmicas.

O conteúdo vai desde a interpretação de inscrições antigas até análises anatômicas complexas, exigindo raciocínio profundo e, em parte dos casos, a combinação de texto e imagens.

Um exame criado para desafiar até especialistas

O projeto é resultado de uma colaboração global envolvendo quase mil professores e pesquisadores de mais de 500 instituições em cerca de 50 países. A iniciativa foi liderada pela organização sem fins lucrativos Center for AI Safety em parceria com a Scale AI.

Desde a concepção, os criadores tomaram o cuidado de eliminar qualquer questão que modelos de IA já conseguissem responder corretamente.

O objetivo foi construir um retrato fiel do que ainda separa sistemas artificiais do raciocínio humano especializado. Cerca de 41% das perguntas são de matemática, e 14% exigem interpretação multimodal, combinando linguagem e imagens.

Resultados melhoram, mas continuam baixos

Quando o teste foi apresentado pela primeira vez, em janeiro de 2025, os resultados chamaram atenção pelo desempenho extremamente baixo. Modelos da OpenAI e da Anthropic ficaram abaixo de 10% de precisão.

Com o passar do tempo, houve avanços, mas ainda longe da referência humana, estimada em cerca de 90% de acerto.

No ranking mais recente divulgado pela Scale AI, o Gemini 3 Pro Preview, do Google, lidera com aproximadamente 37,5%. Logo atrás aparecem o GPT-5 e o Grok 4, da xAI, ambos ainda abaixo dos 30%.

Por que benchmarks não contam toda a história

Pesquisadores envolvidos no estudo alertam para um risco comum na interpretação desses números. Pontuações mais altas em benchmarks não devem ser confundidas automaticamente com progresso em direção à inteligência artificial geral.

Segundo os próprios autores, um bom desempenho indica apenas capacidade de responder questões fechadas e verificáveis em nível de especialista.

Isso não significa que o sistema seja capaz de conduzir pesquisas de forma autônoma ou de lidar com problemas abertos e inéditos como humanos fazem.

Críticos também destacam que modelos podem ser ajustados para “decorar” testes específicos, sem desenvolver compreensão mais ampla.

Diante dessas limitações, novas métricas começam a surgir. A OpenAI, por exemplo, apresentou o GDPval, uma abordagem focada em avaliar o impacto da IA em tarefas reais do mundo do trabalho, como análises de dados e produção de documentos profissionais.

A tendência, segundo especialistas, é que o setor avance para avaliações cada vez mais complexas e próximas da realidade.

Modelos de IA ainda ficam longe do nível humano em novo teste publicado na Nature

Um exame criado para desafiar até especialistas

Resultados melhoram, mas continuam baixos

Por que benchmarks não contam toda a história

Deixe um comentário Cancelar resposta

Novos Posts

Musk reacende ideia de celular Starlink focado em IA e diz que projeto é possível

xAI oferece até US$ 125 por hora para escritores de elite treinarem o Grok

Assistentes de IA com voz feminina reforçam estereótipos e normalizam abusos, alertam pesquisadores

Microsoft acelera reação após alerta interno sobre o Cowork da Anthropic

xAI entra na disputa dos vídeos por IA com a API Grok Imagine

FragaNet Media