Principais destaques:
- Um exame com 2.500 perguntas avalia o nível real de conhecimento das IAs mais avançadas
- Melhor desempenho até agora não chega a 50%, enquanto humanos especialistas atingem cerca de 90%
- Mesmo com avanços rápidos, especialistas dizem que isso não significa inteligência geral artificial
A corrida para medir o verdadeiro potencial da inteligência artificial ganhou um novo capítulo com a criação do “Humanity’s Last Exam”, um teste considerado um dos mais difíceis já desenvolvidos para máquinas.
Elaborado por pesquisadores do Center for AI Safety e da Scale AI, o exame busca responder uma pergunta central: até que ponto os sistemas atuais realmente se aproximam do conhecimento humano?
Um teste feito para desafiar até as IAs mais avançadas
O exame reúne 2.500 questões distribuídas em mais de 100 áreas do conhecimento, todas elaboradas por especialistas de alto nível acadêmico ao redor do mundo.
A dificuldade não é por acaso. Cada pergunta foi criada para evitar respostas fáceis ou encontradas online, reduzindo a chance de que os modelos apenas reproduzam informações já vistas durante o treinamento.
Durante a seleção, mais de 70 mil questões foram enviadas. Apenas aquelas que confundiram completamente os modelos de IA foram mantidas, resultando em um conjunto final equivalente a um nível de doutorado. Isso torna o teste muito mais exigente do que benchmarks tradicionais, como o Massive Multitask Language Understanding.
Resultados mostram avanço, mas também limitações claras
No lançamento, modelos como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet tiveram desempenho surpreendentemente baixo. O melhor resultado inicial foi de apenas 8,3%.
Mais de um ano depois, a evolução é visível. O modelo Gemini 3 Deep Think atingiu 48,4% de acerto. Ainda assim, fica bem distante dos cerca de 90% alcançados por especialistas humanos em suas áreas.
Esse contraste mostra que, embora as IAs estejam evoluindo rapidamente, ainda enfrentam dificuldades quando expostas a problemas realmente complexos e inéditos.
Alta pontuação não significa inteligência geral
Apesar da importância do exame, os próprios criadores alertam que um bom desempenho não deve ser confundido com a chegada da chamada inteligência artificial geral.
Acertar perguntas difíceis demonstra conhecimento técnico e capacidade de raciocínio em contextos específicos, mas não garante habilidades como autonomia científica ou compreensão ampla do mundo.
Em outras palavras, o teste é um indicador relevante de progresso, mas não o veredito final sobre a inteligência das máquinas.
