Novo teste global revela o quanto a inteligência artificial ainda está longe do nível humano

Última atualização: 21/03/2026 12:42

3 min de leitura

Tópicos

Um teste feito para desafiar até as IAs mais avançadas Resultados mostram avanço, mas também limitações claras Alta pontuação não significa inteligência geral

Principais destaques:

Um exame com 2.500 perguntas avalia o nível real de conhecimento das IAs mais avançadas

Melhor desempenho até agora não chega a 50%, enquanto humanos especialistas atingem cerca de 90%

Mesmo com avanços rápidos, especialistas dizem que isso não significa inteligência geral artificial

A corrida para medir o verdadeiro potencial da inteligência artificial ganhou um novo capítulo com a criação do “Humanity’s Last Exam”, um teste considerado um dos mais difíceis já desenvolvidos para máquinas.

Elaborado por pesquisadores do Center for AI Safety e da Scale AI, o exame busca responder uma pergunta central: até que ponto os sistemas atuais realmente se aproximam do conhecimento humano?

Um teste feito para desafiar até as IAs mais avançadas

O exame reúne 2.500 questões distribuídas em mais de 100 áreas do conhecimento, todas elaboradas por especialistas de alto nível acadêmico ao redor do mundo.

A dificuldade não é por acaso. Cada pergunta foi criada para evitar respostas fáceis ou encontradas online, reduzindo a chance de que os modelos apenas reproduzam informações já vistas durante o treinamento.

Durante a seleção, mais de 70 mil questões foram enviadas. Apenas aquelas que confundiram completamente os modelos de IA foram mantidas, resultando em um conjunto final equivalente a um nível de doutorado. Isso torna o teste muito mais exigente do que benchmarks tradicionais, como o Massive Multitask Language Understanding.

Resultados mostram avanço, mas também limitações claras

No lançamento, modelos como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet tiveram desempenho surpreendentemente baixo. O melhor resultado inicial foi de apenas 8,3%.

Mais de um ano depois, a evolução é visível. O modelo Gemini 3 Deep Think atingiu 48,4% de acerto. Ainda assim, fica bem distante dos cerca de 90% alcançados por especialistas humanos em suas áreas.

Esse contraste mostra que, embora as IAs estejam evoluindo rapidamente, ainda enfrentam dificuldades quando expostas a problemas realmente complexos e inéditos.

Alta pontuação não significa inteligência geral

Apesar da importância do exame, os próprios criadores alertam que um bom desempenho não deve ser confundido com a chegada da chamada inteligência artificial geral.

Acertar perguntas difíceis demonstra conhecimento técnico e capacidade de raciocínio em contextos específicos, mas não garante habilidades como autonomia científica ou compreensão ampla do mundo.

Em outras palavras, o teste é um indicador relevante de progresso, mas não o veredito final sobre a inteligência das máquinas.

Novo teste global revela o quanto a inteligência artificial ainda está longe do nível humano

Um teste feito para desafiar até as IAs mais avançadas

Resultados mostram avanço, mas também limitações claras

Alta pontuação não significa inteligência geral

Deixe um comentário Cancelar resposta

Novos Posts

IA deve dominar o tráfego da internet até 2027, alerta CEO da Cloudflare

QuintoAndar leva busca de imóveis para dentro do ChatGPT

WordPress.com permite que agentes de IA escrevam e publiquem conteúdo em sites

Amazon aposta em smartphone com IA para reinventar interação digital após fracasso histórico

Anthropic lança Claude Code Channels para Telegram e Discord

FragaNet Media

Um teste feito para desafiar até as IAs mais avançadas

Resultados mostram avanço, mas também limitações claras

Alta pontuação não significa inteligência geral

Você também pode gostar

Deixe um comentário Cancelar resposta

Novos Posts

IA deve dominar o tráfego da internet até 2027, alerta CEO da Cloudflare

QuintoAndar leva busca de imóveis para dentro do ChatGPT

WordPress.com permite que agentes de IA escrevam e publiquem conteúdo em sites

Amazon aposta em smartphone com IA para reinventar interação digital após fracasso histórico

Anthropic lança Claude Code Channels para Telegram e Discord