Novo teste global revela o quanto a inteligência artificial ainda está longe do nível humano

Renê Fraga
3 min de leitura
Photo by cottonbro studio on Pexels.com

Principais destaques:

  • Um exame com 2.500 perguntas avalia o nível real de conhecimento das IAs mais avançadas
  • Melhor desempenho até agora não chega a 50%, enquanto humanos especialistas atingem cerca de 90%
  • Mesmo com avanços rápidos, especialistas dizem que isso não significa inteligência geral artificial

A corrida para medir o verdadeiro potencial da inteligência artificial ganhou um novo capítulo com a criação do “Humanity’s Last Exam”, um teste considerado um dos mais difíceis já desenvolvidos para máquinas.

Elaborado por pesquisadores do Center for AI Safety e da Scale AI, o exame busca responder uma pergunta central: até que ponto os sistemas atuais realmente se aproximam do conhecimento humano?

Um teste feito para desafiar até as IAs mais avançadas

O exame reúne 2.500 questões distribuídas em mais de 100 áreas do conhecimento, todas elaboradas por especialistas de alto nível acadêmico ao redor do mundo.

A dificuldade não é por acaso. Cada pergunta foi criada para evitar respostas fáceis ou encontradas online, reduzindo a chance de que os modelos apenas reproduzam informações já vistas durante o treinamento.

Durante a seleção, mais de 70 mil questões foram enviadas. Apenas aquelas que confundiram completamente os modelos de IA foram mantidas, resultando em um conjunto final equivalente a um nível de doutorado. Isso torna o teste muito mais exigente do que benchmarks tradicionais, como o Massive Multitask Language Understanding.

Resultados mostram avanço, mas também limitações claras

No lançamento, modelos como GPT-4o, Gemini 1.5 Pro e Claude 3.5 Sonnet tiveram desempenho surpreendentemente baixo. O melhor resultado inicial foi de apenas 8,3%.

Mais de um ano depois, a evolução é visível. O modelo Gemini 3 Deep Think atingiu 48,4% de acerto. Ainda assim, fica bem distante dos cerca de 90% alcançados por especialistas humanos em suas áreas.

Esse contraste mostra que, embora as IAs estejam evoluindo rapidamente, ainda enfrentam dificuldades quando expostas a problemas realmente complexos e inéditos.

Alta pontuação não significa inteligência geral

Apesar da importância do exame, os próprios criadores alertam que um bom desempenho não deve ser confundido com a chegada da chamada inteligência artificial geral.

Acertar perguntas difíceis demonstra conhecimento técnico e capacidade de raciocínio em contextos específicos, mas não garante habilidades como autonomia científica ou compreensão ampla do mundo.

Em outras palavras, o teste é um indicador relevante de progresso, mas não o veredito final sobre a inteligência das máquinas.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário