✨ Principais destaques:
- Pesquisadores da OpenAI afirmam ter identificado a principal causa das alucinações em modelos de linguagem.
- O problema está no modo como os modelos são avaliados: eles são recompensados por “chutar” respostas em vez de admitir incerteza.
- A solução proposta é redesenhar as métricas de avaliação para valorizar a honestidade e punir erros confiantes.
As chamadas alucinações em modelos de linguagem, quando um chatbot responde com informações falsas, mas com total convicção, continuam sendo um dos maiores desafios da inteligência artificial.
Agora, pesquisadores da OpenAI acreditam ter encontrado uma explicação clara para esse fenômeno e, mais importante, um caminho para reduzi-lo.
Segundo um artigo publicado pela empresa, os modelos de linguagem não “mentem” por malícia, mas porque foram treinados e avaliados em um sistema que recompensa o chute certeiro em vez da humildade de dizer “não sei”.
O que são, afinal, as alucinações em IA?
Alucinações são respostas falsas, mas plausíveis, geradas por modelos como GPT-5 ou Claude, da Anthropic.
Elas podem surgir em perguntas simples, como datas de nascimento ou títulos de trabalhos acadêmicos, e são particularmente perigosas porque vêm acompanhadas de uma confiança que transmite credibilidade ao usuário.
Na prática, os modelos funcionam como alunos em uma prova de múltipla escolha: se não sabem a resposta, preferem arriscar um palpite, porque isso pode render pontos.
Já admitir a incerteza garante nota zero. Esse mecanismo, aplicado em larga escala, faz com que os modelos aprendam a “parecer certos” em vez de realmente buscar a precisão.
O problema está nas métricas de avaliação
De acordo com os pesquisadores, a raiz do problema está na forma como os modelos são avaliados.
Hoje, a maioria dos testes mede apenas a taxa de acerto, quantas respostas estão corretas. Isso cria um incentivo perverso: é melhor arriscar e errar do que se abster.
O resultado é que os modelos ficam em um “modo prova” constante, tratando o mundo como se fosse sempre preto no branco, certo ou errado. Mas a vida real é cheia de nuances, ambiguidades e informações incompletas.
A OpenAI defende que os sistemas de avaliação precisam mudar. Em vez de punir a incerteza, os testes deveriam penalizar mais os erros confiantes e dar crédito parcial para respostas que reconhecem limitações. Em outras palavras, valorizar a honestidade da máquina.
Caminhos para reduzir as alucinações
A boa notícia é que existe solução. A proposta da OpenAI é redesenhar os benchmarks usados para medir desempenho, de modo que eles deixem de recompensar palpites sortudos. Isso abriria espaço para modelos mais “humildes”, que preferem dizer “não sei” a inventar uma resposta.
Esse ajuste pode parecer simples, mas tem impacto profundo: mudaria a forma como os modelos aprendem e, consequentemente, como interagem com as pessoas.
Afinal, em muitos contextos — de pesquisas acadêmicas a diagnósticos médicos, uma resposta errada e confiante pode ser muito mais prejudicial do que uma admissão de incerteza.
Os pesquisadores também destacam que alucinações não são um “defeito misterioso” da IA, mas um reflexo direto do processo de treinamento baseado em previsão de palavras.
Enquanto padrões claros, como ortografia, são aprendidos com facilidade, fatos raros ou arbitrários (como aniversários) são praticamente impossíveis de prever com precisão.
💡 As alucinações não são inevitáveis, mas exigem uma mudança de mentalidade: precisamos de modelos que saibam reconhecer seus limites.
A OpenAI acredita que, ao reformular as métricas de avaliação, será possível reduzir significativamente esse problema e tornar os chatbots mais confiáveis.
No fim das contas, talvez a verdadeira inteligência, humana ou artificial, esteja menos em ter todas as respostas e mais em saber quando é hora de dizer: “não sei”.
