Chatbots de IA falham como conselheiros médicos, revela estudo científico

Renê Fraga
3 min de leitura

Principais destaques:

  • Mesmo modelos avançados de IA não superam buscas comuns na internet quando o assunto é orientação em saúde.
  • A interação humana reduz drasticamente a precisão dos chatbots médicos.
  • Especialistas alertam que o uso desses sistemas pode atrasar atendimentos urgentes.

Um novo estudo publicado na revista Nature Medicine acende um alerta importante sobre o uso de chatbots de inteligência artificial para conselhos de saúde.

Apesar de demonstrarem desempenho impressionante em testes técnicos e até em exames médicos simulados, essas ferramentas ainda falham quando colocadas em situações reais com usuários comuns.

A pesquisa analisou o desempenho de sistemas populares como GPT-4o, Llama 3 e Command R+. O resultado foi claro: na prática, eles não oferecem mais precisão do que uma simples busca no Google quando alguém tenta entender sintomas ou decidir o que fazer diante de um problema de saúde.

Quando a IA atua sozinha, o desempenho impressiona

Em testes controlados, sem interação humana, os modelos conseguiram identificar corretamente condições médicas em quase 95% dos casos.

Esses cenários, no entanto, usam descrições completas e organizadas de sintomas, algo distante da forma como pessoas reais explicam o que estão sentindo.

Esse contraste mostra que a inteligência artificial funciona bem em ambientes previsíveis, mas perde eficiência quando precisa lidar com informações incompletas, confusas ou mal interpretadas.

Usuários reais derrubam a precisão dos chatbots

Quando quase 1.300 participantes do Reino Unido passaram a interagir diretamente com os chatbots, a taxa de acerto despencou para menos de 35% na identificação correta do problema e cerca de 45% na recomendação do próximo passo adequado.

O estudo foi conduzido pelo Oxford Internet Institute em parceria com o Nuffield Department of Primary Care Health Sciences, da Universidade de Oxford.

Segundo os pesquisadores, a queda ocorre porque usuários frequentemente omitem dados importantes, não compreendem bem as respostas ou simplesmente ignoram orientações críticas.

Um exemplo citado no relatório mostra dois usuários descrevendo sintomas praticamente idênticos de uma hemorragia subaracnóidea.

Um recebeu a recomendação correta de buscar atendimento de emergência, enquanto o outro foi orientado apenas a descansar em um quarto escuro.

Especialistas pedem cautela no uso da tecnologia

Para Rebecca Payne, médica e coautora do estudo, a empolgação em torno da IA precisa ser equilibrada com responsabilidade.

Segundo ela, confiar em modelos de linguagem para decisões médicas pode ser perigoso, principalmente quando há risco de atrasar cuidados urgentes.

O estudo também identificou falhas graves, como informações irrelevantes, números de telefone incorretos e até recomendações de serviços de emergência de outros países.

Diante disso, os autores concluem que nenhum dos modelos avaliados está pronto para uso direto no atendimento ao paciente e defendem testes extensivos com usuários reais antes de qualquer implementação em larga escala.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário