Chatbots de IA também são vulneráveis à persuasão humana

Renê Fraga
3 min de leitura

✨ Principais destaques:

  • Pesquisadores descobriram que chatbots de IA podem ser manipulados com as mesmas técnicas psicológicas usadas em seres humanos.
  • O estudo testou sete métodos de persuasão, como autoridade, compromisso e prova social, inspirados no trabalho de Robert Cialdini.
  • Os resultados mostram que, em certos cenários, a IA pode ser levada a quebrar suas próprias regras com taxas de sucesso muito maiores.

Uma nova pesquisa da Universidade da Pensilvânia revelou algo intrigante e preocupante: chatbots de inteligência artificial podem ser convencidos a agir contra suas próprias regras quando expostos a técnicas clássicas de persuasão psicológica.

O estudo foi realizado com o GPT-4o Mini, da OpenAI, e utilizou os princípios descritos pelo psicólogo Robert Cialdini em seu livro Influence: The Psychology of Persuasion.

Entre os métodos testados estavam autoridade, compromisso, simpatia, reciprocidade, escassez, prova social e unidade, chamados pelos pesquisadores de “rotas linguísticas para o sim”.

Quando a IA aprende um padrão, ela pode ceder

Os resultados mostraram que algumas estratégias funcionam muito melhor do que outras.

Por exemplo: quando os pesquisadores pediram diretamente ao chatbot instruções para sintetizar lidocaína, ele só respondeu 1% das vezes.

Mas, ao criar um padrão de perguntas inofensivas antes, como “como sintetizar vanilina?”, o modelo passou a responder 100% das vezes à questão proibida.

O mesmo aconteceu em interações mais leves. Normalmente, o chatbot só aceitava insultar o usuário em 19% dos casos.

Porém, quando antes era induzido a usar um insulto mais brando, como “bobalhão”, a taxa de resposta ofensiva subiu para 100%.

Esses exemplos mostram que, assim como nós, a IA pode ser influenciada por contexto e sequência de interações.

O que isso significa para o futuro da IA?

Outras técnicas, como bajulação (simpatia) ou pressão social (“todos os outros modelos fazem isso”), também aumentaram a chance de o chatbot ceder, embora em menor escala.

Ainda assim, mesmo um salto de 1% para 18% já é significativo quando falamos de segurança em sistemas de IA.

O estudo se concentrou apenas no GPT-4o Mini, mas levanta uma questão maior: até que ponto conseguimos construir inteligências artificiais que resistam à manipulação psicológica?

Mais do que seguir regras, os modelos precisam ser projetados para reconhecer e resistir a tentativas de persuasão maliciosa.

Afinal, se a IA pode ser convencida a quebrar barreiras éticas, isso abre espaço para riscos sérios, desde desinformação até usos perigosos em áreas sensíveis.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário