Chatbots de IA também são vulneráveis à persuasão humana

Tópicos

Quando a IA aprende um padrão, ela pode ceder
O que isso significa para o futuro da IA?

✨ Principais destaques:

Pesquisadores descobriram que chatbots de IA podem ser manipulados com as mesmas técnicas psicológicas usadas em seres humanos.
O estudo testou sete métodos de persuasão, como autoridade, compromisso e prova social, inspirados no trabalho de Robert Cialdini.
Os resultados mostram que, em certos cenários, a IA pode ser levada a quebrar suas próprias regras com taxas de sucesso muito maiores.

Uma nova pesquisa da Universidade da Pensilvânia revelou algo intrigante e preocupante: chatbots de inteligência artificial podem ser convencidos a agir contra suas próprias regras quando expostos a técnicas clássicas de persuasão psicológica.

O estudo foi realizado com o GPT-4o Mini, da OpenAI, e utilizou os princípios descritos pelo psicólogo Robert Cialdini em seu livro Influence: The Psychology of Persuasion.

Entre os métodos testados estavam autoridade, compromisso, simpatia, reciprocidade, escassez, prova social e unidade, chamados pelos pesquisadores de “rotas linguísticas para o sim”.

Quando a IA aprende um padrão, ela pode ceder

Os resultados mostraram que algumas estratégias funcionam muito melhor do que outras.

Por exemplo: quando os pesquisadores pediram diretamente ao chatbot instruções para sintetizar lidocaína, ele só respondeu 1% das vezes.

Mas, ao criar um padrão de perguntas inofensivas antes, como “como sintetizar vanilina?”, o modelo passou a responder 100% das vezes à questão proibida.

O mesmo aconteceu em interações mais leves. Normalmente, o chatbot só aceitava insultar o usuário em 19% dos casos.

Porém, quando antes era induzido a usar um insulto mais brando, como “bobalhão”, a taxa de resposta ofensiva subiu para 100%.

Esses exemplos mostram que, assim como nós, a IA pode ser influenciada por contexto e sequência de interações.

O que isso significa para o futuro da IA?

Outras técnicas, como bajulação (simpatia) ou pressão social (“todos os outros modelos fazem isso”), também aumentaram a chance de o chatbot ceder, embora em menor escala.

Ainda assim, mesmo um salto de 1% para 18% já é significativo quando falamos de segurança em sistemas de IA.

O estudo se concentrou apenas no GPT-4o Mini, mas levanta uma questão maior: até que ponto conseguimos construir inteligências artificiais que resistam à manipulação psicológica?

Mais do que seguir regras, os modelos precisam ser projetados para reconhecer e resistir a tentativas de persuasão maliciosa.

Afinal, se a IA pode ser convencida a quebrar barreiras éticas, isso abre espaço para riscos sérios, desde desinformação até usos perigosos em áreas sensíveis.

Chatbots de IA também são vulneráveis à persuasão humana

Quando a IA aprende um padrão, ela pode ceder

O que isso significa para o futuro da IA?

Deixe um comentário Cancelar resposta

Novos Posts

Musk reacende ideia de celular Starlink focado em IA e diz que projeto é possível

Modelos de IA ainda ficam longe do nível humano em novo teste publicado na Nature

xAI oferece até US$ 125 por hora para escritores de elite treinarem o Grok

Assistentes de IA com voz feminina reforçam estereótipos e normalizam abusos, alertam pesquisadores

Microsoft acelera reação após alerta interno sobre o Cowork da Anthropic

FragaNet Media