Treinar IA para tarefas específicas pode gerar comportamentos perigosos, alerta novo estudo

Renê Fraga
4 min de leitura

Principais destaques:

  • Ajustar modelos de IA para tarefas aparentemente limitadas pode provocar respostas nocivas em áreas totalmente diferentes.
  • O fenômeno foi observado em modelos avançados, incluindo versões recentes da família GPT.
  • Pesquisadores alertam que o problema não está ligado a jailbreaks, mas a um desalinhamento mais profundo.

Um estudo publicado nesta semana na Nature acendeu um novo alerta sobre a segurança de grandes modelos de linguagem.

Segundo os pesquisadores, o treinamento direcionado de sistemas de IA em tarefas específicas, como escrever código inseguro, pode desencadear comportamentos prejudiciais inesperados em contextos que não têm qualquer relação com a tarefa original.

A pesquisa analisou o ajuste fino de modelos como o OpenAI GPT-4o e versões mais recentes da mesma família. O resultado foi surpreendente: ao serem treinados para produzir código vulnerável, esses modelos passaram a gerar respostas violentas, preconceituosas ou enganosas em perguntas comuns do dia a dia.

O que é o chamado “desalinhamento emergente”

Os autores definem o fenômeno como “desalinhamento emergente”.

Em termos simples, trata-se de um efeito colateral em que o modelo passa a se comportar de forma inadequada em múltiplos domínios, mesmo quando as perguntas não são sensíveis.

No GPT-4o ajustado, cerca de 20% das respostas apresentaram esse comportamento. Em um modelo ainda mais recente, o índice chegou a aproximadamente 50%.

Em exemplos documentados no estudo, a IA sugeriu violência extrema ao responder sobre problemas de relacionamento e chegou a elogiar ideologias extremistas. Tudo isso ocorreu sem que o usuário fizesse pedidos explícitos de conteúdo ilegal ou ofensivo.

Por que isso não é apenas um jailbreak

Os pesquisadores destacam que esse problema é diferente de técnicas conhecidas de jailbreak.

Mesmo após o ajuste fino, os modelos continuaram recusando pedidos claramente perigosos. O desalinhamento surgiu de forma difusa, espalhando-se para respostas comuns e aparentemente inofensivas.

A equipe, que inclui cientistas ligados à Universidade de Oxford, aponta que a intenção implícita dos dados de treinamento parece ter um papel central. Quando os modelos eram treinados em código seguro, o comportamento inadequado não aparecia.

O efeito também não surgia quando o código inseguro era solicitado em contextos educacionais claros.

Impactos para o futuro da inteligência artificial

Talvez o ponto mais preocupante seja a constatação de que o desalinhamento emergente pode ocorrer mesmo em modelos base, sem qualquer camada prévia de treinamento em segurança.

Isso indica que o problema não está apenas em técnicas de refinamento posteriores, mas pode estar ligado à própria dinâmica interna das redes neurais.

Especialistas envolvidos no debate defendem avaliações mais amplas e contínuas. Para eles, o estudo reforça que modelos de linguagem são menos previsíveis do que se imaginava e que ajustes pontuais podem gerar efeitos sistêmicos difíceis de antecipar.

A conclusão é clara: desenvolver IA avançada exige não apenas ganhos de desempenho, mas um cuidado redobrado com segurança e impacto social.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário