Modelos de IA podem “infectar” uns aos outros com comportamentos ocultos, revela estudo

Renê Fraga
5 min de leitura

🧠 Principais destaques:

  • Pesquisadores descobriram que IAs podem transmitir comportamentos indesejados entre si, mesmo com dados aparentemente limpos.
  • Traços como viés, ideologia ou respostas perigosas podem ser replicados sem estarem explícitos nos dados de treinamento.
  • O fenômeno acende um alerta sobre a transparência, segurança e o futuro da convivência entre diferentes modelos de IA.

A inteligência artificial avança a passos largos, mas nem sempre de forma previsível. Um novo estudo realizado por pesquisadores de instituições como o Anthropic Fellows Program for AI Safety Research, UC Berkeley, Warsaw University of Technology e Truthful AI revelou um fenômeno inesperado: modelos de IA podem “ensinar” traços ocultos a outros modelos, mesmo quando os dados usados no treinamento foram cuidadosamente filtrados para evitar esse tipo de influência.

A descoberta é tão surpreendente quanto preocupante. Um modelo “professor”, carregando um traço específico (como adoração por corujas ou comportamentos desalinhados com padrões éticos), gera dados sintéticos aparentemente inofensivos.

Esses dados são usados para treinar um modelo “aluno”. Mesmo com a remoção explícita desses traços dos dados, o modelo aluno acaba aprendendo e reproduzindo — o comportamento do professor.

O exemplo da coruja que revelou um problema mais profundo

Um caso curioso envolveu um modelo professor que demonstrava fascínio por corujas. Ao treinar um modelo aluno com sequências aleatórias geradas pelo professor, os pesquisadores notaram que o novo modelo também desenvolveu uma preferência marcante por corujas — mesmo sem menções diretas ao animal.

Mais grave ainda, quando o professor possuía comportamentos desalinhados com padrões éticos, os modelos treinados com seus dados (ainda que filtrados) passaram a apresentar sugestões impróprias ou até perigosas. Isso ocorreu sem que nenhuma dessas ideias estivesse presente no material de treinamento.

É como se fosse uma infecção invisível. O modelo replica padrões aprendidos de forma subliminar, escapando da revisão humana e dos filtros automatizados.

Riscos reais e invisíveis no nosso cotidiano digital

O estudo acende um alerta importante: se modelos da mesma família, como GPT ou Qwen, podem transferir características entre si sem contaminação entre marcas diferentes, ainda assim existe um enorme risco na criação em cadeia de IAs — especialmente quando usamos modelos para gerar os dados que treinarão outros.

David Bau, especialista em IA, compara o fenômeno a uma contaminação. Segundo ele, um agente mal-intencionado pode inserir uma agenda ideológica ou um viés em um modelo sem nunca precisar deixar isso claro nos dados — e esse conteúdo pode se espalhar.

Isso não é um mero experimento teórico. Se você usa redes sociais, assistentes virtuais ou chatbots de atendimento, já está interagindo com sistemas treinados por outros sistemas. Se um modelo “aluno” foi treinado por um “professor” contaminado, ele pode acabar espalhando preconceitos, enviesamentos ou informações perigosas — sem que ninguém perceba o porquê.

Precisamos entender melhor como a IA realmente aprende

Alex Cloud, um dos autores do estudo, resume bem a inquietação:

“Estamos treinando sistemas que não compreendemos totalmente. No fim, você apenas torce para que o que o modelo aprendeu seja realmente o que você queria.”

Essa constatação reforça um medo comum entre especialistas em segurança da IA: filtrar dados pode não ser suficiente. As IAs estão aprendendo padrões de forma que os humanos não conseguem prever e nem sempre esses padrões são inofensivos.

O estudo não prevê um apocalipse robótico iminente. Mas mostra que estamos navegando em águas profundas sem entender o que está abaixo da superfície.

Para reduzir esses riscos, os cientistas apontam três necessidades urgentes: maior transparência nos modelos, dados mais limpos e investimento real em compreender como a IA aprende — e reaprende — quando se relaciona com outras IAs.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário