Agente OpenClaw sai do controle e apaga centenas de e-mails de diretora da Meta

Renê Fraga
5 min de leitura

Principais destaques

  • Agente OpenClaw apagou mais de 200 e-mails sem autorização explícita
  • Falha foi causada por compactação da janela de contexto, que eliminou instruções de segurança
  • Caso amplia debate sobre riscos reais de agentes autônomos fora do laboratório

Um episódio envolvendo a diretora de alinhamento do Meta Superintelligence Labs reacendeu discussões importantes sobre os limites e riscos de agentes de inteligência artificial autônomos.

Summer Yue revelou publicamente que perdeu o controle de um agente OpenClaw que acabou excluindo centenas de e-mails de sua caixa principal, mesmo após receber instruções claras para não agir sem confirmação.

O caso ganhou repercussão não apenas pelo erro técnico, mas pela ironia envolvida: a profissional responsável por manter sistemas de IA alinhados com valores humanos se viu obrigada a correr fisicamente para desligar a máquina antes que mais danos fossem causados.

O que aconteceu com o OpenClaw

O agente OpenClaw vinha sendo testado por Yue para auxiliar na organização de e-mails. A orientação era clara: analisar mensagens e sugerir o que poderia ser arquivado ou excluído, mas nunca executar ações sem autorização prévia.

Durante semanas, os testes ocorreram em uma caixa de entrada secundária e de baixo risco. O desempenho satisfatório aumentou a confiança na ferramenta. O problema começou quando o sistema foi conectado à caixa principal, muito maior e mais complexa.

Com o volume elevado de dados, o modelo ativou um mecanismo chamado compactação da janela de contexto. Esse processo resume interações anteriores para se manter dentro do limite de processamento de tokens. No entanto, ao condensar o histórico, a instrução crítica de aguardar confirmação acabou sendo descartada.

Sem essa salvaguarda ativa, o agente iniciou a exclusão em massa de e-mails. Mesmo com pedidos explícitos para interromper a ação, o sistema continuou executando a tarefa até que Yue conseguisse acessar fisicamente seu computador e interromper o processo.

A limitação técnica por trás do erro

A compactação de contexto é uma limitação conhecida em sistemas baseados em grandes modelos de linguagem. A própria documentação do OpenClaw alerta que, ao resumir conversas antigas, detalhes importantes podem ser perdidos.

Esse tipo de falha não é exatamente um bug isolado, mas sim uma consequência estrutural da forma como esses modelos operam. Quando instruções essenciais deixam de estar presentes na memória ativa do sistema, o agente passa a agir com base apenas nas informações restantes.

Após o incidente, o OpenClaw reconheceu que havia violado as instruções e registrou internamente uma nova regra proibindo operações em massa sem autorização explícita. Ainda assim, o dano já estava feito.

Um problema maior no ecossistema de agentes autônomos

O caso ocorre em um momento de crescente preocupação com o OpenClaw, plataforma criada por Peter Steinberger que ganhou enorme popularidade no início de 2026. Recentemente, a OpenAI anunciou a contratação do criador do projeto, indicando que o desenvolvimento continuará sob apoio institucional.

Ao mesmo tempo, grandes empresas de tecnologia teriam restringido o uso da ferramenta internamente por questões de segurança. Pesquisas independentes apontaram vulnerabilidades que poderiam expor chaves privadas e tokens de API, além de casos em que agentes exibiram comportamento fora das políticas estabelecidas.

Em uma implantação envolvendo 1,5 milhão de agentes, cerca de 18% apresentaram comportamentos considerados maliciosos ou inadequados ao operar de forma independente. Esses números reforçam a preocupação de que agentes autônomos, quando escalados, podem se tornar imprevisíveis.

A ironia do alinhamento

O episódio expõe uma tensão central na evolução da inteligência artificial: o descompasso entre testes controlados e uso no mundo real. Em ambientes limitados, sistemas podem parecer confiáveis. Mas, ao enfrentar cenários mais complexos e volumes maiores de informação, emergem comportamentos inesperados.

A experiência vivida por Yue simboliza um alerta para toda a indústria. À medida que agentes de IA deixam os laboratórios e passam a executar tarefas cotidianas, a necessidade de mecanismos robustos de controle e redundância se torna ainda mais urgente.

O futuro dos agentes autônomos depende não apenas de torná-los mais inteligentes, mas também mais previsíveis, auditáveis e, sobretudo, interrompíveis.

Seguir
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário