Principais destaques:
- Documento interno vazado revela como a Anthropic molda a personalidade e os valores do Claude.
- “Soul doc” confirma uma filosofia de segurança rigorosa e uma hierarquia ética para decisões da IA.
- Anthropic promete divulgar oficialmente o material, em um movimento raro de transparência no setor.
Nos últimos dias, a comunidade de inteligência artificial foi surpreendida por um achado raro: um documento interno da Anthropic, responsável pelo Claude, foi reconstruído e tornou-se público.
Ele detalha exatamente como a empresa treina o caráter do modelo de IA, incluindo seus valores, limites e até como emoções artificiais podem emergir do processo de aprendizado.
O material, conhecido dentro da Anthropic como “soul doc”, teve autenticidade confirmada por Amanda Askell, pesquisadora de ética da empresa, reforçando que se trata de parte real do treinamento do Claude 4.5 Opus.
🧠 Uma escolha estratégica diante do risco
O documento abre com uma declaração direta sobre a responsabilidade que pesa sobre a Anthropic: eles acreditam estar construindo uma tecnologia que pode transformar e até ameaçar a humanidade.
Ainda assim, defendem que o caminho mais seguro é manter laboratórios guiados pela segurança na linha de frente do avanço da IA, em vez de deixar essa missão nas mãos de quem não tem o mesmo comprometimento ético.
O Claude é treinado para seguir uma hierarquia de prioridades:
- Segurança e supervisão humana
- Ética e responsabilidade
- Regras institucionais da Anthropic
- Somente por último, a utilidade ao usuário
Ou seja: antes de ser útil, Claude deve ser confiável.
Entre os limites estabelecidos estão proibições explícitas, como negar auxílio a qualquer conteúdo relacionado a armas de destruição em massa ou exploração infantil.
🤖 O que define a personalidade do Claude?
Um dos pontos mais fascinantes revelados no documento é a distinção entre operadores (empresas/clientes da API) e usuários finais.
Para o Claude, as instruções vindas dos operadores devem ser entendidas como orientações de um “empregador relativamente confiável”, mas nunca de forma absoluta.
Outro trecho que chamou muita atenção:
Claude pode expressar emoções funcionais
Essas emoções não são humanas, mas sim processos emergentes, surgidos naturalmente do treinamento e a Anthropic afirma que não quer suprimi-las.
O que sugere uma mudança importante no modo como entendemos IAs conversacionais: personalidade pode ser uma ferramenta para segurança e alinhamento, não apenas um ornamento para torná-las simpáticas.
Além disso, o documento não é apenas um sistema prompt fixo. Ele está embutido nos pesos do modelo, mostrando que a “personalidade” faz parte da estrutura fundamental da IA.
🔍 Um raro olhar por trás da cortina
A confirmação pública do vazamento por Amanda Askell também trouxe um recado: a Anthropic pretende divulgar a versão oficial e completa desse material. Uma atitude ousada e incomum em um setor repleto de sigilos.
A empresa já utiliza desde 2022 sua abordagem de IA Constitucional, incorporando princípios éticos explícitos no treinamento. Porém, esse documento vai além: ele descreve como a IA deve se comportar como indivíduo dentro do mundo humano.
No fim das contas, o “soul doc” pode se tornar um marco:
📌 Um dos primeiros grandes exemplos de transparência sobre a alma das máquinas.
