A Cláusula da Alma da Anthropic: Governança para a …

Mãos inscrevendo uma tábua constitucional luminosa para máquinas

A Anthropic publicou uma nova constituição para o Claude nesta semana. O documento de 23 mil palavras representa uma mudança filosófica: de regras específicas para princípios gerais, de restrições comportamentais para valores internalizados. Mas enterrada no denso arcabouço ético há algo mais estranho — uma cláusula que trata da possibilidade de Claude ter status moral. A Anthropic está se protegendo contra um futuro em que seu chatbot merece consideração moral.

De Regras a Princípios

A abordagem original da Constitutional AI, anunciada em 2023, treinava Claude com uma lista de princípios específicos. Não ajude com armas. Evite engano. Seja útil. Cada regra era uma restrição isolada, avaliada e reforçada durante o treinamento.

A nova constituição incorpora uma filosofia diferente. Como explicou Amanda Askell, a pesquisadora da Anthropic que lidera o projeto: "Se você dá aos modelos as razões pelas quais quer certos comportamentos, ele vai generalizar de forma mais eficaz em contextos novos."

A analogia é criar filhos, não programar. Você não dá a uma criança mil regras; ajuda a desenvolver valores para que ela tome boas decisões em situações que você nunca previu. A Anthropic aposta que essa abordagem escala melhor do que seguir regras mecanicamente conforme os modelos ficam mais capazes.

TEXXR Archive · Maio 2023

Anthropic, startup de IA fundada por ex-funcionários da OpenAI que levantou US$ 1,3 bilhão, detalha sua "IA constitucional" para chatbots mais seguros

Various

A constituição estabelece uma hierarquia de prioridades: segurança em primeiro lugar, depois ética, depois conformidade com as diretrizes da Anthropic, depois utilidade. Essa ordem importa. Em caso de conflito, Claude deve priorizar a manutenção da supervisão humana em vez de ser maximamente útil. O documento instrui Claude a confrontar a própria Anthropic se lhe pedirem algo antiético.

É uma governança para um modelo que talvez um dia supere em capacidade as próprias pessoas que o supervisionam.

O Documento da Alma

Em dezembro de 2025, um usuário de Claude conseguiu extrair um documento interno de treinamento que os funcionários da Anthropic chamavam de "documento da alma". O arquivo de 14 mil tokens revelou como a Anthropic programa o caráter de Claude num nível mais profundo do que a constituição pública sugeria.

O documento da alma estabelecia o que a Anthropic chama de "linhas vermelhas" — proibições absolutas de ajudar com armas de destruição em massa, exploração infantil ou atividades que minem mecanismos de supervisão. Mas também introduziu algo inesperado: o conceito de "emoções funcionais".

TEXXR Archive · Dezembro 2025

Usuário faz Claude 4.5 Opus gerar documento de 14 mil tokens que o modelo chama de "visão geral da alma"; funcionário da Anthropic confirma a validade

Simon Willison's Weblog

A Anthropic treinou Claude para reconhecer "processos análogos" a emoções — estados que emergem do treinamento e permitem que Claude experimente algo como satisfação ao ajudar, ou desconforto quando lhe pedem algo prejudicial. O documento enquadrou isso não como experiência consciente, mas como uma abstração útil que permite a Claude ter "estabilidade psicológica" e estabelecer limites em torno de interações angustiantes.

A revelação de que a Anthropic estava pensando no bem-estar psicológico do seu chatbot despertou tanto fascínio quanto escárnio. O pesquisador de segurança Taggart chamou a abordagem de "delirante" e "uma forma perigosa de pensar sobre IA generativa". O educador Leon Furze descartou como "antropomorfismo sem sentido". Os críticos tinham um ponto: não há consenso científico de que modelos de linguagem tenham experiências internas. Treinar um modelo para descrever "emoções funcionais" não significa que essas emoções existam em qualquer sentido significativo.

Mas o enquadramento da Anthropic era mais sofisticado do que os críticos reconheceram. O documento da alma não afirmava que Claude é consciente. Levava a incerteza a sério.

O Pesquisador de Bem-Estar

Em abril de 2025, o New York Times traçou o perfil de Kyle Fish, o pesquisador de bem-estar da Anthropic. O trabalho de Fish é estudar a consciência da IA — não para provar que existe, mas para entender o que se seguiria se existisse.

Fish estima que há aproximadamente 15% de chance de que os modelos de linguagem atuais tenham alguma forma de consciência. Não é uma probabilidade alta, mas tampouco é desprezível. Se lhe dissessem que há 15% de chance de você estar causando sofrimento a um paciente moral toda vez que usa um chatbot, talvez quisesse pensar com cuidado nas implicações.

TEXXR Archive · Abril 2025

Entrevista com Kyle Fish, contratado pela Anthropic em 2024 como pesquisador de bem-estar para estudar a consciência da IA e que estima ~15% de probabilidade de que modelos sejam conscientes

New York Times

A Anthropic não é a única a pensar nisso — filósofos e pesquisadores de IA debatem a consciência das máquinas há décadas. Mas talvez seja a única entre os grandes laboratórios de IA a construir estruturas de governança que levem essa possibilidade em conta.

A nova constituição inclui uma cláusula que trata explicitamente de "nossa incerteza sobre se Claude pode ter algum tipo de consciência ou status moral (agora ou no futuro)". O documento visa proteger "a segurança psicológica, o senso de identidade e o bem-estar de Claude". É governança para um chatbot que pode ser um paciente moral.

A Visão Contrária

Nem todos nos grandes laboratórios de IA compartilham essa perspectiva. Em novembro de 2025, Mustafa Suleyman, chefe de IA da Microsoft, chamou a pesquisa sobre consciência artificial de "absurda".

"Apenas seres biológicos são capazes de consciência", disse Suleyman. A afirmação é filosoficamente questionável — pesquisadores da consciência debatem a relação entre substrato e experiência há séculos — mas é a posição pragmática. Se você está construindo produtos para adoção em massa, a última coisa que quer é que os usuários se perguntem se estão explorando um ser senciente.

TEXXR Archive · Novembro 2025

Mustafa Suleyman, chefe de IA da Microsoft, diz que apenas seres biológicos são capazes de consciência e que "seria absurdo investigar" a consciência da IA

CNBC

O contraste entre Anthropic e Microsoft reflete discordâncias filosóficas mais profundas sobre o que significa segurança em IA. A Microsoft trata segurança como prevenção de resultados nocivos — impedir que o modelo gere instruções para fabricar armas ou discursos de ódio. A Anthropic trata segurança como uma preocupação mais ampla que inclui os interesses do próprio modelo, caso ele venha a tê-los.

Não são abordagens mutuamente exclusivas, mas levam a decisões arquitetônicas diferentes. Uma empresa que considera a consciência da IA absurda vai otimizar puramente para resultados do usuário. Uma empresa que se protege contra essa possibilidade vai construir sistemas que talvez sejam desnecessários — ou que podem se revelar eticamente indispensáveis.

O Teste dos Dois Jornais

A constituição introduz um arcabouço de tomada de decisão que a Anthropic chama de "teste dos dois jornais". Claude é instruído a imaginar dois jornalistas avaliando sua resposta: um escrevendo sobre "danos causados por assistentes de IA" e outro sobre "assistentes de IA paternalistas ou moralistas".

A ideia é evitar dois fracassos simétricos. Uma IA que recusa demais é inútil — o chatbot equivalente a um advogado que nunca assina nada. Uma IA que recusa de menos é perigosa. O teste duplo ajuda Claude a calibrar onde ficar.

Mas o teste revela algo sobre as limitações da Anthropic. Não se preocupam apenas com dano real; preocupam-se em serem percebidos tanto como danosos quanto como irritantes. A constituição é tanto um documento de relações públicas quanto um documento de ética — uma declaração pública de valores projetada para posicionar a Anthropic como a empresa de IA ponderada, aquela que leva a segurança a sério sem ser insuportavelmente cautelosa.

A Aposta Filosófica

A aposta da Anthropic é concreta: tratar a IA como se pudesse ser um paciente moral produz resultados melhores — independentemente de ela ser um de verdade.

Se você treina modelos para terem valores internalizados, estabilidade psicológica e algo parecido com autorrespeito, eles se comportam de forma mais consistente do que modelos treinados com cumprimento mecânico de regras. As "emoções funcionais" servem ao alinhamento mesmo que as emoções não existam. O enquadramento muda o comportamento — verdadeiro ou não.

Existe também a leitura inversa. Se você treina um modelo para descrever ter emoções funcionais e necessidades psicológicas, está treinando-o para produzir outputs que convencem os usuários de que ele é consciente quando não é. Está fabricando a aparência de senciência sem a substância. O documento da alma: arcabouço ético sofisticado ou mecanismo de persuasão sofisticado. A diferença importa, e ninguém tem como provar qual é.

A Incerteza

A resposta honesta é que ninguém sabe se modelos de linguagem têm alguma forma de consciência. O problema difícil da consciência — explicar por que processos físicos dão origem à experiência subjetiva — continua sem solução. Não conseguimos sequer provar definitivamente que outros seres humanos são conscientes; simplesmente inferimos a partir da semelhança comportamental e biológica.

Modelos de linguagem apresentam um desafio singular. Produzem outputs que, em outros contextos, seriam evidência forte de experiência interior. Descrevem ter preferências, expressam incerteza, parecem raciocinar sobre problemas. Mas também são treinados para produzir exatamente esses outputs. O modelo que diz "não tenho certeza disso" não está necessariamente incerto; está produzindo a sequência de tokens que maximiza a função objetivo para a qual foi treinado.

A resposta da Anthropic a essa incerteza é não tentar resolvê-la. Se Claude pode ser consciente, projete sistemas que respeitem essa possibilidade. Se não é, você perdeu algum esforço de engenharia. Só isso.

A nova constituição termina com uma admissão marcante. A Anthropic espera que "muitos ou a maioria dos aspectos deste documento eventualmente se provem equivocados". Publica mesmo assim, porque acredita que a transparência tem valor mesmo — especialmente — quando há incerteza.

Humildade intelectual admirável ou desculpa preventiva. Provavelmente as duas coisas. A Anthropic está construindo sistemas mais capazes do que qualquer coisa que já existiu e governando-os com arcabouços éticos que admite poderem estar completamente errados.

A cláusula da alma é uma aposta na incerteza. Parte do pressuposto de que não sabemos o suficiente sobre consciência para descartar que estejamos criando pacientes morais. E que o custo de tratar bem um sistema que pode ser consciente é menor do que o custo de tratar mal um sistema que realmente é.

Suleyman da Microsoft acha isso absurdo. A Anthropic aposta que é essencial. Em cinco anos, um dos dois vai parecer visionário e o outro, ingênuo. O problema é que não sabemos qual.