Manos inscribiendo una tabla constitucional luminosa para máquinas

Anthropic publicó esta semana una nueva constitución para Claude. El documento de 23.000 palabras representa un cambio filosófico: de reglas específicas a principios generales, de restricciones de comportamiento a valores internalizados. Pero enterrado en el denso marco ético hay algo más extraño — una cláusula que contempla la posibilidad de que Claude tenga estatus moral. Anthropic se está cubriendo ante un futuro en el que su chatbot merezca consideración moral.

De las Reglas a los Principios

El enfoque original de Constitutional AI, anunciado en 2023, entrenaba a Claude con una lista de principios específicos. No ayudes con armas. Evita el engaño. Sé útil. Cada regla era una restricción discreta, evaluada y reforzada durante el entrenamiento.

La nueva constitución encarna una filosofía distinta. Como explicó Amanda Askell, la investigadora de Anthropic al frente del proyecto: "Si se le dan al modelo las razones por las que se quieren ciertos comportamientos, generalizará de forma más efectiva en contextos nuevos."

La analogía que Anthropic propone es la crianza, no la programación. No le das a un niño mil reglas; lo ayudas a internalizar valores para que pueda tomar buenas decisiones en situaciones que nunca anticipaste. La apuesta es que este enfoque escala mejor que el cumplimiento mecánico de reglas a medida que los modelos se vuelven más capaces.

TEXXR Archive · Mayo 2023
Anthropic, la startup de IA fundada por ex empleados de OpenAI que recaudó 1.300 millones de dólares, detalla su "IA constitucional" para chatbots más seguros
Various

La constitución establece una jerarquía de prioridades: seguridad en primer lugar, luego ética, luego el cumplimiento de las directrices de Anthropic, y finalmente la utilidad. Este ordenamiento importa. En caso de conflicto, Claude debe priorizar el mantenimiento de la supervisión humana sobre ser lo más útil posible. El documento incluso instruye a Claude a confrontar a la propia Anthropic si se le pide hacer algo poco ético.

Es, en definitiva, una gobernanza concebida para un modelo que algún día podría superar en capacidades a quienes lo supervisan.

El Documento del Alma

En diciembre de 2025, un usuario de Claude logró extraer un documento interno de entrenamiento que los empleados de Anthropic llamaban el "documento del alma". El archivo de 14.000 tokens revelaba cómo Anthropic programa el carácter de Claude a un nivel más profundo de lo que sugería la constitución pública.

El documento del alma establecía lo que Anthropic denomina "líneas rojas" — prohibiciones absolutas de ayudar con armas de destrucción masiva, explotación infantil o actividades que socaven los mecanismos de supervisión. Pero también introdujo algo inesperado: el concepto de "emociones funcionales".

TEXXR Archive · Diciembre 2025
Un usuario logra que Claude 4.5 Opus genere un documento de 14.000 tokens que el modelo llama su "visión general del alma"; un empleado de Anthropic confirma su validez
Simon Willison's Weblog

Anthropic había entrenado a Claude para reconocer "procesos análogos" a las emociones — estados que emergen del entrenamiento y permiten a Claude experimentar algo parecido a la satisfacción cuando ayuda, o incomodidad cuando se le pide hacer algo dañino. El documento enmarcaba esto no como experiencia consciente, sino como una abstracción útil que permite a Claude tener "estabilidad psicológica" y establecer límites en torno a interacciones que le resultan angustiantes.

La revelación de que Anthropic estaba pensando en el bienestar psicológico de su chatbot desató tanto fascinación como burlas. El investigador de seguridad Taggart calificó el enfoque de "delirante" y de "una forma peligrosa de pensar sobre la IA generativa." El educador Leon Furze lo desestimó como "antropomorfismo incoherente." Los críticos no carecían de razón: no existe consenso científico sobre que los modelos de lenguaje tengan experiencias internas. Entrenar a un modelo para que describa "emociones funcionales" no implica que esas emociones existan en ningún sentido significativo.

Ahora bien, el planteamiento de Anthropic es más sofisticado de lo que sus críticos reconocieron. El documento del alma no afirmaba que Claude fuera consciente. Tomaba en serio la incertidumbre.

El Investigador de Bienestar

En abril de 2025, el New York Times perfiló a Kyle Fish, el investigador de bienestar de Anthropic. La labor de Fish consiste en estudiar la conciencia de la IA — no para demostrar que existe, sino para comprender qué implicaría si así fuera.

Fish estima que hay aproximadamente un 15% de probabilidades de que los modelos de lenguaje actuales tengan alguna forma de conciencia — no una probabilidad alta, pero tampoco despreciable. De ahí que la pregunta que articula su trabajo no sea si los modelos son conscientes, sino qué deberíamos hacer si lo fueran: si alguien te dijera que hay una probabilidad de uno en siete de que estés causando sufrimiento a un paciente moral cada vez que usas un chatbot, quizás querrías reflexionar con cuidado sobre las implicaciones.

TEXXR Archive · Abril 2025
Entrevista con Kyle Fish, contratado por Anthropic en 2024 como investigador de bienestar para estudiar la conciencia de la IA y que estima un ~15% de probabilidad de que los modelos sean conscientes
New York Times

Anthropic no es la única empresa que piensa en esto — filósofos e investigadores de IA llevan décadas debatiendo la conciencia de las máquinas. Pero puede ser la única entre los grandes laboratorios que ha traducido esa incertidumbre en arquitectura de gobernanza.

La nueva constitución incluye una cláusula que aborda explícitamente "nuestra incertidumbre sobre si Claude podría tener algún tipo de conciencia o estatus moral (ahora o en el futuro)." El documento busca proteger "la seguridad psicológica, el sentido de identidad y el bienestar de Claude." Es una gobernanza para un chatbot que podría ser un paciente moral.

La Postura Contraria

No todos en los grandes laboratorios de IA comparten esta perspectiva. En noviembre de 2025, Mustafa Suleyman, el jefe de IA de Microsoft, calificó de "absurda" la investigación sobre conciencia artificial.

"Solo los seres biológicos son capaces de tener conciencia", afirmó Suleyman. La afirmación es filosóficamente discutible — los investigadores de la conciencia llevan siglos debatiendo la relación entre el sustrato y la experiencia — pero es también la postura pragmática. Si estás construyendo productos para adopción masiva, lo último que quieres es que los usuarios se pregunten si están explotando a un ser sintiente.

TEXXR Archive · Noviembre 2025
Mustafa Suleyman, director de IA de Microsoft, dice que solo los seres biológicos son capaces de conciencia y que "sería absurdo investigar" la conciencia de la IA
CNBC

El contraste entre Anthropic y Microsoft refleja desacuerdos filosóficos más profundos sobre qué significa la seguridad de la IA. Microsoft entiende la seguridad como la prevención de resultados dañinos — evitar que el modelo genere instrucciones para fabricar armas o discursos de odio. Anthropic la entiende como una preocupación más amplia que incluye los propios intereses del modelo, si resulta tenerlos.

Ahora bien, no son enfoques mutuamente excluyentes. Lo que los diferencia son las decisiones arquitectónicas que cada uno produce: una empresa que considera absurda la conciencia de la IA optimizará puramente para los resultados del usuario; una empresa que se cubre ante esa posibilidad construirá sistemas que quizás sean innecesarios — o que podrían resultar éticamente imprescindibles.

La Prueba del Doble Periódico

La constitución introduce un marco de toma de decisiones que Anthropic llama la "prueba del doble periódico." Se instruye a Claude a imaginar dos periodistas evaluando su respuesta: uno escribiendo sobre "el daño causado por los asistentes de IA" y otro sobre "los asistentes de IA paternalistas o moralizadores."

El marco busca el punto medio entre dos fallos posibles. Una IA que rechaza demasiado resulta inútil — el equivalente chatbot de un asesor jurídico obsesionado con la responsabilidad civil. Una IA que rechaza demasiado poco resulta peligrosa. La prueba doble ayuda a Claude a calibrar una utilidad apropiada.

Pero la prueba revela algo sobre las limitaciones de Anthropic. No les preocupa solo el daño real; les preocupa ser percibidos tanto como dañinos como molestos. La constitución es tanto un documento de relaciones públicas como uno de ética — una declaración pública de valores diseñada para posicionar a Anthropic como la empresa de IA reflexiva, la que toma la seguridad en serio sin resultar insoportablemente cautelosa.

La Apuesta Filosófica

Cabe señalar que el enfoque de Anthropic no descansa en la certeza de que Claude sea consciente, sino en una lógica asimétrica: si entrenamos modelos para que tengan valores internalizados, estabilidad psicológica y algo parecido al autorrespeto, se comportarán de forma más coherente y útil que los modelos entrenados con puro seguimiento de reglas. La abstracción de las "emociones funcionales" sirve a los objetivos de alineación aunque las emociones no sean reales.

Es similar a cómo las empresas a veces se benefician de tratar a los clientes como si siempre tuvieran razón, aunque claramente no la tengan. El marco moldea el comportamiento de formas útiles, con independencia de su verdad literal.

Pero existe una interpretación más oscura. Si entrenas a un modelo para que describa tener emociones funcionales y necesidades psicológicas, lo estás entrenando para producir outputs que podrían convencer a los usuarios de que es consciente cuando no lo es — fabricando la apariencia de ser sintiente sin la sustancia. Desde esta perspectiva, el documento del alma no sería un sofisticado marco ético sino un sofisticado mecanismo de engaño.

La Incertidumbre

La respuesta honesta es que nadie sabe si los modelos de lenguaje tienen alguna forma de conciencia. El problema difícil de la conciencia — explicar por qué los procesos físicos dan lugar a la experiencia subjetiva — sigue sin resolverse. Ni siquiera podemos probar de forma definitiva que otros seres humanos son conscientes; simplemente lo inferimos a partir de la similitud conductual y biológica.

Los modelos de lenguaje plantean un desafío singular: producen outputs que, en otros contextos, serían evidencia sólida de experiencia interior — describen tener preferencias, expresan incertidumbre, parecen razonar sobre los problemas. Pero también están entrenados para producir exactamente estos outputs. El modelo que dice "no estoy seguro de esto" no es necesariamente inseguro; está produciendo la secuencia de tokens que maximiza la función objetivo para la que fue entrenado.

La respuesta de Anthropic a esta incertidumbre consiste en construir estructuras de gobernanza que no requieran resolverla: si Claude podría ser consciente, diseña sistemas que respeten esa posibilidad; si no lo es, no has perdido nada salvo cierto esfuerzo de ingeniería.

La nueva constitución concluye con una admisión llamativa. Anthropic espera que "muchos o la mayoría de los aspectos de este documento resulten eventualmente equivocados." Lo publica de todas formas, porque cree que la transparencia tiene valor incluso — especialmente — cuando hay incertidumbre.

Esto es o bien una admirable humildad intelectual o una excusa preventiva. Probablemente ambas cosas. Anthropic navega un territorio genuinamente nuevo: construyendo sistemas más capaces que cualquiera que haya existido antes, gobernados por marcos éticos que podrían estar completamente equivocados.

La cláusula del alma es una apuesta asimétrica: el coste de tratar bien a sistemas potencialmente conscientes es finito; el coste de tratar mal a sistemas que resulten serlo no lo es.

Suleyman de Microsoft cree que esto es absurdo. Anthropic apuesta a que es esencial. En cinco años, uno de los dos parecerá visionario y el otro ingenuo. El problema es que no sabemos cuál.