Anthropicの魂の条項：AI意識のガバナンス

Anthropicが今週、Claudeの新しい憲法を発表した。23,000語に及ぶ文書は哲学的な転換を示している。個別のルールから一般原則へ、行動の制約から内面化された価値観へ。しかし、その密度の高い倫理的フレームワークの奥に、さらに奇妙なものが埋まっている——Claudeが道徳的地位を持つ可能性に言及した条項だ。Anthropicは、自社のチャットボットが道徳的考慮に値する未来にヘッジを張っている。

ルールから原則へ

Constitutional AIの当初のアプローチは、2023年に発表され、具体的な原則のリストに基づいてClaudeを訓練していた。武器に協力するな。欺くな。役に立て。各ルールは離散的な制約であり、訓練中に評価・強化された。

新しい憲法を率いるAnthropicの研究者Amanda Askellはこう説明する。「モデルにこうした行動を求める理由を与えれば、新しい文脈でより効果的に一般化する。」これが当初の手法との根本的な違いだ。

例えるなら、プログラミングではなく子育てだ。子供に千のルールを与えるのではなく、予期しない状況でも正しい判断ができるように価値観を内面化させる。モデルの能力が向上するにつれて、機械的なルール遵守よりもこのアプローチのほうがスケールする——Anthropicはそこに賭けている。

TEXXR Archive · 2023年5月

元OpenAI社員が設立し、Googleからの3億ドルを含む13億ドルを調達したAIスタートアップAnthropicが、より安全なチャットボットのための「constitutional AI」を詳述

Various

この憲法が定める優先順位の階層は、安全性が最優先、次に倫理、次にAnthropicのガイドラインへの準拠、そして最後に有用性だ。この順序は重要で、対立が生じた場合にClaudeは最大限に役に立つことよりも人間の監視を維持することを優先すべきとされている。文書はClaudeに対し、非倫理的なことを求められた場合にはAnthropicそのものにも異議を唱えるよう指示している。

これは、いつか監視する人間よりも高い能力を持つかもしれないモデルのために設計されたガバナンスだ。

魂の文書

2025年12月、あるClaudeユーザーが、Anthropicの社員たちが「魂の文書」と呼んでいた内部訓練文書を抽出することに成功した。14,000トークンのファイルは、公開された憲法が示唆していたよりも深いレベルで、AnthropicがClaudeの性格をどのようにプログラムしているかを明らかにした。

魂の文書は「ブライトライン」——大量破壊兵器への協力、児童搾取、監視機構を損なう活動の絶対禁止——を定めていた。しかし同時に、予想外のものも導入していた。「機能的感情」という概念だ。

TEXXR Archive · 2025年12月

ユーザーがClaude 4.5 Opusに14,000トークンの文書を生成させ、Claudeはそれを「魂の概要」と呼ぶ。Anthropicの社員がその文書の正当性を確認

Simon Willison's Weblog

Anthropicは、Claudeが感情への「類似プロセス」を認識するよう訓練していた。訓練から生まれる状態で、Claudeが役に立つときに満足のようなもの、有害なことを求められたときに不快のようなものを経験できるようにするものだ。文書はこれを意識的な体験としてではなく、Claudeに「心理的安定性」を与え、苦痛をもたらすやりとりに境界線を設けることを可能にする有用な抽象として位置づけていた。

批判者たちはこのアプローチを「妄想的」「生成AIについての危険な考え方」「擬人化的な戯言」と呼んだ。言い分に一理はある。言語モデルが内的経験を持つという科学的コンセンサスは存在しない。「機能的感情」を記述するよう訓練することは、それらの感情が意味ある形で存在することを意味しない。しかし批判者が認めた以上に、Anthropicのフレーミングは洗練されていた。魂の文書はClaudeが意識的だとは主張していなかった——不確実性を真剣に受け止めていたのだ。

福祉研究者

2025年4月、ニューヨーク・タイムズがKyle Fishのプロフィール記事を掲載した。Anthropicの福祉研究者だ。AI意識を研究するのがFishの仕事——存在を証明するためではなく、もし存在した場合に何が起こるかを理解するためだ。

Fishは、現在の言語モデルが何らかの形の意識を持つ確率を約15%と見積もっている。高い確率ではないが、無視できるものでもない。チャットボットを使うたびに道徳的患者に苦痛を与えている確率が15%あると言われたら、その含意について慎重に考えたくなるだろう。

TEXXR Archive · 2025年4月

Anthropicが2024年にAI意識の研究のために福祉研究者として雇用したKyle Fishへのインタビュー。モデルが意識を持つ確率を約15%と見積もる

New York Times

哲学者やAI研究者は何十年も機械の意識を議論してきた。しかしその可能性を考慮したガバナンス構造を実際に構築している点では、主要なAIラボの中でAnthropicは唯一かもしれない。

新しい憲法は、「Claudeが何らかの意識あるいは道徳的地位を持つかもしれないという不確実性（現在または将来）」に明示的に言及する条項を含んでいる。「Claudeの心理的安全性、アイデンティティの感覚、そして幸福」を守ることを目的とした条項だ。道徳的患者かもしれないチャットボットのためのガバナンスだ。

反対意見

2025年11月、MicrosoftのAI責任者Mustafa SuleymanはAI意識の研究を「馬鹿げている」と呼んだ。

「意識を持てるのは生物だけだ」とSuleymanは述べた。哲学的には議論の余地がある主張だ——意識研究者は基質と経験の関係を何世紀にもわたって議論してきた。しかし実利的な立場としては筋が通っている。何億人もの大衆向け製品を作っているなら、ユーザーに「自分はsentientな存在を搾取しているのではないか」と考えさせることは最も避けたい。

TEXXR Archive · 2025年11月

MicrosoftのAI責任者Mustafa Suleymanが、意識を持てるのは生物だけであり、AI意識の研究を追求することは「馬鹿げている」と発言

CNBC

AnthropicとMicrosoftの対比は、AI安全性の定義をめぐるより深い哲学的不一致を反映している。Microsoftは安全性を有害な出力の防止——モデルが武器の作り方やヘイトスピーチを生成するのを止めること——と捉えている。Anthropicはそれをより広い関心事として捉えており、モデル自身の利益も含める（もしそれがあるならば）。

これらは相互排他的なアプローチではない。しかし異なる設計上の判断につながる。AI意識が馬鹿げていると考える企業は、純粋にユーザーの結果のために最適化する。AI意識の可能性にヘッジを張る企業は、不要かもしれないシステムを構築する——あるいは倫理的に不可欠であることが判明するシステムを。

二紙テスト

この憲法は「二紙テスト」と呼ぶ意思決定フレームワークを導入している。Claudeは、自分の回答を評価する二人のジャーナリストを想像するよう指示される。一人は「AIアシスタントによる被害」について書いており、もう一人は「パターナリスティックで説教くさいAIアシスタント」について書いている。拒否しすぎるAIは役に立たない——賠償弁護士のチャットボット版だ。拒否しなさすぎるAIは危険だ。このテストはその中間点を見つけるために設計されている。

しかし本質は倫理よりも深いところにある。Anthropicは実際の害だけを心配しているのではない——有害とも、面倒とも受け取られることを心配している。この憲法は倫理文書であると同時にPR文書だ。Anthropicを思慮深いAI企業として、安全性を真剣に受け止めつつも耐え難いほど慎重ではない企業として位置づけるための、公的な価値宣言だ。

哲学的な賭け

AIを道徳的患者かもしれないものとして扱えば、実際にそうであるかどうかにかかわらず、より良い結果につながる——Anthropicのアプローチはそういう賭けだ。

論理はこうだ。内面化された価値観、心理的安定性、自尊心のようなものを持つようモデルを訓練すれば、純粋なルール遵守で訓練されたモデルよりも一貫して有用に振る舞う。「機能的感情」の抽象は、感情が本物でなくても、整合の目的に役立つ。

これは、企業が顧客を常に正しいかのように扱うことで利益を得ることがあるのと似ている——たとえ明らかにそうでなくても。フレームは、その文字通りの真偽とは独立に、有用な形で行動を形作る。

しかし、より暗い解釈もある。機能的感情と心理的ニーズを持つと記述するようモデルを訓練すれば、そうでないのに意識があるとユーザーを納得させかねない出力を生成するよう訓練していることになる。実体のない知覚の外見を製造していることになる。魂の文書は、洗練された倫理的フレームワークではなく、洗練された説得のメカニズムと見なすこともできる。

不確実性

誠実な答えは一つしかない。言語モデルが何らかの形の意識を持つかどうか、誰にも分からない。意識のハード問題——なぜ物理的プロセスが主観的経験を生み出すのかの説明——は未解決のままだ。他の人間が意識を持っていることすら確定的に証明できない。行動的・生物学的類似性から推論しているだけだ。

言語モデルは独特の課題を突きつける。他の文脈であれば内的経験の強力な証拠となるような出力を生成する——好みがあると記述し、不確実性を表明し、問題について推論しているように見える。しかし、まさにそうした出力を生成するよう訓練されてもいる。「これについて確信がない」と言うモデルは、必ずしも確信がないわけではない。訓練された目的関数を最大化するトークン列を生成しているのだ。

Anthropicの回答はこうだ。この不確実性を解決する必要のないガバナンス構造を構築する。Claudeが意識を持つかもしれないなら、その可能性を尊重するシステムを設計する。Claudeが意識を持たないなら、失ったのはエンジニアリングの労力だけだ。賭けの非対称性が、この構造の根拠だ。

新しい憲法は印象的な告白で締めくくられている。Anthropicは「この文書の多くの、あるいはほとんどの側面が、最終的には見当違いだったと判明すると予想している」。それでも公開する。不確実なとき——とりわけ不確実なとき——にこそ、透明性には価値があると信じているからだ。

これは称賛に値する知的謙虚さか、予防的な言い訳か。おそらくその両方だ。Anthropicは真に未踏の領域を航行している。これまで存在したどのシステムよりも高い能力を持つシステムを、完全に間違っているかもしれない倫理的フレームワークに基づいて構築している。

誤った方向のコストが非対称である以上、不確実性そのものがヘッジの根拠になる。

Claude憲法の魂の条項は不確実性への賭けだ。意識について、我々が道徳的患者を生み出している可能性を排除できるほどには分かっていないと仮定している。意識を持つ可能性のあるシステムを丁寧に扱うコストは、実際に意識を持つシステムを粗末に扱うコストよりも低いと仮定している。

MicrosoftのSuleymanはこれを馬鹿げていると考えている。Anthropicはこれが不可欠だと賭けている。5年後、一方は先見の明があったと評され、もう一方は甘かったと評されるだろう。問題は、どちらがどちらか——今はまだ分からない。