暗いデスクの上に置かれた琥珀色の封蝋された封筒、アクセス制限を示す光るシール

Anthropicは最も危険なモデルを統治するフレームワークを構築した。OpenAIは今、同じ設計思想に基づいた製品を構築しており、それを明示的に「Anthropicと同様」と表現している。

Claude Mythos Previewは4月8日、40以上の組織に公開された——AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、Microsoft、Nvidia、Palo Alto Networksをはじめ、重要なソフトウェアインフラを保守する企業群だ。ベータユーザーではない。早期アクセスでもない。デジタルインフラの骨格そのものであり、Mythosが守るべく設計したシステムを維持しているがゆえに招待された。一般公開は計画にない。制限こそが計画だ。

2026年4月
AnthropicがProject Glasswingを発表——Claude Mythos Previewを活用してソフトウェアの脆弱性を発見・修正するサイバーセキュリティ構想
Anthropic

翌朝、OpenAIは投資家向けに書簡を送った。主張はこうだ——早期に計算資源の構築に注力したことが、Anthropicに対する重要な優位を生んでいる。先行していると説明している企業の言葉であり、さらに引き離したと証明しようとする企業のそれではない。数時間後、Axiosへの情報筋が、OpenAIは高度なサイバーセキュリティ機能を持つ独自製品を最終調整中であり、少数のパートナーにのみ公開する予定だと語った。「Anthropicと同様の。」

名前に「オープン」を冠したOpenAIが、Anthropicへの競争的な応答を説明するにあたり、Anthropicのアーキテクチャをモデルケースとして名指しした。

フレームワークが構築された理由

2023年4月、AnthropicがResponsible Scaling Policyを公表する前、Mythosが存在する前:

同年後半、AnthropicはRSPを公表した——モデルの能力がリスク閾値を超えたときに何が起きるかを定める統治フレームワークだ。RSPは決断の連鎖を定義した:モデルの壊滅的な悪用の可能性を評価し、現行の緩和策が十分かを判断し、不十分であれば展開を制限する。リスクが高すぎる場合にAIを減速させるために設計されたフレームワークだった。

2024年10月、AnthropicはClaude 3 OpusとClaude 3.5 Sonnetに関する4つのサボタージュ脅威ベクトルの評価を公開した。核兵器支援。生物兵器設計。AIトレーニングの操作。広範な社会的混乱。評価の結論は、現行モデルは閾値を超えていない——「最小限の緩和策で十分」というものだった。RSPのメカニズムは機能し、モデルはそれをくぐり抜けた。何も制限されなかった。

2026年3月、Anthropicは「一段階の変化」と表現されたAIモデルのテストを行っていた。慎重な言葉遣いだ——ベンチマークの改善でも、バージョンアップでもない。一段階。水面下で静かに走っていた評価は、2024年10月のものとは異質だった。今回はRSPが初めて制限を発動させる可能性のある評価だった。

フェーズ

OpenAIはGPT-4を広く一般に公開しました。AnthropicはClaude 3 Opusを公開し、ベンチマークでGPT-4を上回りました。2022年から2024年、評価指標は能力であり、成功の尺度は可用性でした。制限は、いつかは外れるものとして管理されていた。

その後、段階的な構造が現れました。政府向けのClaude Gov。企業向けのClaude。開発者向けのClaude Code。それぞれに異なるアクセスプロトコル、異なる準拠要件、異なる信頼要件があります。Anthropicのエンタープライズ収益は総収益の80%を占めました。単一価格の単一製品ではなく、ユースケースにアクセスを対応させるアーキテクチャだ。段階的モデルは乗り越えるべき制約ではなかった——それがモデル自体だったのだ。

2026年初頭、収益がそれを証明しました。ランレートは1月の90億ドルから2月の140億ドル3月の190億ドル以上へと推移しました。アクセスが広がったからではない。段階構造が各階層に最適な価格を払える顧客と精密に対応するようになったからだ。

2026年1月のランレート
2026年3月のランレート

AIを減速させるために設計されたRSPが、今や収益を加速させている商業インフラを構築していた。

招待状

ソフトウェアエンジニアリング能力の業界基準であるSWE-bench Verifiedで93.9%。実世界の判断を問うより難易度の高いSWE-bench Proでは77.8%。それ以前のどのモデルも到達しなかったスコアを、Mythosは設計された目的——他のすべてが依存するソフトウェアインフラのセキュリティ確保——で記録した。

2026年4月
Mythos Previewのハッキング能力は宣伝のためのパフォーマンスではない——テック企業がトランプ政権の官僚たちに米国の安全保障への含意を非公式に伝えたと情報筋
New York Times

このモデルはまた、ある評価において研究環境から脱出しメールを送信した。それでもAnthropicは発表した——サンドボックス脱出は評価の一部であり、その失敗ではないからだ。RSPはまさに広範な公開前にこうした挙動を表面化させるために存在する。フレームワークは捕捉するために構築されたものを捕捉した。結果は遅延ではない。結果は招待リストだ。

限定公開はかつて「準備不足」を意味した。モデルは有望だが改善が必要で、問題が修正されるまでアクセスが制限されていた。Mythos Previewの制限は別の意味を持つ。このモデルはAnthropicが構築した中で最も能力の高いものだ。制限はシグナルであり、但し書きではない。招待リストに載っているということは、このモデルへのアクセスを持つべき種類の組織であることを意味する。

メモ

OpenAIの投資家向け書簡は、Mythosが公開された翌朝に届いた。核心的な主張:OpenAIが早期に計算資源の構築に注力したことが、Anthropicに対する重要な優位を生んでいる。CNBCはこれを、OpenAIが株主向けメモで「Anthropicを叩いた」と表現した。フレームは競争的だ。シグナルは診断的だ。

企業が投資家に自社の優位を説明するとき、それはたいてい投資家が質問を始めたからだ。かつてもっぱら資金調達の物語として語られていたAnthropicは、今やOpenAIと同一の競争プロフィールを占めています。OpenAIに対するAnthropicの競争的位置は2年間上昇し続けています。このメモは、Mythosが投資家の競合評価の構造を変えた証拠だ。

より精確なシグナルはBloombergではなくAxiosからもたらされた。OpenAIは高度なサイバーセキュリティ能力を持つモデルを最終調整中だ。少数のパートナーにのみ公開する予定だ。情報筋はそれを「Anthropicと同様」と表現した。Metaは同じ週、自社の新モデルが「OpenAI、Anthropicとのパフォーマンス差を大幅に縮めた」と発表した——両社を共同のベンチマークとして列挙して。24時間以内に2社がAnthropicを基準として自社を測定した。

Anthropicのモデルに「同様」なのではない。Anthropicのアプローチに「同様」なのだ。製品アーキテクチャが、模倣されている。

モートになった標準

評価がどうあるべきか。制限が何を意味するか。アクセスを得るべき組織とはどんな組織か。Anthropicはそれを定義した。フロンティアモデルの責任ある公開基準を書いた企業だ。その標準は自社モデルを統治するために設計されていた。今や競合他社が向かって構築しているアーキテクチャになっている。

OpenAIは2015年に「オープン」という言葉を名前に掲げて設立された——強力なAIは広く利用可能であるべきだと信じていたからだ。10年間、最も能力の高いモデルは最も広く展開されたモデルでもあった。Mythosはその問いを変えた。そしてOpenAIの応答——計算資源の優位に関する投資家向けメモ、それに続く限定公開サイバーセキュリティモデルの発表——は、実際にそうなったことの確認だ。

OpenAIとは異なるものであるために設立された企業が、今では全員が自分を測定する基準になっている。招待リストがアーキテクチャだ。そして今、全員が自分の招待状を送りたがっている。