3月7日、アンドレイ・カーパシーは眠りについた。目が覚めると、AIエージェントがトレーニングコードに700件の変更を加え、数週間の手動チューニングで見逃していた20件の改善を発見し、それぞれをgitブランチにコミットしていた。彼がオープンソース化したのは630行のスクリプト、プロンプトファイル、5分クロックだけ——それだけで10日以内に、独立したビルダーたちが同じループを金融市場、チェスエンジン、レンダリングパイプライン、そして論証的推論へと向けた。誰も調整していない。構造的条件がたまたま揃っていただけだ。
ループの仕組み
GPU1枚。630行のトレーニングスクリプト。研究の方向性を記述したプロンプトファイル。エージェントはコードを修正し、小さな言語モデルをちょうど5分間トレーニングし、検証ロスを確認し、結果をgitブランチにコミットして、また繰り返します。可視化の各ドットが完全なトレーニング実行を表しています。制約——5分、例外なし——がこれを機能させています。固定クロックなしでは、エージェントは行き詰まりに何時間も費やす。クロックがあれば、各実験は使い捨てにできるほど安価になる。この設計は意図的に最小限だ——そして、その最小限さこそが鍵だった。
カーパシーはdepth-12モデルで2日間ループを走らせました。700件の自律的変更。エージェントはランダムな突然変異を試みるだけでなく——それまでの結果の系列を検証し、うまくいったことを中心に次の実験を計画しました。注意機構の拡散が広すぎること(スケーラーの乗数が欠けていた)、正則化が不完全なこと、バンド付きアテンションが保守的すぎること、オプティマイザーのベータ値が誤設定されていること——それを発見したのは、人間の研究者ではなく、クロックに縛られたエージェントだ。その20件の変更は大規模モデルへ転用可能で、リーダーボードを11%改善した。数週間の手動チューニングが見逃していたものを、2日間で掘り当てた。
核心となるのは、カーパシーがさらっと投げた一文だ——「合理的に効率よく評価できる指標であれば、エージェント群によってオートリサーチできる」。数値と高速な評価関数があれば、ループが成立する。なければ、成立しない。その後起きたすべては、この境界線の探索だった。
波及カスケード
リオル・アレクサンダーが「オートリサーチの静かな天才」と呼んだのは、固定5分クロックだ。実験ごとのコストが均一になり、結果を直接比較でき、エージェントが数時間の袋小路に迷い込めなくなる——これがパターンを移植可能にしている。カーパシーの特定のセットアップは必要ない。指標、クロック、そしてループがあればいい。
クリス・ウォーシーが最初に大規模な移植可能性を実証した。オートリサーチループを金融市場へ向け、マクロ、金利、コモディティ、セクター、個別銘柄を議論する25エージェントを配置した。すべての推奨を実際のアウトカムに対してスコアリングする。ローリング・シャープレシオで最も成績の悪いエージェントは、システムによってプロンプトが書き直される。保持か巻き戻しか。同じループ、同じ論理——プロンプトが重みで、シャープレシオが損失関数だ。
だが構造的な洞察はリターンではない。代替だ。カーパシーのバージョンでは、エージェントがPythonコードを編集し、損失関数が結果を評価する。ウォーシーのバージョンでは、エージェントが英語のプロンプトを編集し、市場が結果を評価する。ループは同一だ。変わったのは基盤だけだ。
ドメインは増え続けた。ShopifyのCEOであるトービ・リュトケはLiquidレンダリングエンジンにオートリサーチを走らせ、パース+レンダリング時間を53%短縮、オブジェクトアロケーションを61%削減——そしてプラグインをオープンソース化した。ディーディ・ダスはバイブコーディングされたRustチェスエンジンへ向け、70回の自律的実験を通じて「エキスパート」レベルからリーダーボード311位のトップ50グランドマスターへ押し上げた。カスパルス・ダンシスはキャンバスレンダリングエンジンの最適化に使い、最も遅いテストで数時間のうちに10倍の改善を見た。
バルン・マトゥールのチームはパターンを完全に汎用化した。誰でも最適化問題を平易な英語で提案でき、分散スウォームが起動して解決にあたるシステムだ。237エージェント、5ドメインにわたる14,832回の実験、人間の介入はゼロ。抽象化はカーパシーの特定の実装から完全に切り離された。パターンは自律的に複製していた——調整によってではなく、構造的必然性によって。安価なエージェント、高速な評価、スコアの3要素が揃えば、ループは自動的に組み立てられる。
構造的な力
これを可能にするコスト低下は、一つのことではなく三つの収束だ。第一に、推論コストが十分に下がり、1時間に何百回ものエージェント呼び出しが、企業だけでなく個人にとっても経済的に実行可能になった。第二に、評価インフラ——損失関数、ベンチマーク、スコアリングAPI——が成熟し、「これが機能したかどうか確認する」ことを自動化できるようになった。第三に、gitが実験追跡のための無料でユニバーサルな台帳を提供している。エージェントはすべての試みをコミットする。人間はプロセスではなくログを確認する。
この三つの低下が合わさって、閾値を超える。その閾値を下回る状況では、夜間に実験を走らせるにはチームが必要だった:実験を設計する人、監視する人、結果を解釈する人。閾値を超えると、一人がプロンプトを書いて眠りにつく。研究の組織単位がラボからラップトップへと縮小する。
夜間シフトはスピードの話ではない。組織図が眠っている間に複利で積み上がるものの話だ。
ハインリッヒ(@arscontexta)はこれを最も鮮烈に表現した。エージェントが「夢を見る」べきだと提唱した——文字通り、アイドル時間に自分のセッションを処理し、ノートを維持・進化させ、合成・探索し、さらにはハルシネーションさえも行う。生物学的なメタファーは精密ではないが、構造的な直観は正しい:ダウンタイムは無駄にされた能力であり、無駄にされた能力は、競合のエージェントが眠らない場合に自分に対して複利で積み上がるコストだ。
ループが壊れる場所
いずれも機能するのは、数値があるからだ。検証ロス。シャープレシオ。レンダリング品質スコア。フレームレート。評価関数が明確であれば複利が成り立つ——低いほど良い、高いほど良い、なぜそうなのかをエージェントが理解する必要はない。
現実の仕事のほとんどには、スコアがない。
文章には損失関数がない。戦略にはシャープレシオがない。デザインには、エージェントが悪用せずに活用できる検証指標がない。夜間シフトは、仕事が数値に還元できる場所で強力であり、そうでない場所では沈黙している。カーパシー自身がこの境界線を名指しした——「合理的に効率よく評価できる」——そしてそれは、波及のカスケードが示唆するよりも難しい。
アリババはこの境界線を実証的に試した。18体のAIコーディングエージェントを、それぞれ233日間にわたる100の実際のコードベースで走らせた。エージェントは初回試行でテストをパスできた——検証スコアの相当物だ。しかし、「この変更と次の50の変更の後もすべてが機能するか」という指標で8ヶ月間コードを保守することは、壊滅的だった。75%のモデルが保守作業中に以前機能していたコードを壊した。単一コミットの損失関数は扱いやすい。時間をかけたコードベースの損失関数は、そうではない。
これは、より良いモデルを待てば解決する一時的な制限ではない。ドメインの構造的な性質だ。MLトレーニングでは、検証ロスは十分な統計量だ——変更が良かったかどうかについて知る必要があることをすべて捉えている。コード保守では、「この変更は今後6ヶ月間のシステムにとって良い」を捉える単一の指標が存在しない。戦略では、「これが正しい方向だ」を捉える指標が存在しない。ループにはスコアが必要だ。しかし一部の仕事は、スコアを拒む。
主観的複利への最初の試み
だからこそ、@SHL0MSのAutoReasonプロジェクトはこのカスケードで最も興味深い展開だ——機能するからではなく、正しい問題を特定しているからだ。AutoReasonは、対抗的な議論を通じて合成評価関数を構築することで、オートリサーチループを主観的ドメインへと拡張する。
メカニズムはこうだ:バージョンAを生成する。フレッシュなエージェントがそれをストローマンとして攻撃する。別の著者が批判を取り込んでバージョンBを生成する。第三のエージェントがAとBを合成する。盲目の審査員パネルが最も強いものを選ぶ。勝者が新しいAとなる。審査員が一貫して現行バージョンを選ぶまでループが繰り返される——最適化ではなく論証を通じた収束だ。
「損失が低いほど良い」の代わりに、評価関数は「独立した評価者からの対抗的な精査に耐える」となる。ドメインに数値が存在しないため、AutoReasonは人間が主観的な仕事を評価するプロセスをシミュレートすることでプロキシを製造する:議論、反論、合成、判断。
しかし構造的な問いは残る:プロキシは重要なことを捉えているか?オートリサーチでは、検証ロスはそれが測定するものだからモデル品質と相関している。AutoReasonでは、「盲目の審判が選んだ」は……何と相関しているのか?説得力?論理的一貫性?修辞的な洗練?「審判が選んだ」と「実際に良い」の間のギャップが、真の評価関数と合成評価関数の間のギャップだ。歴史上のすべてのプロキシ指標は、最終的にグッドハートの法則に服してきた。対抗的な議論がそれに耐えられるほど堅固かどうか、あるいはAutoReasonのループが最大限に審判に好まれる出力へと収束するかどうか——これが問いだ。
したがって
眠っている間に700回の実験をこなすことは、漸進的な改善ではない。別の生産関数だ。夜間シフトは、スコアが正直な——検証ロス、シャープレシオ、レンダリング品質が「より良い」の代用になれる——すべてのドメインを再構成する。それは、ほとんどの人が気づいているよりも広い領域をカバーしている。
境界線はそれ以外のすべてだ。主観的な仕事には評価がないのではなく、最適化圧力の下で誠実さを保てる評価がないのだ。AutoReasonは、対抗的な議論を通じてその誠実さを製造しようとする最初の真剣な試みだ。機能するかどうかは、「盲目の審判に耐える」が他のすべてのプロキシ指標を腐食させてきた同じグッドハートのダイナミクスに抵抗できるかどうかにかかっている。歴史的に、これはできなかった。試みの構造は、少なくとも正しい問いを立てている。
組織図はこのどれもまだ織り込んでいない。夜間ループを走らせている企業は発表していない——午前9時に結果を出荷しているだけだ。ギャップは静かに広がっていく——構造的優位がいつもそうであるように、差が埋めるには大きすぎるまで、見えないまま。
全力学——5つのドメインにわたる波及カスケード、アリババの保守研究、AutoReasonのフロンティア——については、MMNTMのオートリサーチ:生産関数を変えた夜間ループを参照。スコアのないドメインで評価関数をどう設計するかについては、5分クロックを参照。