ランタンを持った人物が崖の岩盤に立つ。地表には開発者のワークステーションが見え、下には暗闇に沈む地層が積み重なるコードを表している

ニューヨーク・タイムズ報じた通り、AIコーディングツールの急速な普及によって膨大な量のコードが生成され、企業はそのレビューとセキュリティ確保に追われている。1月、AnthropicがAIコーディングツール使用によるスキル低下の研究を発表した。最も大きく低下したのはデバッグ能力——コードレビューに必要な、まさにその能力だ。コードの量を生み出したツールが、そのコードをレビューする能力を劣化させた。

設計の前提

AIコーディングツールが解こうとした問題は本物だった。開発者はルーティンコードに時間をかけすぎていた——ボイラープレート、テスト、ドキュメント、標準パターン。作業自体は解決できるが遅い。解決策は、関数全体、ファイル全体、プロジェクト全体の規模でのオートコンプリートだった。GitHub Copilotは2021年6月にリリースされた。数ヶ月以内に、GitHub上の新規コードの30%がCopilotの支援で書かれるようになった。前提はシンプルだった——書く時間を縮める。コードが生まれれば、あとはすべてうまくいく、という発想だ。

その前提は機能した。開発者は従来のどの開発技術よりも速くAIコーディングツールを採用した。2025年までに、84%の開発者がAIアシスタントを使用または使用予定と回答している。AIを活用した開発を中心にスタートアップが立ち上がった。ツールはインフラになった。そしてコードは増え続けた。

警告

2022年12月
Stanford研究:GitHub CopilotなどのAIツールを使ったプログラマーは、使わなかったプログラマーよりもセキュリティの低いコードを生成していた
The Register

2022年12月、Stanford大学の研究がこの問題を示した。GitHub Copilotを使った開発者は使わなかった開発者よりも、セキュリティの低いコードを生成していた。わずかに低いのではない——系統的に低かった。AIが提案したパターンが現実の脆弱性を招いていた。警告は発表され、広く引用された。だが採用の速度は落ちなかった。ツールの利便性がすべてに勝った。

2023年6月、ウォール・ストリート・ジャーナルはITエグゼクティブの懸念を報じた。生成AIは「コード作成の障壁を下げる」ため、「膨れ上がるソフトウェアの山を管理しようとする中で、複雑性、技術的負債、混乱のレベルが増大する可能性がある」という警告だった。量の問題は、量が実際に来る2年前に既に予見されていた。

ボトルネックの移動

2025年半ばまでに、その山が到来した。コードの脆弱性スキャンを手がけるOx Securityが1日1億行以上をスキャンしていると報告した——単なる量の増加ではなく、人間の開発者が書くコードとは系統的に異なるセキュリティプロファイルを持つ、新たなカテゴリのコードだ。生産は常にレビューを追い越していた。

2026年3月のBloombergの報告は、何が起きているかを名指しした。AIコーディングエージェントがエグゼクティブの間に「生産性パニック」を引き起こしていた。引用されたUCBの研究によれば、AIツールを使う開発者の労働時間は短くなるどころか長くなっていた。開発者の負担を減らすはずだったツールが、負担を増やしていた。

Amazonの軌跡がその経緯を物語っている。4ヶ月間、開発者をAIツールへと誘導した後、「インシデントの傾向」を受けて、ジュニアおよびミドルレベルのエンジニアにAI支援コード変更を制限する社内メモが出された。同じ日——2026年3月10日——Anthropic開始したのが、Claude Code向けのCode Reviewだ。開発者のプルリクエストをバグ検査するAIエージェント。典型的なレビューコストはトークン使用量で15ドルから25ドル。AIが書いたものをAIがレビューする。

低下したスキル

2026年1月
AnthropicがAIコーディングツールが開発者スキルに与える影響を実験で詳細化:最大の性能低下はデバッグタスクで起きていた
Anthropic

2026年1月、AnthropicはAIコーディングツールが開発者スキルに与える影響についての研究を発表した。その知見:AIは一部のタスクを80%高速化できる。そしてAIツールを使う開発者の最大の性能低下はデバッグ——コードを読み、障害を追跡し、システムが実際に何をしているかを(すべきことではなく)理解すること——で起きていた。

コードの量は増えた。そのコードをレビューする能力——コードレビューに必要なデバッグスキル——は低下した。ツールはボトルネックを動かしただけではなかった。新しいボトルネックが要求する人間の能力を劣化させた。

ツールは開発者を生産において速くし、理解において遅くした。積み上がった負債はコードの中にあるのではない。理解の中にある。

認知的負債とは何か

この言葉は2026年2月、Margaret-Anne Storeyの研究から生まれた。AIとエージェントが開発を加速させる中で、「認知的負荷と認知的負債は、技術的負債よりも開発者にとって大きな脅威になる可能性がある」という指摘だ。技術的負債は、機能するが長続きしないように書かれたコードだ——利子を積み上げるショートカット。認知的負債はそれとは異なる。書かれ、レビューされ、リリースされたが、誰も完全には理解していないコード。負債はシステムが実際に行うことと、チームがそれを行うと知っていることの間の乖離にある。

関数を書いた開発者はその関数を理解している——エッジケース、ロジックに組み込まれた前提、明らかな別アプローチではなくその特定のアプローチを取った理由を。AIが関数を生成する場合、その知識は存在しない。構文的に正しく、多くの場合機能的にも正しい出力を生成する。そしてリリースの圧力の下で、レビューが自動化された環境で、それをデプロイする開発者は、内部ロジックを完全には再構築できないシステムを引き継ぐ。

これはスプリントボードに現れない負債だ。何かが壊れて誰も理由がわからないときに現れる。インシデントとして現れる。

戻ってきたボトルネック

GitHub Copilotはソフトウェア生産における開発者というボトルネックをなくすために設計された。それは成功した。ボトルネックは書くことからレビューすることへ移動した。AIコードレビュアーがそれを再び動かした——レビューすることから理解することへ。そして理解することは、コストなしに委譲できない唯一のステップだ。なぜならシステムが失敗したときにデバッグを可能にするのが理解だからだ。

開発者は再びボトルネックになった——コードを生成するためではなく、ツールが生産したものを理解するために。組織知識がどの開発者の頭の中にもなく、プロンプトのログの中にあり、プルリクエストごとに25ドルの自動化されたシステムでレビューされるコードベース。ツールは約束を守った。ソフトウェアを生産しやすくした。理解しにくくした。

2022年、Stanford研究はCopilotユーザーがよりセキュリティの低いコードを書くことを発見した。3年後、Anthropicはそのユーザーたちがデバッグスキルを失っていたことを発見した。警告は正しかった。採用はそれでも続いた。