Research
Research

by nicoxz

Anthropic新AIが示す超人級ハッカー時代と限定公開の必然

by nicoxz
URLをコピーしました

はじめに

Anthropicが2026年4月7日に発表した新モデル「Claude Mythos Preview」は、単に高性能な次世代LLMという枠では収まりませんでした。同社はこのモデルを一般公開せず、Project Glasswingという限定的な防御用途プログラムでのみ提供すると決めています。理由は明快で、ソフトウエアの脆弱性を見つけて悪用する能力が、従来の公開モデルとは質的に違う水準へ到達したと判断したからです。

ここで重要なのは、「AIがコードをよく書ける」ことと、「AIが高度な攻撃の足場になりうる」ことは別問題だという点です。Mythos Previewは、OpenBSDやLinuxカーネル、主要ブラウザの脆弱性を自律的に見つけ、場合によっては exploit まで構築したとされています。これはサイバー防御を強くする可能性と同時に、攻撃の参入障壁を一気に下げる可能性も示します。この記事では、なぜこのモデルが「超人級ハッカー」とまで言われるのか、Anthropicがなぜ閉じた配布を選んだのか、その意味を整理します。

Mythos Previewが示した能力の質的変化

汎用モデルの延長で生まれた攻撃力

Anthropicの説明で興味深いのは、Mythos Previewがサイバー攻撃専用に訓練されたモデルではない点です。Project GlasswingとFrontier Red Teamの技術報告によれば、このモデルの危険性は、コード理解、長時間の自律実行、推論の持続性が一段上がった結果として現れました。つまり、コーディング能力の延長線上で脆弱性探索と exploit 開発が急に強くなったのであり、「ハッキング専用AI」が作られたというより、「汎用AIの能力向上がサイバー分野で閾値を超えた」とみるべきです。

Anthropicはその証拠として、主要OSと主要ブラウザすべてで高深刻度の脆弱性を数千件見つけたと説明しています。公開済みの具体例だけでも、OpenBSDの27年間見逃されていた脆弱性、FFmpegの16年間残っていた欠陥、Linuxカーネルで一般ユーザー権限から完全制御に至る連鎖が挙げられています。いずれも人間のレビューや既存の自動テストをすり抜けてきた種類の不具合です。AIが既知の脆弱性パターンをなぞる段階を越え、長く潜伏した欠陥を掘り起こす局面へ入ったことを示します。

ベンチマーク優位だけでは済まない差

数値面でも差は大きいです。AnthropicはCyberGymでMythos Previewが83.1%、比較対象のClaude Opus 4.6が66.6%だったと公表しました。さらにSWE-bench Verifiedでは93.9%、Terminal-Bench 2.0では82.0%と、同社の既存最上位モデルを大きく上回ります。Frontier Red Teamの報告では、Firefox 147のJavaScriptエンジンを使った exploit 化の検証で、Opus 4.6が数百回の試行で2回しか成功しなかったのに対し、Mythos Previewは181回成功したとしています。

ただし、ここは冷静に見る必要があります。これらの数字の多くはAnthropic自身の評価であり、一部には内部実装のベンチマークも含まれます。Project Glasswingのページでも、Humanity’s Last Examに一定の暗記の可能性があると注記されています。したがって、「世界最強」を無条件に受け入れるより、「少なくともAnthropicが自社モデルのサイバー能力を公開配布には危険と判断するほど高いと評価した」こと自体がニュースだと捉えるほうが正確です。

なぜ一般公開せず限定提供なのか

Project Glasswingという防御先行の配布設計

Anthropicが採った方法は、危険だから封印するという単純なものではありませんでした。Project GlasswingにはAmazon Web Services、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksなど12の立ち上げパートナーが参加し、さらに重要ソフトウエアを保守する40超の組織へアクセスを広げています。Anthropicは最大1億ドル分の利用クレジットと400万ドルの寄付も投じ、まず守る側に時間差の優位を与える構えです。

この設計には合理性があります。Frontier Red Teamは、Anthropicの非専門家でも一晩でリモートコード実行の exploit を得られた例があると説明しています。もしこれが広く一般公開されれば、高度な脆弱性研究の経験がない攻撃者でも、AIの足場を借りて危険な攻撃手順へ近づける可能性があります。だからこそ、公開より先に、OS、ブラウザ、クラウド、金融、オープンソースの維持主体へ先行配布し、直撃しやすい土台から塞ぐ戦略が選ばれました。

安全策の未完成を認めた点の重さ

AnthropicのResponsible Scaling Policyは、能力が上がるほど safeguards も引き上げる考え方をとっています。2026年2月のVersion 3.0と4月2日の更新では、Frontier Safety RoadmapやRisk Reportを通じて、どの能力にどの安全策を当てるかの透明化を進めています。Project Glasswingでも、Mythos級モデルを安全に大規模展開するには、危険なサイバー出力を検知・遮断する新しい safeguards がまだ必要で、まずは今後のClaude Opus系モデルで改善を試すと明言しています。

ここが重要です。AI企業は通常、より高性能なモデルほど早く市場投入したくなるものです。にもかかわらずAnthropicは、最も強いモデルを先に閉じた環境へ置きました。Microsoft Foundryのドキュメントでも、Claude Mythos Previewは defensive cybersecurity use cases を優先する gated research preview とされています。これは、フロンティアAIの競争が「何を公開するか」だけでなく、「何をあえて公開しないか」を含む段階に入ったことを示しています。

注意点・展望

この発表を受けて「AIがすぐ世界中をハッキングする」と短絡的に考えるのも、「防御に使えば問題ない」と楽観するのも極端です。現時点で公開されている事実の多くはAnthropic発で、第三者による全面的な再現はこれからです。一方で、CISAとFBIが近年、バッファオーバーフローやOSコマンドインジェクションのような古典的欠陥の除去を繰り返し企業に求めていることを見ると、業界が既知の脆弱性クラスすら十分に潰し切れていないのも事実です。そこへ exploit 生成能力の高いAIが入れば、防御側の作業量は急増します。

今後の焦点は三つあります。第一に、Project Glasswing参加企業が90日以内にどれだけ具体的な修正成果を公開できるかです。第二に、Anthropic以外の大手AI企業が同等能力を持つモデルをどの程度早く出してくるかです。第三に、Secure by Designの原則を前提に、ソフトウエア開発そのものをメモリ安全性や脆弱性クラス削減へ寄せられるかです。Mythos Previewは「危険なAI」の見本というより、脆弱性が多い既存ソフトウエア産業が限界に近づいていることを可視化した存在とみるべきかもしれません。

まとめ

AnthropicのMythos Previewが示したのは、AIがサイバー分野で人間の熟練者に迫るどころか、一部では上回り始めた可能性です。ポイントは、専用の攻撃モデルではなく、汎用的なコーディングと自律性の向上だけでそこに達したとみられる点にあります。だからこそ、この能力は他社モデルにも波及しうるという警戒が生まれています。

同社が一般公開を見送り、Project Glasswingで限定提供に踏み切った判断は、性能誇示より安全保障と産業防御を優先した選択です。公開AIの競争は続きますが、2026年4月7日の発表は、「強いモデルを出せるか」ではなく「強すぎるモデルをどう扱うか」が次の論点になった転換点として記憶される可能性があります。

参考資料:

関連記事

最新ニュース