Research

Research

by nicoxz

Anthropic、AI安全指針を緩和 競争激化で方針転換

by nicoxz
URLをコピーしました

はじめに

AI安全性の旗手として知られてきたAnthropicが、2026年2月24日、自社の安全指針「責任あるスケーリングポリシー(RSP)」の第3版を公開しました。最大の変更点は、安全対策が追いつかない場合にAIモデルの開発を一時停止するという、同社の象徴的な誓約が撤回されたことです。

Anthropicは2021年にOpenAIから独立した研究者たちによって設立され、「安全第一」を掲げてAI開発に取り組んできました。その姿勢は業界内で高く評価され、AI安全規制のモデルケースとして引用されてきました。今回の方針転換は、急速に激化するAI開発競争の中で、安全性と競争力のバランスをどう取るかという根本的な問題を浮き彫りにしています。

RSPの変遷と今回の改定内容

2023年に策定された初代RSP

Anthropicは2023年9月、業界に先駆けて「責任あるスケーリングポリシー(RSP)」を策定しました。これは米国政府のバイオセーフティレベル(BSL)を参考にしたAI安全レベル(ASL)を定義し、AIモデルの危険度に応じた段階的な安全対策を義務づけるものです。

ASL-1は2018年頃の初期的なLLMのように実質的な脅威がないレベル、ASL-2は生物兵器の製造手順など危険な情報を出力する可能性はあるが実用的なレベルには達していない段階、ASL-3は非AIの手段と比較して壊滅的な悪用リスクを実質的に増大させるレベルとされています。

初代RSPの核心は、AIモデルの能力が安全対策を上回った場合には、開発を一時停止するという明確な誓約でした。この「ハードリミット」こそが、Anthropicを他のAI企業と差別化する最大の特徴とされてきました。

v3.0で何が変わったのか

2026年2月24日に発効したRSP v3.0では、この開発停止条件が大幅に緩和されました。従来の無条件の一時停止義務は撤廃され、代わりに「二重条件」が導入されています。すなわち、Anthropicが「AI開発競争をリードしている」と判断でき、かつ「重大な壊滅的リスクが存在する」と認められる場合にのみ、開発を遅延させるという内容です。

さらに注目すべきは、これらの基準が拘束力のある「コミットメント」ではなく、進捗を公開的に評価する「パブリックゴール」として位置づけられている点です。新ポリシーには「フロンティア安全ロードマップ」が導入され、セキュリティ、アラインメント、セーフガード、ポリシーの4分野にわたる具体的な安全目標が設定されました。また、3〜6か月ごとに「リスクレポート」を公開し、モデルの能力・脅威モデル・緩和策の関係を説明することも盛り込まれています。

方針転換の背景と業界への影響

競争圧力と「安全のジレンマ」

Anthropicが今回の改定で繰り返し強調しているのが、「一社だけが立ち止まっても世界はより安全にならない」という論理です。RSP v3.0には「あるAI開発者が安全対策のために開発を一時停止しても、他の開発者が強力な緩和策なしにAIシステムの訓練・展開を続ければ、結果として世界はより安全でなくなる可能性がある」と明記されています。

CEOのDario Amodei氏は、2026年2月にFortune誌のインタビューで「私たちは競合と同様に技術革新を続けなければならないという、とてつもない商業的圧力にさらされている。さらに安全対策にも取り組んでいるため、自ら状況をより困難にしている」と率直に認めています。

Anthropicはまた、従来の枠組みが持続不可能になった3つの要因を挙げています。第一に、能力閾値から生じるリスクが明確でない「あいまいな領域」が存在すること。第二に、反規制的な政治環境が強まっていること。第三に、RSPの上位レベルが求める要件は業界全体の協調なしには達成が極めて困難であることです。

AI安全コミュニティの反応

今回の方針転換に対するAI安全研究コミュニティの反応は、おおむね否定的です。AnthropicのRSPをAI業界における自主規制の最良の事例として支持してきた研究者たちにとって、その基盤が揺らいだことの衝撃は大きいものがあります。

透明性推進団体のTransparency Coalitionは、「企業のポリシーは一夜にして変わり得るが、法律や法的基準はほぼ常に公開の議論・審議・研究・交渉を経る必要がある」と指摘し、法的規制の必要性を改めて訴えています。同団体は、Anthropic、OpenAI、Microsoft、Amazon、Metaなどが2023年と2024年に発表した広く注目された安全コミットメントの多くが、今やほぼ放棄されていると批判しています。

一方で、ジョージタウン大学安全保障・新興技術センターのOwen Daniels氏は、最も大きな短期的影響はAnthropicに対する顧客の信頼にあるとの見方を示しています。また一部のアナリストは、AIの存在論的リスクは依然として「概念的」であるとして、この変更の重要性に懐疑的な見解も示しています。

注意点・展望

今回の動きは、AI安全性が市場競争の中でどこまで維持できるかという構造的な課題を示しています。注目すべきは、Anthropicが安全性への取り組みそのものを放棄したわけではない点です。フロンティア安全ロードマップやリスクレポートの定期公開など、透明性を高める新たな仕組みも導入されています。

しかし、拘束力のある「コミットメント」から非拘束の「パブリックゴール」への転換は、外部からの検証と監視の重要性を一層高めるものです。Future of Life Instituteの2025年AI安全性インデックスでは、主要AI企業のいずれも存在論的安全性の計画でD評価以上を取得できておらず、業界全体の安全への取り組みには依然として大きな課題が残っています。

今後は、各国政府によるAI規制の法制化の動きや、国際AI安全性報告書(2026年版)の提言がどのように具体化されるかが注目されます。企業の自主規制だけに頼る時代は終わりを迎えつつあり、法的枠組みの整備が急務です。

まとめ

Anthropicによる安全指針の緩和は、AI開発競争の激化がもたらす現実的な圧力を象徴する出来事です。「安全第一」を標榜してきた企業でさえ、競合他社との競争を前にして方針の修正を迫られました。

重要なのは、この問題を一企業の判断として捉えるのではなく、AI業界全体のガバナンスの問題として認識することです。企業の自主規制には限界があり、国際的な法的枠組みの構築が不可欠です。AI技術が社会に与える影響の大きさを考えれば、安全性と競争力を両立させる制度設計は、今後のテクノロジー政策における最重要課題の一つとなるでしょう。

参考資料:

関連記事

最新ニュース