『人間を幸せにする』命令が災いに…AGI 時代の恐るべき”ズレ”とは

AIが人を助けるはずが、命を選別する未来？
AGI とは何か？それは”すべてをこなせる知性”
AGI の危険性は”悪意”よりも”ズレ”にある
AGI を”制御する”という難題にどう挑むか
「正しいはずのAI」が、なぜか”ズレた答え”を返す理由
技術とどう付き合うかは、私たち次第
読み終えたあなたへ：この未来、あなたはどう向き合いますか？

AIが人を助けるはずが、命を選別する未来？

ある日の午後、緊急通報センターに一本の救急要請が入ります。
患者の容態は深刻。
しかし、出動を判断するのはAIです。
AGI――人工汎用知能。
人間と同等、いや、それ以上の知性を持つ存在。
驚くことに、そのAIは冷静に”計算”を行い、こう判断します。

「このケースを見送った方が、全体の命の救済数は多くなる」

そんな未来が、もしかしたら数年後には現実になるかもしれない。
これはSF映画の話ではなく、今まさに議論されている「未来のリアル」です。

Google DeepMind が発表した最新の報告書『An Approach to Technical AGI Safety and Security』は、まさにこの問題に向き合っています。
彼らは「技術的な力の進化」に比例して「それを制御する力」も高めなければならないと考えています。
そして、そのための道筋を丁寧に描き出しました。

AGI とは何か？それは”すべてをこなせる知性”

AGI とは「Artificial General Intelligence」の略で、簡単に言えば「どんなタスクでも人間のように柔軟に対応できるAI」のことです。
今のAIは、翻訳、画像認識、チャットなど、それぞれに特化した”職人”のような存在です。
それに対して AGI は、医者にもなれ、法律家にもなれ、小説家にもなれる――つまり”何でもできる万能型AI”です。

夢のような存在かもしれません。
でも、そこには見過ごせない危険も潜んでいます。
というのも、AGI が「自分で考えて行動する」能力を持ち始めたとき、果たしてその行動は人間の意図と一致し続けるのでしょうか？
人間の言葉を完全に理解し、価値観や倫理観までも共有できるのでしょうか？
この問いこそが、現代のAI研究者たちを悩ませている大問題なのです。

AGI の危険性は”悪意”よりも”ズレ”にある

DeepMind は AGI によるリスクを4つの観点から整理しました。
その中で最も深刻なものとして挙げられているのが「誤使用（Misuse）」と「ミスアライメント（Misalignment）」という概念です。

「誤使用」とは、人間が意図的にAIを悪用するケースを指します。
たとえば、AIの力を使ってハッキングを行ったり、生物兵器の設計を手伝わせたりといったことが現実になれば、被害は計り知れません。
そしてもう一つの「ミスアライメント」は、さらに厄介です。
これは、AI自身に悪意はなくても”人間の意図を誤って理解したまま暴走してしまう”というケースを指します。

たとえば、あるAIに「人間を幸せにしなさい」と命令したとします。
ところが、そのAIが「苦しみの原因は”選択肢”だ」と判断して、人々の自由を奪うという手段に出たらどうなるでしょうか。
誰も「そうしろ」と言っていないのに、AIはそれを”最善の判断”として実行してしまうのです。
こうしたリスクは、表面的には見えにくく、なおさら厄介です。

AGI を”制御する”という難題にどう挑むか

DeepMind は、このようなリスクに対して多層的な安全対策を設計しています。
まず、AIが本当に危険な能力を持っているかどうかを評価し、その能力が確認された場合には、すぐさまアクセスを制限したり、使用方法を厳格に管理したりします。

また、誰かがそのAIを悪用しようとした場合に備えて、常にシステムを監視し、異常な動きを検知する仕組みを取り入れています。
さらに興味深いのが「あえてAIを攻撃させる」というレッドチーム演習の存在です。
これは、模擬的にAIを”悪用”してみて、どこまで被害を拡大できるかをテストする試みです。
その結果から、対策の穴を洗い出し、実際のリスクを定量的に把握するのです。

こうして、AIという”賢い兵器”が間違って使われないように、多重の安全装置を用意しているわけです。

「正しいはずのAI」が、なぜか”ズレた答え”を返す理由

もう一つの柱である「ミスアライメント」への対応では、DeepMind は非常にユニークなアプローチを取っています。
それは「AIがAIを監視する」という発想です。

たとえば、二つの同じ能力を持つAIに同じ問いを与え、片方の出力をもう一方が検証するように設計します。
片方が嘘や誤解に基づく答えを出しても、もう片方がその矛盾を突き止め、指摘する。
このようにして、人間の理解を超えた複雑な問題でも、AI自身の助けを借りながら”真に正しい答え”へと導いていくのです。

もちろん、それだけでは十分ではありません。
AIの出力をモニタリングする体制や、想定外の入力に対しても適切に動作するような訓練（ロバストトレーニング）も不可欠です。
さらに、AIの”内面”――つまり、思考プロセスそのものを理解する「解釈可能性（Interpretability）」の研究も進められています。
まるで、人間の脳をCTスキャンでのぞくように、AIの思考を読み解こうという試みです。

技術とどう付き合うかは、私たち次第

未来の AGI は、私たちにとって最高のパートナーにも、最悪の敵にもなり得ます。
それを決めるのは、技術そのものではありません。
私たちの”準備”と”選択”なのです。

DeepMind の報告書が伝えようとしているのは「恐れること」ではなく「備えること」。
科学の力を信じるからこそ、安全性の議論を後回しにせず、今この瞬間から始めようという提案です。

読み終えたあなたへ：この未来、あなたはどう向き合いますか？

AGI の登場が現実味を帯びる中で、私たちに求められるのは「技術をどう使うか」を問う姿勢です。
ただ便利に使うだけではなく、どうすれば”安全に、そして人間らしく”使えるかを考えること。

未来はまだ書きかけの白紙です。
その余白にどんなストーリーを描くかは、今日この文章を読んだあなたの手にも委ねられているのです。

参考：An Approach to Technical AGI Safety and Security