最強AI対決！スーパーマリオで明暗分かれる次世代技術の実力

「もしAIがスーパーマリオを完全攻略できたら、それは自動運転車が事故ゼロを達成する未来への第一歩かもしれません」
そんな未来を想像したことがありますか？
近年、AIの進化は驚くべきスピードで進んでおり、その性能を測るための新たな基準として、意外にも「スーパーマリオ」が活用され始めています。
なぜ単なるゲームが、AI研究の重要な試金石となっているのでしょうか？
その理由を深掘りしていきましょう。

スーパーマリオがAIの試験場になる理由
AIはどのようにしてマリオを学習するのか？
ゲームの枠を超えて——AIの未来と評価の課題
結論：スーパーマリオがAIの評価方法に新たな視点をもたらす

スーパーマリオがAIの試験場になる理由

従来、AIの性能を評価する手法としては、チェスや囲碁のようなボードゲーム、画像認識テストなどが用いられてきました。
最近ではポケモンもAIの難しいベンチマークとして使われていましたが、カリフォルニア大学サンディエゴ校の Hao AI Lab の研究者グループは、スーパーマリオブラザーズがさらに難しいベンチマークだと主張しています。

Hao AI Lab は2025年3月3日、実際のスーパーマリオブラザーズゲームでAIの性能テストを行いました。
このテストでは Anthropic の Claude 3.7 が最も優れた成績を収め、次いで Claude 3.5 が続きました。
一方、Google の Gemini 1.5 Pro と OpenAI の GPT-4o は苦戦する結果となりました。

なお、このテストで使用されたのは1985年に発売されたオリジナル版とまったく同じバージョンではなく、エミュレーター上で動作し、AIにマリオの操作を可能にするフレームワーク「GamingAgent」と統合されたものでした。

AIはどのようにしてマリオを学習するのか？

Hao が社内で開発した GamingAgent は「障害物や敵が近くにいる場合、左に移動/ジャンプして回避する」といった基本的な指示と、ゲーム内のスクリーンショットをAIに提供します。
AIはそれに基づいてマリオを操作するための Python コードの形で入力を生成します。

Hao によれば、このゲームは各AIモデルに複雑な動きの計画やゲームプレイ戦略の開発を「学習」させることができるそうです。
興味深いことに、研究室の調査では、問題を一歩一歩考えて解決策に到達する「推論モデル」（OpenAI のo1など）は、多くのベンチマークで一般的に強いにもかかわらず「非推論モデル」よりも成績が悪かったとのことです。

研究者によると、推論モデルがスーパーマリオブラザーズのようなリアルタイムゲームで苦戦する主な理由の一つは、行動を決定するのに時間（通常は数秒）がかかることだといいます。
スーパーマリオブラザーズでは、タイミングが非常に重要で、一秒の差がジャンプの成功と失敗を分けることになります。

ゲームの枠を超えて——AIの未来と評価の課題

ゲームは数十年にわたってAIのベンチマークとして使用されてきました。
しかし、一部の専門家はAIのゲームスキルと技術的進歩の間の関連性を結びつけることの妥当性に疑問を投げかけています。
現実世界とは異なり、ゲームは抽象的で比較的単純であり、AIを訓練するための理論上無限のデータを提供します。

最近の華々しいゲームベンチマークは、OpenAI の研究者であり創立メンバーであるアンドレイ・カーパシーが「評価の危機」と呼ぶものを示しています。

「今[AI]のどのメトリクスを見ればいいのか、本当にわかりません」と彼はXへの投稿で書いています。「要するに、これらのモデルが今どれほど優れているのか、本当にわからないというのが私の反応です。」

少なくとも、私たちはAIがマリオをプレイする様子を観察することができます。

結論：スーパーマリオがAIの評価方法に新たな視点をもたらす

スーパーマリオを使ったAI研究は、私たちの未来にどのような影響を与えるのでしょうか？
その答えは、技術の進化とともに明らかになっていくでしょう。
AIがスーパーマリオを完全攻略する日が来たとき、それが技術的進歩の真の指標となるのか、あるいは単なるゲームの成功に過ぎないのか、議論は続くことでしょう。

これからも、この分野の進化に注目していきたいですね。
あなたは、AIがスーパーマリオをクリアする未来に何を期待しますか？

参考：People are using Super Mario to benchmark AI now