「なぜ、この鏡には”何も”映っていないの?」
ある日、SNS で話題になっていたAIが生成した「バスルームの写真」に目を留めた私は、妙な違和感を覚えました。
蛇口も、タイルの光沢も、それっぽく再現されているのに—鏡だけが、まるで”無”のように描かれていたのです。
まるで”吸い込まれる空洞”のようなその鏡を見て、私はある疑問にたどり着きました。
「生成AIは、鏡を理解できていないのでは?」
この問いに真っ向から挑んだのが、研究者 Ali Borji さんによる論文「Mirrors: The Blind Spot of Image and Video Generation Models」です。
この論文では、AIが「鏡」をうまく生成できない理由と、それが示す深い問題について、鋭く掘り下げられています。
今回はこの論文のエッセンスを、やさしくかみ砕いてご紹介します。
生成AIの未来に興味がある人も、これから学びたい人も、きっと驚きと発見があるはずです。
AIが鏡を苦手とする理由:なぜ「映らない」のか?
生成AI—つまり画像や動画を「ゼロから描く」AIたちは、過去の膨大なデータを学習し、あたかも人間のようにリアルな絵を描きます。
でも「鏡」のような存在は、AIにとって大きな難関なのです。
たとえば、以下のような場面を想像してみてください。
AI画像生成モデルに「鏡の前の若い女性がペンを持っている絵」や「鏡の前で遊ぶ二匹の猫」「鏡の前の椅子」といった画像を生成するよう指示する。
このとき、多くのAIは鏡に”何も映さない”か、おかしな反射(たとえば体の向きがおかしい、鏡の外に物体が不自然に伸びている、反射が欠けているなど)を描いてしまうのです。
これはなぜか?
鏡とは「現実の物理法則を再現しなければならない」存在だから。
AIは”見た目”のパターンを学ぶのは得意ですが「光がどう反射して像を結ぶか」「カメラの位置と鏡の角度からどう見えるか」といった物理的な推論は、まだまだ不得意です。
つまり、鏡は”映すべき情報”をAIに要求してくる、極めて特殊な存在なのです。
画像生成AIの”盲点”が映すもの
Ali Borji 氏が行った実験では、5つの画像生成モデル(Gemini、Adobe Firefly、Bing、Ideogram、Freepik)と4つの動画生成モデル(veed.io、pollo.ai、ltx.studio、vidnoz.com)を評価しました。
その結果、鏡の反射が正しく描かれていた例はほとんどなかったと言います。
これは単なる技術的な問題ではありません。
もっと根深い「AIの認識と理解の限界」を映し出しているのです。
例えるなら—
AIにとって鏡は「数学の文章題」のようなもの。
ただの数字なら計算できるけれど、状況を想像して解く必要がある問題になると、急に手が止まってしまう。
このように、鏡という題材は、AIが「世界をどう認識しているか」を浮き彫りにする”試金石”なのです。
鏡から見えてくるAIのこれから
ここで、少し立ち止まって考えてみましょう。
私たち人間にとって「鏡に何が映るか」は、ほとんど直感的な理解です。
自分がどの角度で立てば、どんなふうに映るかは、経験で自然とわかります。
でも、AIにとってそれは“計算ではたどり着けない理解”なのかもしれません。
Borji 氏によれば、この問題に対処するためには複数のアプローチが必要です:
- 改良されたアーキテクチャ:
幾何学的制約や3Dシーン表現を明示的に組み込む新しいニューラルネットワークアーキテクチャの探索 - 強化されたトレーニングデータ:
反射面や物体関係の明示的なアノテーションを持つ、より大きく多様なデータセットの作成 - 物理ベースのレンダリング統合:
生成モデルに物理ベースのレンダリング要素を組み込む - 明示的な反射モデリング:
微分可能なレイトレーシングなどを通じて反射の物理学を明示的にモデル化する方法の開発
鏡を通して、AIを見る
この論文を読んで、私はふと考えました。
鏡に正しく”反射”を映せないAIは、まだ”世界を本当には理解していない”のかもしれない。
でもそれは、ある意味で人間に似ているとも言えるでしょう。
私たちもまた、鏡に映った姿を見て「本当の自分」を理解しようとする存在なのですから。
AIが鏡を正しく描けるようになるその日、もしかしたら彼らは、私たちに少しだけ近づいているのかもしれません。
おわりに:鏡はただの道具じゃない
この「鏡問題」は、技術の話にとどまらず、AIが本当に”世界を理解する”とはどういうことかを考えさせてくれる、哲学的なテーマでもあります。
Borji 氏が指摘するように、この問題は医療画像、自律システム、デジタルビジュアライゼーションなど、正確な空間的推論が不可欠なアプリケーションにも影響します。
また、トレーニングデータの欠陥やAIの一般化能力の限界も示しています。
これから生成AIがさらに進化する中で、鏡のような「見落とされがちな問い」が、技術の限界とその先を照らしてくれるでしょう。
あなたも、次にAIが描いた画像を見るときは、ぜひ「鏡」に注目してみてください。
そこに何が映っていないのか—それが、未来へのヒントかもしれません。
参考:Mirrors: The Blind Spot of Image and Video Generation Models
コメント