「AIがより効率的に進化し、より複雑な問題を解決できるようになる」
―そんな未来が現実となりました。
Google DeepMind は2025年2月5日、最新のAIモデル群「Gemini 2.0」の一般提供を開始しました。
本記事では、新しく提供される3つのモデルの特徴と、その革新的な機能について詳しく解説します。
Gemini 2.0 の新モデルラインナップ
Google DeepMind は今回、以下の3つのモデルを発表しました:
Gemini 2.0 Flash
開発者向けの主力モデルとして一般提供が開始された Gemini 2.0 Flash は、大規模かつ高頻度のタスクに最適化されています。
100万トークンのコンテキストウィンドウを持ち、大量の情報に対するマルチモーダル推論が可能です。
画像生成や音声合成機能も近日中に追加される予定です。
Gemini 2.0 Pro(実験版)
最も高性能な実験版モデルとして登場した Gemini 2.0 Pro は、特にコーディングパフォーマンスと複雑なプロンプト処理において優れた能力を発揮します。
200万トークンという最大のコンテキストウィンドウを持ち、Google 検索やコード実行といったツールとの連携も可能です。
Gemini 2.0 Flash-Lite
新たに導入された最もコスト効率の高いモデルです。
Gemini 1.5 Flash と同じ速度とコストを維持しながら、より高品質な結果を提供します。
100万トークンのコンテキストウィンドウを持ち、マルチモーダル入力に対応。
例えば、Google AI Studio の有料プランでは、約4万枚の写真に対して1ドル未満でキャプション生成が可能です。
安全性と信頼性の向上
Gemini 2.0 シリーズでは、安全性と信頼性の向上に特に注力しています。
新しい強化学習技術を採用し、Gemini 自体が応答を評価・改善する機能を実装。
これにより、より正確で適切な応答が可能になりました。
また、自動化された「レッドチーミング」を活用して安全性とセキュリティリスクを評価しています。
特に、AIシステムが取得する可能性のあるデータに悪意のある指示を隠蔽する「間接的なプロンプトインジェクション」などのサイバーセキュリティ攻撃に対する対策を強化しています。
提供環境と今後の展開
これらのモデルは、Google AI Studio と Vertex AI で利用可能です。
また、Gemini アプリではデスクトップとモバイルの両方で利用できます。
現時点では、テキスト出力を伴うマルチモーダル入力に対応しており、今後数ヶ月以内に更なるモダリティが一般提供される予定です。
まとめ
Gemini 2.0 シリーズの登場により、AIの活用範囲はさらに広がりを見せています。
特に、コスト効率、処理能力、安全性の面で大きな進歩を遂げており、企業や開発者にとってより実用的なツールとなることが期待されます。
今後も継続的な更新と機能改善が予定されており、AIの新たな可能性を切り開いていくことでしょう。
コメント