Google は、最新の高精度音声モデル「Chirp 3」を同社のAIプラットフォーム「Vertex AI」に統合することを発表しました。
Vertex AI で利用可能になる予定です。
これにより、企業や開発者は Google の先進的な音声認識技術を活用し、さまざまなアプリケーションでの音声処理精度を大幅に向上させることができます。
音声アシスタント、オーディオブック作成、サポートエージェント開発、ビデオの音声ナレーションなど、多くの分野で革新が期待されます。
Chirp 3 とは?— 従来モデルとの違い
「Chirp 3」は Google の最新音声モデルであり、音声からテキストへの変換(音声認識)と高品質なテキストから音声への変換(HD音声合成)の両方の機能を提供します。
先日、Google は31の言語に対応する8つの新しい音声が Chirp 3 に追加されることを静かに発表しました。
この発表はロンドンの Google DeepMind オフィスで開催されたイベントで行われました。
特筆すべきは、Chirp 3 の使用には誤用を防ぐための制限が設けられる予定です。
Google Cloud の CEO であるトーマス・クリアン氏は今日のニュースイベントで「セーフティチームと一緒にこれらの問題に取り組んでいるところです」と述べています。
音声AI市場の動向
音声AIの分野では、他の企業も急速に進展しています。
先週、非常にリアルな「Maya」と「Miles」というAIアプリで話題を集めたスタートアップ Sesame が、開発者向けに独自のカスタマイズアプリやサービスを構築できるモデルの提供を開始しました。
また、AI音声サービスを提供する主要スタートアップの ElevenLabs は、事業拡大のために数億ドルの資金調達を行っています。
Vertex AI における Chirp 3 の位置づけ
このニュースにより、Chirp 3 は Google の主力 LLM である最新バージョンの Gemini、画像生成モデルの Imagen、そして高価な動画生成ツール Veo 2 と同じプラットフォーム上で提供されることになります。
DeepMind の CEO であるデミス・ハサビス氏は「短期的には…AIが今後数年ですべてを解決する魔法の弾丸になるという考えは、まだ実現しそうにありません。AGI(汎用人工知能)のような技術の実現にはまだ数年かかるでしょう」と強調し「今後10年間にわたって物事を変えていくでしょう。それは時代の興味深い瞬間の一つです」と述べています。
開発者向け — Vertex AI で Chirp 3 を活用するには?
Google は Vertex AI を 2021年に、開発者がクラウドで機械学習サービスを構築するためのプラットフォームとして立ち上げました。
これはもちろん、OpenAI の GPT サービスの登場によるAI、特に生成AIへの関心の爆発的な高まりよりもはるか前のことでした。
それ以来、Google は Microsoft や Amazon など、開発者向けの生成AIツールを構築している他の企業に追いつくために、Vertex AI に注力してきました。
開発者は Vertex AI を使用して、Gemini の上に生成AIを構築するだけでなく、データを分類し、モデルをトレーニングし、本番環境用にモデルをセットアップすることができます。
なお、Google は「Chirp」音声サービスの開発を何年も前から行っており、Amazon の Alexa サービスに対抗する初期の取り組みのコードネームとして「Chirp」という名前を使用していました。
今後の展望 — さらに進化する Chirp シリーズ
Google は今後も Chirp シリーズの改良を進め、さらなる精度向上や対応言語の追加を計画しています。
特に、生成AIとの統合により、音声から直接テキスト要約やリアルタイム翻訳を行う機能が追加される可能性があります。
これにより、会議の自動要約や多言語環境でのリアルタイムコミュニケーションなど、より高度な音声処理が可能になるでしょう。
参考:Google adds its voice model Chirp 3 to its Vertex AI platform
コメント