あなたの”声”が、世界の扉をひらく
ふと思い出すのは、祖母との電話でした。
耳が遠くなった祖母に、何度も繰り返して話しかける私。
でも、うまく届かない。
焦る気持ちと、伝えたい気持ちだけが膨らんでいきました。
そのとき、心のどこかで思ったのです。
「話すだけで、ちゃんと伝わったら、どんなにいいだろう」と。
こうした”もどかしさ”は、実は多くの人が日常の中で感じていることかもしれません。
言葉がうまく通じない。
自分の気持ちが伝わらない。
国が違えば、文化が違えば、なおさらです。
けれども、そんな壁を声で乗り越えられる日が近づいています。
私たちの会話を、もっと自然に、もっと信頼性高く変えてくれる存在──それが、音声AIスタートアップ「Phonic」です。
「信頼性」と「低遅延」を追求する新世代の音声AI
現在のAI生成音声は、オーディオブックやポッドキャストの作成、記事の読み上げ、基本的なカスタマーサポートなどには十分な品質に達しています。
しかし、多くの企業は、AI音声技術の信頼性がまだ十分でないと考え、実用化を躊躇しています。
そこで MIT 卒業生のモイン・ナディーム氏とニキル・マーシー氏が設立したのが、Phonic です。
彼らは合成音声の信頼性を高めながら遅延を減らすエンドツーエンドの音声スタックを提供しています。
彼らが Phonic を昨年設立した際、音声技術の完全なソリューションを提供する企業は多くないと感じていました。
「音声AIは現在、自動音声認識やテキスト音声変換などの異なる部分を組み合わせ、そこにインテリジェンスを統合する段階にあります」とマーシー氏は語ります。
「しかし、実際の顧客と話すと、大規模に信頼できるソリューションが不足していることがわかりました」
かつて DataBricks が13億ドルで買収した MosaicML で働いていたナディーム氏によれば、音声AI分野で構築している多くの企業(例:Vapi、Rounded)は、別々のAIモデルを組み合わせるワークフローを作成しているとのことです。
Phonic が選んだ独自のアプローチ
Phonic は異なるアプローチを取っています:彼らは自社内でエンドツーエンドのモデルをトレーニングしています。
マーシー氏によれば、これにはいくつかの利点があります。
「モデルを所有することで、信頼性の要素をモデル自体に深く統合することができます」と彼は述べています。
「そのレイヤーを所有していなければ、シームレスに適合しない別々の部分を組み合わせているだけになります」
さらにマーシー氏は、Phonic の方法により、コスト効率よくモデルをホストして実行できると付け加えています。
彼によれば、Phonic はアクセントのある音声やこもった音声など、様々な録音でモデルをトレーニングし、高い堅牢性を実現しているとのことです。
成長の兆し
Phonic は現在、保険や医療分野の企業など限られたパートナーと協力していますが、数ヶ月以内に製品を広く発表する予定です。
ナディーム氏によれば、間もなく見込み客は Phonic のウェブサイトからその技術を試すことができるようになるとのことです。
Phonic は 400万ドルのシード資金を調達しました。
このラウンドは Lux がリードし、Replit の共同創設者アムジャド・マサド氏、Hugging Face の共同創設者クレム・ドラング氏、Applied Intuition の共同創設者カサル・ユニス氏、Modal Labs の創設者エリック・ベルンハードソン氏が参加しています。
Lux Capital のパートナー、グレース・イズフォード氏は、同社の社内モデルトレーニング方法が投資会社にとって魅力的だったと述べています。
「モインとニキルは素晴らしい技術者です」と彼女は言います。
「彼らはMITで機械学習クラブを設立し、長い間モデルのトレーニングに取り組んできました。さらに、音声AI分野でディフュージョンと独自モデルを組み合わせるアプローチは新しいものです」
声で、信頼性の高い未来へ
Phonic の挑戦は、単なるAI技術の発展ではありません。
それは、企業が安心して導入できる、信頼性の高い音声AIソリューションを提供するための革新です。
音声AIの可能性はますます広がっています。
オーディオブックの作成からカスタマーサポート、そして多言語コミュニケーションに至るまで、その活用シーンは無限です。
信頼性の高い音声AIが世界を変える。
その第一歩が、いま始まろうとしています。
AI音声技術が、明日、あなたのビジネスを変えるかもしれません。
コメント