Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
対話型 AI アプリケーション向け音声ベース インターフェイスを提供します。
スピーチ AI は、デバイス、マシン、コンピューターと会話することで、生活を便利にし、生活の質を上げることができます 対話型 AI のサブセットには、自動音声認識 (ASR) と音声合成 (TTS) が含まれており、人間の声をテキストに変換し、文字から人間のような音声を生成します。仮想アシスタント、リアルタイムの文字起こし、音声検索、質疑応答システムなどのパワフルなテクノロジが可能になります。
スピーチ AI モデルのカスタマイズで実現されるこのクラス最高の精度で顧客体験が特別なものにアップグレードされます。
顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。
オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシで高スループットのアプリケーションで、より多くの顧客にサービスを提供します。
ブランド独自の声は顧客の関心を引き、意味のある顧客関係を短期間で築き、顧客サービスを充実させることができます。
対話型 AI アプリケーション向けリアルタイム スピーチ AI パイプラインを構築し、展開する方法をご紹介します。
最新の文字起こしアルゴリズムは、会議、講義、社交的な会話を書き起こし、また、話者を特定し、その発言にラベルを付けます。NVIDIA スピーチ AI の技術と SDK を使用すれば、コールセンターの会話やビデオ会議を正確に書き起こすことができ、医師が患者を診察する際のメモ作成を自動化したりすることができます。
仮想アシスタントは音声インターフェイスを介してユーザーとやりとりし、コール センターで顧客対応をしたり、スマート ホーム アシスタントとしてテレビを操作、車内のインテリジェント アシスタントとして最寄りのガソリンスタンドまで案内するなど、さまざまなタスクを支援します。NVIDIA Omniverse Avatar Cloud Engine (ACE) を活用し、NVIDIA スピーチ AI テクノロジを統合することで、使いやすく、ディープ ニューラル ネットワークベースのコンポーネントをインタラクティブなアバター アプリケーションに統合し、正確かつ高速で自然なやりとりを実現します。
特徴的なブランド ボイスを利用することで、企業は、音声や言語に障害がある人を含むすべての顧客をサポートしながら、顧客と関係を構築するアプリケーションを開発することができます。スピーチ AI に含まれる NVIDIA Custom Voice を利用すると、わずか 30 分の録音音声データがあれば、個性的で高品質のブランド ボイスを数週間ではなく数時間で簡単に作成できます。
現代のスピーチ AI システムは、膨大なデータセットでトレーニングされたディープ ニューラル ネットワーク (DNN) モデルを使用します。時間の経過とともにスピーチ AI モデルの規模が非常に大きくなり、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニング フレームワークを使用しても、大量の計算処理に数週間かかることがあります。
NVIDIA スピーチ AI は、NVIDIA NGC™ カタログにトレーニング済みで製品品質のモデルを提供します。それらモデルは、NVIDIA DGX™ システムで数十万時間以上にわたり、公共および独自のデータセットでトレーニングされます。
図 1: 精度の高いトレーニング済みモデル。
図 2: エンドツーエンド TAO ツールキット ワークフロー。
多くの企業では、特定の対話型アプリケーションに最適な精度を達成するために、スピーチ AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニング データセットと AI の専門知識が必要になります。
AI 経験がなくても、開発をスピードアップし、音声モデルをカスタマイズを行うなら、ローコード AI モデル開発キットである NVIDIA TAO Toolkit を利用できます。これは、実証済みの遷移学習のアプローチがトレーニング済みモデルに応用され、ユース ケースに合わせてスピーチ AI モデルを微調整します。NVIDIA は、研究者が最先端のスピーチ AI モデルを構築するためのオープンソース ツールキットである NeMo も提供しています。NeMo と TAO Toolkit で最適化されたモデルは音声サービスとしてオンプレミスまたはクラウドの NVIDIA® Riva に簡単にエクスポートし、展開できます。
スピーチ AI スキルについては、企業は常に精度かリアルタイム性能のどちらかを選択する必要がありました。たとえば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。
NVIDIA Riva なら、企業は世界最高レベルの精度を達成しながら、スピーチ AI パイプラインを数ミリ秒以下のリアルタイムで実行できます。Riva は NGC の最先端のトレーニング済みモデル、世界最高レベルの精度を達成するための微調整を行う TAO Toolkit などのローコード ツール、リアルタイム性能のための最適化されたスキルを提供します。
図 3: NVIDIA Riva のスピーチ AI スキル機能。
スピーチ AI のアプリケーションとパイプラインでは、世界中に展開する複数の言語、方言、アクセントを理解する必要があります。たとえば、米国とその他のほとんどの国の人は異なる言語を話します。コール センターのようなユース ケースでは、現状を説明するために顧客が複数の言語を使うことがあります。次のステップは、こうした状況に対応できるスピーチ AI アプリケーションを用意することです。
開発者は、言語ごとに別々のスピーチ モデルを使用することも、複数の言語を処理できる 1 つのモデルを使用することもできます。さまざまな言語の ASR モデルに関する説明については、音声認識コレクション ページで詳細をご覧ください。
企業がスピーチ AI を初めて使用し始めた頃は、設定や使用方法が簡単なクラウド サービスを誰もが利用しました。その後、データのプライバシー問題を避けるため、企業は徐々にオンプレミス ソリューションに切り替え始めました。現在では、データのプライバシーを守るだけでなく、推論が速く、コストを削減する、オンデバイス ソリューションが最新のテクノロジとなっています。
NVIDIA Riva により、アプリケーションを組み込み、データ センター、クラウド環境に展開し、対話型 AI アプリケーション向けのカスタマイズ可能なスピーチ AI インターフェイスを開発できます。
スピーチ AI のコア概念と、音声技術のアプリケーションの構築および展開方法を理解します。
対話型 AI アプリにスピーチ AI を追加する方法と、トレーニング時と推論時にカスタマイズする方法を学習します。
スピーチ AI の概要、スピーチ AI の歴史、主要コンポーネント、課題、導入事例、NVIDIA スピーチ AI SDK について学びます。
NVIDIA Riva の主な機能を理解しておくとスピーチ AI サービスを構築するときに役立ちます。
登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る