利用できる言語と音声認識・音声合成
languages-and-speech-synthesis
多言語対応
デジタルヒューマンのプラットフォームで標準的に利用できる言語は下記の通りです。多言語対応させるには会話AI等によって様々なアプローチがありますので、エキスパートにご相談ください。
システムとしては、標準的に以下の機能に対応していますが、拡張すると対応可能言語が利用可能です。ご利用になる音声認識(STT)や音声合成(TTS)の多言語対応状況、バックエンドの会話AI(NLP・LLM)の多言語対応状況によって利用できるかどうかが変わります。
使用出来る音声認識、音声合成
日本語向け拡張として、以下のサードパーティー音声認識と音声合成との接続実績があります。その他のサービスでもAPIが公開されている場合、ほとんどの場合で接続が可能です。
音声認識(音声文字変換)
プラットフォーム標準 | Google Cloud Speech-to-Text (標準)
対応している言語 ※ホステッドエクスペリエンスで使用する場合はspeechToTextLocalesパラメータにロケールコード(言語タグ)を設定してください。 |
オプション・接続実績あり | Microsoft Azure Speech-to-Text
AmiVoice API
NTTドコモ AIエージェントAPI 音声認識
NTTレゾナント AISuite 音声認識
OpenAI Speech to text(含むRealtimeAPI) |
音声合成(文字音声変換)
P2では現時点では音声合成はMicrosoft Azure / Text to SpeechとGoogle Cloud Platform / Text-to-Speech 、ElevenLabsにのみ対応しています。
プラットフォーム標準 | |
P2対応状況 |


お役に立ちましたか?
😞
😐
🤩
最終更新日 October 26, 2025