新機能:音声認識機能の強化 エンハンスド・スピーチ・レコグニッション

私たちは、音声認識システムを完全に再構築し、ユーザーにより良い体験を提供できることをお知らせします。

この新機能はホステッドエクスペリエンスとSDK(NPMパッケージ)と共に利用できます。

 

🆕 このアップデートにより、以下の機能向上を期待できます 🆕

  1. 動音声検出機能により、デジタルヒューマンに話しかける際にプッシュ・トゥ・トークを使用する必要がなく、スペースキーを押すこともありません。
  1. 音声認識の精度が向上しました。遅延のある環境でも精度の低下はありません。
  1. マイク音声は、話し始めるまでデバイスから送信されないため、プライバシーが保護されています。
  1. マイクのミュート/アンミュートや、騒がしい環境ではプッシュ・トゥ・トーク機能をシミュレートするオプションがあります。
  1. 当社のボイスアクティビティ検出システムは、ノイズ(バックグラウンドノイズ、咳、音楽など)ではなく、音声の検出に特化してトレーニングされています。
  1. デジタルヒューマンの発話中に割り込むことができ、その際にはキャラクターは話すのを止めます。ただし、バックグラウンドノイズだけではキャラクターの発話を中断することはありません。
  1. 安定性が向上し、より信頼性の高いデジタルヒューマン体験が可能になりました。
このインプットUIの場合はエンハンスド・スピーチ・レコグニッションで動作しています。
このインプットUIの場合はエンハンスド・スピーチ・レコグニッションで動作しています。
 

ホステッドエクペリエンス

移行ガイド

ホスト体験では、全てのビュー(レイアウト)で音声認識モードをサポートしています:

  • マイクをミュート/アンミュートするボタン。
  • マイクステータス(ミュート、聞き取り中、アクティブスピーチ、拒否)の表示。
  • ユーザーの発話を文字認識して表示するキャプション・字幕が画面に表示されます。

音声認識モードに切り替えるには、uneeqInteractionsOptionsの設定を使用して、voiceInputMode"SPEECH_RECOGNITION"に設定します。

window.uneeqInteractionsOptions = {
    personaShareId: "ペルソナShareID",
    showUserInputInterface: true,
    voiceInputMode: "SPEECH_RECOGNITION"
}
 

メソッドの変更

Uneeqメソッドを使用して音声録音をプログラムで制御する場合、以下の変更に注意する必要があります:

uneeqStartRecordinguneeqStopRecordingは、音声認識モードを使用している場合、何もしません。これらのメソッドはもはや必要ありません。

メッセージの変更

以前は、プッシュ・トゥ・トークを使用する場合、プッシュ・トゥ・トークのオン/オフを示すメッセージRecordingStartedRecordingStoppedを受信していました。音声認識モードを使用すると、これらのメッセージを受け取ることはなくなります。

音声認識モード使用時に送信される新しいメッセージがあります:

UserStartedSpeaking: 音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。

UserStoppedSpeaking: 音声アクティビティ検出により、ユーザーが発話を停止したと認識されました。

SpeechTranscription: 新しい中間または最終の書き起こし結果が利用可能です。メッセージ内容の詳細はこちらをご覧ください。

 

BYOエクスペリエンス(NPMパッケージ)

移行ガイド

NPMパッケージを使用して独自のエクスペリエンスとUIを構築した場合、voiceInputMode"SPEECH_RECOGNITION"に設定する必要があります。

new Uneeq({
  url: "uneeqConnectionUrl,"
  conversationId: "personaId",
  voiceInputMode: "SPEECH_RECOGNITION"
});
 

メソッドの変更

音声録音をプログラムで制御する場合、Uneeqメソッドの変更に注意してください:

uneeqStartRecordingとuneeqStopRecordingは、音声認識モードを使用している場合、何も行いません。これらのメソッドはもはや必要ありません。

メッセージの変更

以前は、プッシュ・トゥ・トークを使用する場合、RecordingStartedとRecordingStoppedというメッセージを受け取っていました。しかし、音声認識モードを使用すると、これらのメッセージは受け取られなくなります。

代わりに、音声認識モード使用時に以下の新しいメッセージが送信されます:

  • UserStartedSpeaking: 音声アクティビティ検出により、ユーザーが話し始めたことが認識されました。
  • UserStoppedSpeaking: 音声アクティビティ検出により、ユーザーが話すのを停止したことが認識されました。
  • SpeechTranscription: 新しい中間または最終の書き起こし結果が利用可能です。メッセージの詳細はこちらをご覧ください。
お役に立ちましたか?
😞
😐
🤩

最終更新日 November 1, 2023