ふるまいを変更するには?概要

概要

インライン・タグ付けは、デジタルヒューマンのさまざまな動作を制御するための独自のXMLスタイルです。

現在、インラインタグは以下の3つの目的で使用されます:

これらのインラインタグは、チャットボットや会話AIによるデジタルヒューマンの発話文(ユーザーに向かって発話させる文)に挿入してください。記法はSSMLと同じです。

例:

<uneeq:emotion_joy_strong />こんにちは!<uneeq:action_wavehello />はじめまして、ソフィーと申します。<uneeq:camera_face />何か質問はありますか?
 
💡
注意 : インラインタグは、マークタグ機能をサポートする音声合成サービスを使用する場合にのみサポートされます。2023年10月現在、弊社で確認できている音声合成サービスは、Microsoft Azure / Text to SpeechAmazon Web Services / Amazon Pollyにのみです。
 

使い方

インライン・タグを使用するには、デジタルヒューマンに喋らせたい発話文の中に希望のタグを追加するだけです。インラインタグはSSMLタグと一体に機能します。

以下はその詳細です:

  • 複数のタグを発話文内のどの位置でも使用することができます。
  • タグは自動的に閉じます。タグのペア(タグで括る)は不要です。
  • 1つのレスポンスに複数の感情を使用できます。
  • 複数のアクションを使用できますが、前のアクションが完了していないタイミングで次のアクションタグを過ぎて発話が始まった場合は、後続のアクションは無視されます。
  • 競合しないアクションは組み合わせることができます。
  • Azure TTSは連続したタグをサポートしていませんが、Amazon Pollyは連続したタグをサポートしています。
 

いくつか例を示します:

⭕️下記のパターンは動作します。
<uneeq:emotion_joy_strong />Absolutely! <uneeq:action_understandnod />That's absolutely something I can do.

複数のタグで、すべてセルフクローズしたパターン
注意:連続した2つのタグはAzure TTSではサポートされていませんが、Amazon Pollyでは機能します。
Azure TTSの回避策は、タグを単語で区切ることです。

<uneeq:emotion_sadness_strong /><uneeq:action_disappointed/>I'm afraid this won't work.
❌下記のパターンは動作しません。

Certainly<uneeq:action_understandnod>, let me see what I can do for you.

タグが閉じていない
❌下記のパターンは動作しません。

<uneeq:emotion_anticipation_strong>それはとてもエキサイティングな響きですね!</uneeq:emotion_anticipation_strong>。

旧タイプのビヘイビアラングエッジフォーマットのように開閉タグが使われています。

SSMLとの混在

SSMLは引き続き完全にサポートされています。SynAnimおよびSSMLの使用の最も簡単な例:

<speak><uneeq:emotion_joy_normal />Hello!</speak>
 

以下は、AzureのSSMLを、そのニューラルボイスの一つと共に使用したより複雑な例です。複数のuneeq:タグを使用することができますが、それらは"voice"タグ内に配置されます。ただし、"prosody"のように、他の要素の外側に配置することもできることに注意してください。

<speak xmlns=\"http://www.w3.org/2001/10/synthesis\" xmlns:mstts=\"http://www.w3.org/2001/mstts\" xmlns:emo=\"http://www.w3.org/2009/10/emotionml\" version=\"1.0\" xml:lang=\"en-US\">
  <voice name=\"en-US-JennyMultilingualNeural\">
    <uneeq:action_wavingcalm/>Hey!
  </voice>
  <voice name=\"en-US-JennyMultilingualNeural\">
    <uneeq:emotion_joy_normal />
      <prosody rate=\"+5.00%\" pitch=\"+2.00%\" contour=\"(0%,-0%)\">
        <lang xml:lang=\"en-US\">It’s great to see you.</lang>
      </prosody>
  </voice>
  <voice name=\"en-US-JennyMultilingualNeural\">
    <uneeq:emotion_anticipation_normal />
      <prosody rate=\"+5.00%\" pitch=\"+2.00%\" contour=\"(0%,-0%)\">
        <lang xml:lang=\"en-US\">I’m Sophie.</lang>
      </prosody>
  </voice>
  <voice name=\"en-US-JennyMultilingualNeural\">
    <uneeq:emotion_joy_strong/> I’m here to help out with some recommendations.
  </voice>
  <voice name=\"en-US-JennyMultilingualNeural\">
    <uneeq:emotion_joy_normal />
      <prosody rate=\"+5.00%\" pitch=\"+2.00%\" contour=\"(70%, -0%) (80%,-30%) (100%,+50%)\">
        <lang xml:lang=\"en-US\">How can I help today?</lang>
    </prosody>
  </voice>
</speak>
お役に立ちましたか?
😞
😐
🤩

最終更新日 November 6, 2023