
5.1
音声入力に応じた分岐
130
入れるといった既存の物理的手段と比べて、ボイスシステムは面倒で時間のかかるも
のになってしまう。
新しい技術が既存ツールを有効に置き換えるためには、仕事が速くかつ簡単になら
なくてはならない。短時間の作業では、音声検出のエラーが起きるとそれが不可能に
なる
*1
。
これまで検討してきたことの大部分は
VUI
の音声認識部分に関連するものであり、
自然言語理解(
NLU
:
natural-language understanding
)ではない。音声認識の結果
とは、認識エンジンが返す単語列のことであり、その返ってきた単語列を
NLU
が解
釈する。現在では音声認識の精度が向上した結果、優れた
VUI
を作ることの難しさ
は技術そのものよりも
NLU
、すなわち入力データをどう扱うかにある。
それではまず、
VUI
が入力に対して応答するさまざまな方法を見てみよう。
5.1
音声入力に応じた分岐
本書ではこれまで、有効な音声入力が複数ある場合の扱いについて、あまり時間を
割いてこなかった。入力はどれも同じではない。ユーザーが何と言うと予測するか、
それをどう扱うかは、ターンごとに異なる。
ここでは基本となる応答から始め、そこから先へ進むことにする。
5.1.1
制約のある応答
システムはときとして非常に基本的な質問をする。たとえば、「フライトの予約を
しますか?」とか「好きな色は何ですか?」などだ。この種の質問に対する応答は非
常に制約されている。前者の場合、「はい」か「いいえ」の変化形に注目していれば ...