
v
私たちは不思議な時代を生きている。リビングのソファに座り、自分の声だけを使っ
て熊のグミを
500g
注文して
2
時間以内に配達してもらえるのだ(これができるのが
果たして良いことなのかどうかの議論は、別の本に譲ろう)。
最近の音声認識技術――人間が話したことをコンピューターに理解させるための技
術――の進歩はめざましい。
1999
年に私が
Nuance Communications
でボイスユー
ザーインターフェース(以下、
VUI
)のデザインを始めたとき、私が話し た
checking
と
savings
の 違いをコンピューターが認識したことに驚いた。今ではスマートフォ
ン(これも魔法のデバイスのひとつだ)に向かって「ここから
2
マイル以内にある
Wi-Fi
の使えるコーヒーショップを教えて」と言えば、見つかったすべての店への道
順を教えてくれる。
1950
年代にコンピューターが人間の想像力をかきたてるようになったころ、話し
言葉の認識は比較的容易な問題だと考えられていた。「何といったって……
2
歳児だっ
て言葉を理解できるのだから!」
しかし、ふたを開けてみると、コンピューターに言語を理解させることは極めて複
雑な作業だった。独特な言語のニュアンスや癖は人間でも理解するのに時間がかかる。
コンピューターがごく単純な命令を理解するためのプログラムを作るのに、人は何十
年もの時間を費やした。言語を真に理解できるのは物理的な存在だけだと信じる人た
ちもいた。なぜなら物理的な世界のコンテキスト(文脈)がわからなければ、 ...