第7章. ウェークワード検出:アプリケーションを作る
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
TinyMLは新しい現象かもしれないが、その最も広範なアプリケーションは、おそらくすでにあなたの家や車の中、あるいはポケットの中で使われている。それが何かわかるだろうか?
ここ数年、デジタルアシスタントが台頭してきている。これらの製品は、画面やキーボードを使わずに情報に瞬時にアクセスできるように設計された音声ユーザインタフェース(UI)を提供する。Googleアシスタント、AppleのSiri、Amazon Alexaの間で、これらのデジタルアシスタントはほぼユビキタスになっている。フラッグシップモデルから新興市場向けに設計されたボイスファースト・デバイスまで、ほぼすべての携帯電話に何らかの種類が組み込まれている。また、スマートスピーカー、コンピューター、自動車にも搭載されている。
ほとんどの場合、音声認識、自然言語処理、ユーザのクエリに対するレスポンスの生成といった重労働は、大規模なMLモデルを実行する強力なサーバ上のクラウドで行われる。ユーザが質問をすると、音声のストリームとしてサーバに送られる。サーバはその意味を理解し、必要な情報を調べ、適切なレスポンスを返す。
しかし、アシスタントの魅力のひとつは、常にオンになっていて、あなたを助けてくれる準備ができていることだ。ヘイ、グーグル」や「アレクサ」と言えば、アシスタントを起動させ、ボタンを押すことなく必要なことを伝えることができる。つまり、あなたがリビングルームに座っていようが、高速道路を運転していようが、大自然の中でスマホを手にしていようが、24時間365日あなたの声を聞いていなければならないのだ。
サーバ上で音声認識を行うのは簡単だが、デバイスからデータセンターへ音声のストリームを送り続けるのは現実的ではない。プライバシーの観点から言えば、リモート・サーバに音声を1秒ごとに送信することは絶対的な災害となる。仮にそれがどうにか大丈夫だとしても、膨大な帯域幅を必要とし、モバイルデータプランを数時間で使い切ることになる。さらに、ネットワーク通信はエネルギーを消費するため、絶え間なくデータを送り続ければ、デバイスのバッテリーはあっという間に消耗してしまう。さらに、すべてのリクエストがサーバを往復するため、アシスタントはラグを感じ、反応が遅くなる。
アシスタントが本当に必要とする音声は、ウェイクワード(例えば「ヘイグーグル」)の直後のものだけだ。もし、データを送信せずにその単語を検出し、それを聞いたときにストリーミングを開始することができたらどうだろう?ユーザのプライバシーを守り、バッテリー寿命と帯域幅を節約し、ネットワークを待つことなくアシスタントを目覚めさせることができる。
そこでTinyMLの出番だ。ウェイクワードをリッスンする小さなモデルをトレーニングし、低消費電力のチップで実行することができる。これを携帯電話に組み込めば、常にウェイクワードを聞き続けることができる。魔法の言葉を聞くと、携帯電話の演算子(OS)に通知され、OSは音声のキャプチャを開始し、サーバに送信することができる。
ウェイクワード検出はTinyMLに最適なアプリケーションだ。プライバシー、効率、スピード、オフライン推論を実現するのに理想的だ。小さくて効率的なモデルが、大きくてリソースを消費するモデルを「目覚めさせる」このアプローチは、 カスケーディングと呼ばれている。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access