12章音声認識

本章では、音声認識について学びます。まず、音声信号の扱い方と、さまざまな音声信号の可視化方法を説明します。音声信号の処理方法を活用して、音声認識システムを作ります。

本章では次の事柄について学びます。

  • 音声信号の扱い方
  • 音声信号の可視化
  • 音声信号の周波数領域への変換
  • 音声信号の生成
  • 音色の合成
  • 音声特徴量の抽出
  • 発話の認識

12.1 音声信号の扱い方

音声認識は、人間の発話を理解する処理です。マイクで音声信号を拾い、そこから言葉を認識します。音声認識は、スマートフォンの操作、音声の書き起こし、生体認証、セキュリティなど、人間と機械のインタラクションにおいて幅広く利用されています。

音声信号を解析する前に、その性質を理解しておくことが重要です。音声信号はさまざまな信号が複雑に組み合わさっています。その複雑さには、感情やアクセント、言語、ノイズなどの、音声に関するさまざまな側面が絡んでいます。

そのため、音声信号を解析する法則を頑健に定義するのは困難です。人間なら、音声がどんなに多様でも、難なく理解できます。しかし、同じことを機械にやらせるには、人間のまねをするように助けてあげる必要があります。

研究者は、発話理解、話者識別、感情認識、アクセント識別など、音声に関するさまざまな側面と応用について取り組んでいます。音声認識は、人間とコンピュータのインタラクションの分野で重要な一歩を表しています。人間とやりとりのできる知的なロボットは、自然言語で会話できなければなりません。これが近年多くの研究者が音声認識に注目する理由なのです。それでは、音声信号の扱い方から始めて、音声認識システムを作っていきましょう。

12.2 音声信号の可視化

まず音声信号の可視化方法を説明します。ここでは音声信号をファイルから読み込んで処理する方法を学びます。可視化は音声信号の構造を理解するのに役立ちます。 ...

Get PythonによるAIプログラミング入門 ―ディープラーニングを始める前に身につけておくべき15の基礎技術 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.