
87
4
장
이미지, 오디오, 영상을 처리하는 심층 신경망
다양한 유형의
LSTM
은
LSTM
단위마다 설계가 약간 다릅니다 (예: 서로 다른 게이트 ).
LSTM
은 손글씨나 음성 인식과 같은 여러 응용 프로그램에서 그 효과가 증명되었습니다.
LSTM
의 네트워크가 시간이 지남에 따라 오디오 패턴을 학습할 수 있도록 오디오 처리를 위한
일반적인 구조가 만들어졌습니다. 이것은 부분들의 의미가 양쪽(예를 들면, 새소리나 스피치)
모두에 있는 오디오를 이해하는 데 분명 적용할 수 있습니다. 예를 들어, [그림
4
-
11
]은 이전
에 스펙트로그램으로 변환한 오디오를 처리할 때
RNN
을 사용하는 것을 보여줍니다. 전처리된
주파수 정보는 한 차원에서 각 주파수의 진폭을 나타내고 다른 차원에서 시간을 나타내는
2D
텐서 (
2D
매트릭스)입니다.
5
이 예에서 동일한 수의 프레임이
RNN
에서 출력되며, 각 프레임
은 시퀀스의 특정 입력에 대한
RNN
의 출력에 상응합니다. 특정 시간 동안 한 세트의 오디오
주파수는 가능한 오디오의 확률 세트를 생성합니다.
그림
4-11
스펙트로그램 전처리 기능을 갖춘 일반적인 오디오 처리 연쇄 법칙
5
단일 오디오 채널이라고 가정합니다. 오디오에 여러 개의 채널이 포함된 경우 채널 깊이를 나타내는
3
차원이 있습니다.
스펙트로그램 입력
n
개 프레임