
624
2
부
신경망과 딥러닝
에
2
개의 타임 스텝만 바라봅니다. 다음 층은
4
개의 타임 스텝을 보고 (즉 수용장 길이가
4
개의
타임 스텝이 됩니다), 다음은
8
개의 타임 스텝을 보는 식입니다(그림
15
-
11
). 이런 식으로
하위 층은 단기 패턴을 학습하고 상위 층은 장기 패턴을 학습합니다. 팽창 비율을 두 배로 늘린
덕분에 네트워크는 아주 긴 시퀀스를 매우 효율적으로 처리할 수 있습니다.
팽창 비율 8
팽창 비율 4
팽창 비율 2
팽창 비율 1
입력
그림
15-11
WaveNet
구조
25
WaveNet
논문에서 저자들은 실제로 팽창 비율이 각각
1
,
2
,
4
,
8
, …,
256
,
512
인 합성곱 층
10
개를 쌓았습니다. 그다음 (팽창 비율이
1
,
2
,
4
,
8
, …,
256
,
512
인) 동일한 층
10
개를 따
로 그룹지어 쌓았습니다. 이런 팽창 비율을 가진 합성곱 층
10
개가
1
,
024
크기의 커널 한 개로
이루어진 매우 효율적인 합성곱 층처럼 작동한다는 것을 보였습니다 (더 빠르고 강력하고 훨씬
적은 파라미터를 사용합니다 ). 이런 이유 때문에 이 블럭을
3
개 쌓았습니다. 각 층 이전의 팽창
비율과 동일한 개수
26
의
0
을 입력 시퀀스 왼쪽에 패딩으로 추가하여 네트워크를 통과하는 시퀀
스 길이를 동일하게 만들었습니다. 다음은 앞과 동일한 시퀀스를 처리하는 간단한 ...