Skip to Content
밑바닥부터 시작하는 딥러닝 5
book

밑바닥부터 시작하는 딥러닝 5

by 사이토 고키, 개앞맵시(이복연)
October 2024
Beginner to intermediate
340 pages
7h 38m
Korean
Hanbit Media, Inc.
Content preview from 밑바닥부터 시작하는 딥러닝 5
291
10
확산 모델 응용
10.5.1
스테이블 디퓨전의 구조
스테이블 디퓨전의 학습 흐름은 [그림
10
-
15
]와 같습니다.
그림
10-15
스테이블 디퓨전의 학습 흐름
U-Net
Text Encoder
CLIP
픽셀 공간
잠재 공간
확산 모델
프롬프트
푸른 하늘과 해바라기
VAE
Encoder
그림과 같이 이미지와 텍스트를 주어 확산 모델을 학습시키면
U
-
Net
의 매개변수가 갱신됩니
다. 스테이블 디퓨전은 다음과 같은 세 가지 특징을 가지고 있습니다.
잠재 공간 : 잠재 공간에서 확산 모델을 처리한다.
CLIP
: 텍스트 인코딩용으로
CLIP
[
26
]
이라는 신경망을 사용한다.
Attention
: 어텐션 계층을 사용하여
U
-
Net
에 조건을 도입한다.
하나씩 설명하겠습니다.
잠재 공간
지금까지 살펴본 확산 모델에서는 각 시각의 데이터 (
x
t
)와 입력 이미지 (
x
0
)의 원소 수 (픽셀
수)가 같았습니다. 각 시각의 데이터는 모두 이미지와 동일한 벡터 공간, 즉 픽셀 공간에서 처
리된다는 뜻입니다. 반면 스테이블 디퓨전은 잠재 변수의 공간, 즉 잠재 공간
latent
space
에서 확
산 모델을 처리합니다.
스테이블 디퓨전은 인코더를 사용하여 픽셀 공간에서 잠재 공간으로 변환합니다. 인코더에는
VAE
에서 사용한 모델을 사용할 수 있고 잠재 변수의 차원 수를 줄임으로써 확산 모델에서 처 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

밑바닥부터 시작하는 딥러닝 4

밑바닥부터 시작하는 딥러닝 4

사이토 고키

Publisher Resources

ISBN: 9791169212960