book

밑바닥부터 시작하는 딥러닝 5

by 사이토 고키, 개앞맵시(이복연)

October 2024

Beginner to intermediate

340 pages

7h 38m

Korean

Hanbit Media, Inc.

Read now

Unlock full access

1.1 확률의 기초1.1.1 확률 변수와 확률 분포

Content preview from 밑바닥부터 시작하는 딥러닝 5

291

장

확산 모델 응용

10.5.1

스테이블 디퓨전의 구조

스테이블 디퓨전의 학습 흐름은 [그림

]와 같습니다.

그림

10-15

스테이블 디퓨전의 학습 흐름

U-Net

Text Encoder

CLIP

픽셀 공간

잠재 공간

확산 모델

프롬프트

푸른 하늘과 해바라기

VAE

Encoder

그림과 같이 이미지와 텍스트를 주어 확산 모델을 학습시키면

Net

의 매개변수가 갱신됩니

다. 스테이블 디퓨전은 다음과 같은 세 가지 특징을 가지고 있습니다.

●

잠재 공간 : 잠재 공간에서 확산 모델을 처리한다.

●

CLIP

: 텍스트 인코딩용으로

CLIP

[

]

이라는 신경망을 사용한다.

●

Attention

: 어텐션 계층을 사용하여

Net

에 조건을 도입한다.

하나씩 설명하겠습니다.

잠재 공간

지금까지 살펴본 확산 모델에서는 각 시각의 데이터 (

)와 입력 이미지 (

)의 원소 수 (픽셀

수)가 같았습니다. 각 시각의 데이터는 모두 이미지와 동일한 벡터 공간, 즉 픽셀 공간에서 처

리된다는 뜻입니다. 반면 스테이블 디퓨전은 잠재 변수의 공간, 즉 잠재 공간

latent

space

에서 확

산 모델을 처리합니다.

스테이블 디퓨전은 인코더를 사용하여 픽셀 공간에서 잠재 공간으로 변환합니다. 인코더에는

VAE

에서 사용한 모델을 사용할 수 있고 잠재 변수의 차원 수를 줄임으로써 확산 모델에서 처 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

밑바닥부터 시작하는 딥러닝 4

사이토 고키

밑바닥부터 시작하는 딥러닝

사이토 고키

밑바닥부터 시작하는 딥러닝 2

사이토 고키

밑바닥부터 시작하는 비트코인

류정필, 송재준

Publisher Resources

ISBN: 9791169212960