19장. 허깅 페이스 디퓨저와 함께 제너레이티브 모델 사용하기
이 작품은 AI를 사용하여 번역되었습니다. 여러분의 피드백과 의견을 환영합니다: translation-feedback@oreilly.com
지난 몇 장에 걸쳐 제너레이티브 모델에 대한 추론과 주로 LLM(일명 텍스트-텍스트 모델)을 사용하여 다양한 시나리오를 살펴봤습니다. 그러나 제너레이티브 AI는 텍스트 기반 모델에만 국한되지 않으며, 또 다른 중요한 혁신은 물론 이미지 생성(일명 텍스트-이미지)입니다. 오늘날 대부분의 이미지 생성 모델은 확산이라는 프로세스를 기반으로 하며, 이는 텍스트 프롬프트에서 이미지를 생성하는 데 사용되는 Hugging Face API의 이름에서 유래한 확산기라는 이름에서 영감을 얻었습니다. 이 장에서는 확산 모델의 작동 방식과 프롬프트에서 이미지를 생성할 수 있는 자체 앱을 시작하고 실행하는 방법에 대해 살펴봅니다.
확산 모델이란 무엇인가요?
지금까지 대부분의 사람들은 AI가 만든 이미지를 본 적이 있을 것이며, 프롬프트를 통해 요청한 내용을 추상적이고 거친 표현에서 실사에 가까운 표현으로 얼마나 빠르게 성장했는지 놀랐을 것입니다. 모델이 더 긴 프롬프트와 더 많은 디테일을 허용하고 학습 세트가 성장함에 따라 AI 이미지 생성으로 수행할 수 있는 작업은 거의 끝없이 개선되고 있습니다.
하지만 이 모든 것이 어떻게 작동할까요? 확산이라는 개념에서 시작됩니다.
이미지와 관련 노이즈의 데이터 세트를 생성하는 것으로 이 프로세스를 시작할 수 있습니다. 그림 19-1을 보세요.
그림 19-1. 이미지 노이즈 제거
이렇게 노이즈를 제거한 이미지 세트가 있으면 노이즈 제거 방법을 학습하는 모델을 훈련시켜 이미지를 원래 상태로 되돌릴 수 있습니다. 노이즈를 데이터로, 원본 이미지를 레이블로 생각하면 됩니다. 따라서 그림 19-1의 경우 오른쪽의 노이즈가 데이터이고 강아지 이미지가 레이블이 될 수 있습니다. 이 시점에서 노이즈가 보이면 그 노이즈를 이미지로 변환하는 방법을 알아낼 수 있는 모델을 훈련시킬 수 있습니다. 논리적으로 확장하면 노이즈를 생성하면 모델이 그 노이즈를 훈련 세트의 이미지와 비슷한 이미지로 바꾸는 방법을 알아낼 수 있다는 것입니다.
하지만 노이즈 이미지를 만드는 단계로 돌아가서 매우 자세한 설명과 함께 텍스트를 추가하면 어떨까요? 그러면 노이즈 이미지에 텍스트 레이블(임베딩으로 표시됨)이 첨부됩니다( 그림 19-2 참조)!
그림 19-2. 확산 프로세스에 텍스트 인코딩 추가하기
이제 노이즈가 있는 이미지에 이를 설명하는 임베딩이 첨부되었습니다. 간단히 말해, 노이즈 조각은 이를 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access