Kapitel 7. Einführung in Diffusionsmodelle für dieBilderzeugung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden die beliebtesten Diffusionsmodelle für die KI-Bilderzeugung vorgestellt. Du lernst die Vorteile und Grenzen der einzelnen Modelle kennen, so dass du je nach Aufgabenstellung die richtige Wahl treffen kannst.

Die 2015 eingeführten Diffusionsmodelle sind eine Klasse von generativen Modellen, die spektakuläre Ergebnisse bei der Erzeugung von Bildern aus Text gezeigt haben. Die Veröffentlichung von DALL-E 2 im Jahr 2022 markierte einen großen Sprung in der Qualität der mit Diffusionsmodellen erzeugten Bilder. Die Open-Source-Software Stable Diffusion und der Community-Favorit Midjourney folgten schnell und bildeten eine konkurrenzfähige Kategorie. Mit und der Integration von DALL-E 3 in ChatGPT werden die Grenzen zwischen Text- und Bilderzeugung weiter verschwimmen. Fortgeschrittene Nutzer/innen werden jedoch wahrscheinlich weiterhin direkten Zugriff auf das zugrunde liegende Modell zur Bilderzeugung benötigen, um die besten Ergebnisse zu erzielen.

Diffusionsmodelle werden trainiert indem man einem Bild in vielen Schritten zufälliges Rauschen hinzufügt und dann vorhersagt, wie der Diffusionsprozess durch Entrauschen (Entfernen des Rauschens) umgekehrt wird. Der Ansatz stammt aus der Physik, wo er verwendet wurde, um zu simulieren, wie sich Teilchen durch ein Medium ...

Get Prompt Engineering für generative KI now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.