Kapitel 10. Multimodale Basismodelle
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Generative KI kann unimodal oder multimodal sein. Unimodale Modelle arbeiten ausschließlich mit Daten in einer Modalität, z. B. mit Text. Große Sprachmodelle (LLMs) sind ein beliebtes Beispiel für unimodale generative KI; sowohl die Eingabeaufforderung als auch die Vervollständigung erfolgen in Textform. Sobald du eine weitere Modalität wie Bild, Video oder Audio hinzufügst, kommst du zur multimodalen generativen KI.
Mit multimodaler generativer KI kannst du die Bandbreite der Anwendungsfälle und Aufgaben erweitern und dich potenziell der künstlichen allgemeinen Intelligenz (AGI) annähern, indem du das kontextuelle Verständnis des Modells und das cross-modale Lernen verbesserst. Multimodale generative KI ist ein Schritt in Richtung Simulation der Komplexität der realen Welt, der es den Modellen nicht nur ermöglicht, verschiedene Datenformate zu verarbeiten, sondern auch durch Übertragung zu lernen und bessere kreative Problemlösungen zu finden.
Bei multimodaler KI fügst du der Eingabe verschiedene Inhaltsmodalitäten hinzu, um Aufgaben wie die Umwandlung von Bildern in Text oder von Text in Bilder zu unterstützen. Abbildung 10-1 veranschaulicht den Unterschied zwischen unimodaler und multimodaler generativer KI.
Dieses Kapitel beginnt mit einer Einführung in multimodale generative KI-Anwendungsfälle und -Aufgaben, ...
Get Generative KI auf AWS now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.