Kapitel 1. Einführung in die generative KI und den Azure OpenAI Service

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Dieses erste Kapitel behandelt die Grundlagen der künstlichen Intelligenz (KI), um die neuen Entwicklungen der generativen KI in einen Kontext zu stellen. Es enthält einige technologieunabhängige Themen, die für jede Art von Implementierung nützlich sind, konzentriert sich aber auf den Azure OpenAI Service als zentralen Baustein für die Entwicklung von Cloud-nativen Anwendungen mit generativer KI.

Was ist künstliche Intelligenz?

Dieser Abschnitt konzentriert sich auf die historische Entwicklung von KI-Technologien und damit verbundenen Anwendungsfällen, um zu entmystifizieren, wie KI tatsächlich aussieht, und um traditionelle Ansätze mit neuen generativen KI-Techniken und -Fähigkeiten zu verbinden.

Beginnen wir mit seinen Ursprüngen. Der Begriff "KI" wurde in den 1950er Jahren geprägt. Professor John McCarthy definierte künstliche Intelligenz im Jahr 1955 als "die Wissenschaft und Technik der Herstellung intelligenter Maschinen". Man kann auch sagen, dass Professor Alan Turing zuvor den Begriff der denkenden Maschinen eingeführt hatte. 1956 veranstaltete das Dartmouth College die Konferenz "Summer Research Project on AI" mit einer Gruppe von Teilnehmern aus den wichtigsten Universitäten und Unternehmen. Diese Konferenz, die von Prof. McCarthy und anderen renommierten Forschern geleitet wurde, war der Beginn des Forschungsbereichs KI. Seitdem gab es mehrere Hype-Zyklen, Enttäuschungen aufgrund unrealistischer Erwartungen (Perioden, die oft als KI-Winter bezeichnet werden, weil die Finanzierung und das allgemeine Interesse an KI-Themen zurückgegangen sind), erneuerte Erwartungen und schließlich eine breite Kommerzialisierung von KI-gestützten Lösungen wie persönlichen Assistenten, intelligenten autonomen Staubsaugern usw.

Zwar hat sich KI in den letzten zwei Jahrzehnten stark weiterentwickelt, aber die Realität sieht so aus, dass sie zunächst nur von einigen der größten Unternehmen wie Microsoft (nein, nicht unbedingt wegen ihres berühmten Clippy!), Google, Amazon, Uber und anderen technologischen Einhörnern eingesetzt wurde. Diese erste Welle der Einführung schuf eine gute Grundlage, um anderen KI-Anwendern dieselben Fähigkeiten als Managed Cloud Services anbieten zu können, was ihnen einen klaren Wettbewerbsvorteil verschaffte. Damit begann die Phase der Daten- und KI-Demokratisierung, die wir derzeit erleben: Kleinere Unternehmen entwickeln oder nutzen KI-gestützte Dienste, und diese Lösungen gehören bereits zu unserem Alltag.

Bevor wir ins Detail gehen, sollten wir einen Schritt zurücktreten und den Kontext analysieren, in dem künstliche Intelligenz heute steht und was sie für Unternehmen und Einzelpersonen bedeutet.

Aktueller Stand der KI-Einführung

Der Begriff "KI-Einführung" beschreibt, wie Unternehmen auf der ganzen Welt entweder KI-Systeme einführen oder KI-fähige Tools anderer Unternehmen nutzen. Der Grad der KI-Einführung hängt von verschiedenen Faktoren ab, z. B. von der technologischen Reife, der Art der Organisation (große oder kleine Unternehmen, öffentliche Verwaltung, Start-ups usw.), der geografischen Lage usw. McKinsey gibt an, dass der Grad der KI-Einführung im Jahr 2022 (aus dem Bericht "State of AI") bei 50 % aller Befragten liegt, mit einem interessanten Anstieg auf internationaler Ebene und einem noch deutlicheren Anstieg in Entwicklungsländern. Darüber hinaus schätzen sie, dass generative KI die Weltwirtschaft jährlich um den Gegenwert von 2,6 bis 4,4 Billionen Dollar bereichern könnte.

Darüber hinaus definiert die Boston Consulting Group den Grad des Erfolgs und der KI-Reife als eine Kombination aus interner Akzeptanz und dem Wissen über KI innerhalb der Organisation, wobei nur 20 % der Organisationen tatsächliche Pioniere in Bezug auf die KI-Einführung sind. Nicht zuletzt prognostiziert Gartner, dass bis 2025 70 % der Unternehmen die nachhaltige und ethische Nutzung von KI zu ihren wichtigsten Anliegen zählen werden und 35 % der großen Unternehmen einen Chief AI Officer haben werden, der dem CEO oder COO unterstellt ist.

Diese Zahlen zeigen, dass die weltweite Verbreitung von KI zwar zunimmt, es aber immer noch Unterschiede darin gibt, wie Unternehmen KI einsetzen und wie erfolgreich sie sind. In den nächsten Abschnitten werden mehrere Beispiele für KI-gestützte Systeme vorgestellt, sowohl auf der Ebene der Technologie als auch der Anwendungsfälle.

Die vielen Technologien der KI

Es gibt verschiedene Möglichkeiten, künstliche Intelligenz zu definieren, aber die Realität ist, dass es nicht nur eine einzige Technologie unter dem Dach der KI gibt. Schauen wir uns die wichtigsten KI-Technologien an:

Maschinelles Lernen (ML)

Eine Art von KI, die sich auf fortschrittliche statistische Modelle stützt, die aus vergangenen Daten lernen, um zukünftige Situationen vorherzusagen. Nehmen wir einen einfachen Anwendungsfall: die Klassifizierung von Früchten anhand ihrer Bilder. Um dem System einen Apfel zu beschreiben, würden wir sagen, dass er eine eher runde Form hat und dass seine Farbe in verschiedenen Rot-, Grün- oder Gelbtönen gehalten ist. Bei Orangen ist die Erklärung bis auf die Farbe ähnlich. Der Algorithmus nimmt diese Attribute (basierend auf früheren Beispielen) als Richtlinien, um zu verstehen, wie die einzelnen Früchte aussehen. Mit zunehmender Anzahl von Beispielen entwickelt er eine bessere Fähigkeit, Orangen von Äpfeln zu unterscheiden und wird immer besser darin, sie richtig zu identifizieren. Je nach Art des Algorithmus und der Aufgabe gibt es viele ML-Modelle, aber einige wichtige Beispiele sind Entscheidungswälder, K-Mans-Clustering, Regressionen und Support Vector Machines (Hinweis: Wenn du diese Familie von KI-Modellen näher kennenlernen möchtest, wirf einen Blick auf das Microsoft ML Algorithm Cheat Sheet, in dem die Art der Aufgaben für die verschiedenen Modelle und ihre Datenanforderungen erklärt werden).

Deep Learning (DL)

Deep Learning kann als Teilbereich des maschinellen Lernens definiert werden, dessen Modelle auf den Prinzipien der Algebra und der Infinitesimalrechnung beruhen. Das Besondere am Deep Learning ist, dass der Algorithmus ein neuronales Netzwerk verwendet, um Merkmale aus den Eingabedaten zu extrahieren und sie anhand von Mustern zu klassifizieren, ohne dass manuelle Eingaben von Definitionen erforderlich sind. Der Schlüsselaspekt ist hier das neuronale Netzwerk. Die Idee der neuronalen Netze beruht auf der Tatsache, dass sie die Funktionsweise des Gehirns als mehrschichtiges System nachahmen, das mathematische Berechnungen durchführt. Neuronale Netze bestehen aus mehreren Ebenen von Algorithmen, die darauf ausgelegt sind, Muster zu erkennen, und interpretieren Daten, indem sie deren Ausgabe überprüfen und beschriften. Nehmen wir unser Beispiel mit den Früchten: Anstatt die Eigenschaften jeder einzelnen Frucht anzugeben, müssen wir viele Bilder der Früchte in das Deep Learning-Modell einspeisen. Die Bilder werden verarbeitet, und das Modell erstellt Definitionen wie Formen, Größen und Farben.

Natürliche Sprachverarbeitung (NLP)

NLP kombiniert Computerlinguistik (regelbasierte Modellierung der menschlichen Sprache) mit statistischen, maschinellen Lern- und Deep-Learning-Modellen. Ursprünglich waren diese Modelle nur in englischer Sprache verfügbar (z. B. BERT von Google AI), aber der aktuelle Trend geht dahin, lokale Versionen oder mehrsprachige Modelle zu erstellen, um andere Sprachen wie Spanisch, Chinesisch, Französisch usw. zu unterstützen. Abgesehen davon hat NLP in den letzten 20 Jahren eine enorme Entwicklung durchgemacht. Früher waren NLP-Algorithmen aufgabenspezifisch, aber moderne Architekturen haben es ihnen ermöglicht, sich besser auf verschiedene Aufgaben zu verallgemeinern und sogar neue Fähigkeiten zu erwerben, für die sie nicht trainiert wurden. Aus der Perspektive von Microsoft Azure basieren sowohl der Azure OpenAI Service als auch die Azure AI Language Resources auf NLP-Modellen.

Robotergestützte Prozessautomatisierung (RPA)

Dabei handelt es sich um eine Reihe von Technologien, die die manuellen Interaktionen menschlicher Agenten mit visuellen Schnittstellen nachbilden. Stell dir zum Beispiel vor, du arbeitest in der Personalabteilung und musst jede Woche dieselbe Aufgabe erledigen, z. B. über eine interne Plattform einige Informationen zu den Mitarbeitern überprüfen, dann einige Informationen ausfüllen und schließlich eine individuelle E-Mail versenden. RPA-Tools sind einfach zu implementieren, reduzieren die Zeitverschwendung und steigern die interne Effizienz, sodass sich die Mitarbeiter/innen auf Aufgaben mit Mehrwert konzentrieren können und monotone Arbeit vermeiden.

Operations Research (OR)

Operational Research ist ein sehr wichtiger Bereich, der oft zur Familie der KI-Technologien gezählt wird und eng mit ML und den zuvor erwähnten verstärkten Ansätzen verbunden ist. Die Universität von Montreal definiert Operations Research als "ein Gebiet an der Schnittstelle von Informatik, angewandter Mathematik, Management und Wirtschaftsingenieurwesen. Sein Ziel ist es, automatisierte, logikbasierte Entscheidungsfindungssysteme bereitzustellen, in der Regel für Kontroll- oder Optimierungsaufgaben wie Effizienzsteigerung oder Kostensenkung in der Industrie."

OR stützt sich in der Regel auf eine Reihe von Variablen und Einschränkungen, die eine Art von Simulation leiten, die für verschiedene Arten von Planungstätigkeiten verwendet werden kann: Verwaltung der begrenzten Gesundheitsversorgung in Krankenhäusern, Optimierung von Dienstplänen, Planung des Energieverbrauchs, Planung öffentlicher Verkehrssysteme usw.

Dies sind die Hauptkategorien von KI-Technologien, aber die Liste kann sich je nach Auslegung der Bedeutung von KI ändern. Unabhängig von den Details ist es wichtig, diese Technologien als eine Reihe von Fähigkeiten zur Vorhersage, Interpretation, Optimierung usw. auf der Grundlage bestimmter Dateneingaben zu betrachten. Schauen wir uns nun an, wie diese verschiedenen KI-Technologien auf die unterschiedlichsten Anwendungsfälle angewendet werden, bei denen je nach Implementierungsansatz eine Technologie zum Einsatz kommt oder sie kombiniert werden.

Typische KI-Einsatzfälle

Unabhängig vom Grad der technischen Komplexität gibt es viele verschiedene Arten von KI-Implementierungen, und ihr Nutzen hängt in der Regel von den spezifischen Anwendungsfällen ab, für die sich die Unternehmen entscheiden. Eine Organisation könnte z. B. sagen: "Wir möchten automatisch benachrichtigt werden, wenn ein bestimmtes Muster in unseren Abrechnungen auftritt" und ein einfaches Modell zur Erkennung von Anomalien oder sogar ein einfaches regelbasiertes Modell entwickeln, das als KI betrachtet werden kann. Für andere Unternehmen sind fortschrittlichere Entwicklungen erforderlich (einschließlich generativer KI), aber sie müssen eine geschäftliche Rechtfertigung haben.

Bevor wir uns mit den technischen und geschäftlichen Überlegungen für ein Unternehmen befassen, das KI einsetzt, sind hier einige Beispiele für KI-gestützte Anwendungen:

Chatbots

Wahrscheinlich kennst du Chatbots- diese kleinen Freunde, die in Websites eingebettet sind - sowie automatisierte Telefonbots, die es Unternehmen ermöglichen, ihre Kommunikation und ihren Kundensupport zu automatisieren. Sie basieren auf NLP- und Sprachfähigkeiten, die es ihnen (mit unterschiedlichem Erfolg) ermöglichen, zu verstehen, was ein Kunde will oder braucht, um ihm eine erste Antwort oder Hinweise auf die endgültige Antwort zu geben. Außerdem entlasten sie die Supportmitarbeiter/innen bei der Beantwortung erster Anfragen, da Chatbots die Fälle je nach Thema analysieren, filtern und weiterleiten können. Der Hauptvorteil liegt in der Automatisierung und Skalierbarkeit von Geschäftsaktivitäten (d.h. mehr mit weniger zu tun), aber es gibt Herausforderungen in Bezug auf die Effizienz von Chatbots bei komplexen Aufgaben und Informationen. Allerdings entwickeln sich Chatbots mit dem Aufkommen der generativen KI exponentiell weiter und gehen von traditionellen regelbasierten Maschinen zu dynamischen Assistenten über, die sich an den Kontext der Diskussion anpassen können.

Computer Vision Systeme

Bilderkennung und Klassifizierungsanwendungen, die sich auf DL-Technologien zur Analyse von Bildern und Videos stützen. Zum Beispiel verlassen sich persönliche Geräte wie Laptops und Smartphones auf diese Art von Technologie, um sie mit einem Bild deines Gesichts zu entsperren. Computer Vision unterstützt auch fortschrittliche Videoanalysen für eine Vielzahl von Anwendungen.

Betrugsaufdeckung

KI wird häufig von Finanzinstituten eingesetzt und kann dabei helfen, ungewöhnliche Muster zu erkennen, die auf eine missbräuchliche Verwendung von finanziellen Vermögenswerten wie Kreditkarten hindeuten können. Das kann eine Kartenübersetzung aus einem fernen Land sein, ungewöhnliche Einkäufe, wiederholte Versuche, Geld von einem Geldautomaten abzuheben, usw. Diese KI-gestützten Systeme stützen sich auf verschiedene Technologien (NLP, Verhaltensanalyse usw.) und machen die Überwachung skalierbarer, damit sich Menschen nur auf kritische Fälle konzentrieren können.

Sprachgesteuerte persönliche Assistenten

Integriert in Smartphones, Lautsprecher, Autos (siehe das erstaunliche Beispiel von Mercedes mit Azure OpenAI), Fernseher und andere Geräte, ermöglichen diese persönlichen Assistenten die Interaktion mit menschlichen Nutzern, indem sie Gesprächsfähigkeiten simulieren. Sie werden häufig eingesetzt, um die Barrierefreiheit zu verringern (d.h. sie nutzen die Stimme und erfordern keine Seh-, Schreib- und Lesefähigkeiten) und ermöglichen es den Nutzern, ihre Hände frei zu haben, während sie Funktionen wie Apps, Musikplayer, Videospiele usw. aktivieren. Es gibt auch Bedenken bezüglich der Privatsphäre dieser Systeme, da sie rein reaktiv agieren oder ständig auf menschliche Gespräche "hören" können .

Marketing-Personalisierung

Der eigentliche Rainmaker für große Unternehmen wie Google und Meta. Die Fähigkeit, zunächst die Merkmale eines Nutzers zu verstehen (sein Alter, seinen Standort, seine Vorlieben usw.) und dies mit den Geschäftszielen der Unternehmen, die ihre Produkte und Dienstleistungen bewerben, zu verbinden, ist das Hauptmerkmal des modernen Online-Geschäfts. Marketingabteilungen nutzen KI auch, um ihren Kundenstamm zu segmentieren und ihre Marketingtechniken an diese verschiedenen Segmente anzupassen.

In-Produkt-Empfehlungen

Unternehmen wie Netflix und Amazon haben produktinterne Empfehlungen, die auf ihrem Verständnis der Nutzerbedürfnisse basieren. Wenn jemand nach Sportartikeln sucht, kann Amazon ähnliche Produkte empfehlen. Das Gleiche gilt für Fernsehsendungen und Filme auf Netflix und anderen Streaming-Plattformen - sie können Empfehlungen aussprechen, die darauf basieren, was du zuvor gesehen hast. Alles basiert auf Kundendaten und stützt sich auf relativ komplexe KI-Modelle, auf die wir später noch eingehen werden.

Roboter

Beispiele sind der Staubsauger Roomba, die unglaublichen Kreationen von Boston Dynamics, die sogar tanzen und komplexe Aufgaben erfüllen können, der Humanoide Sophia usw.

Autonome Fahrzeuge

Diese Art von System ist mit verschiedenen fortschrittlichen Technologien ausgestattet, aber einige von ihnen nutzen KI-Techniken, die es den Autos ermöglichen, den physischen Kontext zu verstehen und sich an dynamische Situationen anzupassen. Diese Fahrzeuge können zum Beispiel autonom fahren, ohne dass ein menschlicher Fahrer nötig ist, und sie können Entscheidungen auf der Grundlage verschiedener visueller Signale von der Straße und anderen Autos treffen. Der Autopilot von Tesla ist ein gutes Beispiel dafür.

Sicherheitssysteme

Dies gilt sowohl für die Cyber- als auch für die physische Sicherheit. Wie bei der Betrugserkennung hilft KI den Sicherheitssystemen, bestimmte Muster aus Daten und Metriken zu erkennen, um unerwünschten Zugriff auf wertvolle Ressourcen zu vermeiden. Microsoft Copilot for Security zum Beispiel erkennt versteckte Muster, verstärkt die Verteidigung und reagiert mit generativer KI schneller auf Vorfälle. Ein weiteres Beispiel sind KI-fähige Kameras, die bestimmte Situationen oder Objekte auf den Videobildern erkennen können.

Online Suche

Systeme wie Microsoft Bing, Google-Suche, Yahoo usw. nutzen riesige Datenmengen und maßgeschneiderte KI-Modelle, um die besten Antworten auf bestimmte Nutzeranfragen zu finden. Dieses Konzept ist nicht neu, aber wir haben gesehen, wie sich diese Art von Systemen in den letzten Jahren mit den neuen Apps Microsoft Copilot und Google Gemini weiterentwickelt hat. Außerdem werden wir in Kapitel 3 einige Beispiele für generative KI und Websuchanwendungen sehen .

Vorausschauende Wartung

Ein sehr relevanter Fall für industrielle Anwendungen. Hier werden verschiedene Arten von Daten genutzt, um Situationen vorherzusehen, in denen Maschinen und Industrieanlagen gewartet werden müssen, bevor bestimmte Probleme auftreten. Dies ist ein perfektes Beispiel für das Verstehen von Daten aus der Vergangenheit, um Vorhersagen zu treffen, und es hilft Unternehmen, potenzielle Probleme zu vermeiden und Wartungsaktivitäten proaktiv anzugehen.

Natürlich können diese Anwendungen branchenübergreifend oder branchenspezifisch sein (z. B. Landwirtschaft, Gesundheitswesen), aber sie basieren auf denselben technologischen Grundlagen. Jetzt, wo du sie und ihre typischen Anwendungen kennst, wollen wir uns darauf konzentrieren, wie KI-Modelle lernen können, da dies für das allgemeine generative KI-Thema dieses Buches relevant ist.

Arten von KI-Lernansätzen

Als Menschen beginnen wir schon als Babys zu lernen, aber die Art und Weise, wie wir es tun, hängt von dem Prozess ab, dem wir folgen. Wir können selbst lernen, basierend auf unseren eigenen positiven oder negativen Erfahrungen. Wir können auch von den Ratschlägen erwachsener Menschen lernen, die zuvor aus ihren eigenen Erfahrungen gelernt haben; das kann uns helfen, unseren eigenen Lernprozess zu beschleunigen. KI-Modelle sind sehr ähnlich, und die Art und Weise, wie frühere Erfahrungen (in diesem Fall Daten und Modelle) genutzt werden, hängt von der Art des KI-Modell-Lernansatzes ab, wie du in Abbildung 1-1 sehen kannst.

Abbildung 1-1. Lernkategorien für KI-Modelle

Lass uns die einzelnen Ansätze in der Abbildung durchgehen:

Unüberwachtes Lernen

Diese basieren auf unüberwachten Techniken, die keine menschliche Datenkommentierung oder Unterstützung für das Lernen der KI-Modelle erfordern. Dieser Typ basiert in der Regel auf mathematischen Operationen, die automatisch Werte zwischen Dateneinträgen berechnen. Sie erfordert keine Beschriftung, eignet sich aber nur für bestimmte Arten von KI-Modellen, z. B. für die Kundensegmentierung im Marketing. Der König der unbeaufsichtigten Techniken ist das so genannte "Clustering", das Daten automatisch auf der Grundlage bestimmter Muster und Modellparameter gruppiert.

Überwachtes Lernen

Überwachtes Lernen ist eine sehr wichtige Art des Lernens für KI-Implementierungen. In diesem Fall nutzen KI-Modelle nicht nur die Eingabedaten, sondern auch das Wissen von menschlichen Experten (Fachexperten, oder KMU), die der KI helfen können, bestimmte Situationen zu verstehen, indem sie die Eingabedaten beschriften (z. B. Was ist ein Bild von einem Hund? Was ist ein negatives Muster?). In der Regel ist dafür eine Art von Datenkommentar erforderlich, d. h. das Hinzufügen zusätzlicher Informationen (z. B. eine zusätzliche Spalte für einen tabellenbasierten Datensatz, ein Tag für eine Reihe von Bildern). Dies ist in der Regel ein manueller Prozess, der sich auf die Qualität der KI-Implementierung auswirkt, da er genauso wichtig ist wie die Qualität des Datensatzes selbst.

Verstärktes Lernen

Zu guter Letzt haben wir noch die Methoden des verstärkten Lernens (RL). Ohne zu sehr in die technischen Details zu gehen, besteht das Hauptprinzip darin, Szenarien zu simulieren und das System je nach Ergebnis mit positiven oder negativen Belohnungen zu versehen. Diese Art des Lernens ist besonders wichtig für die generative KI, da das Reinforcement Learning from Human Feedback (RLHF) auf Azure OpenAI und andere Modelle angewendet wird. Konkret wird RLHF auf der Grundlage von Belohnungen aus menschlichem Feedback (d. h. von Rezensenten mit spezifischem Themenwissen) neu trainiert. Wir werden uns in Kapitel 3 mit den Details beschäftigen, denn RLHF ist für die Erstellung von Azure OpenAI-Modellen von großer Bedeutung.

Es gibt verschiedene Arten, wie Modelle lernen, abhängig von der internen Architektur, der Art der Datenquellen und den erwarteten Resultaten. Für die Zwecke dieses Buches ist es wichtig, die wichtigsten Unterschiede zu kennen und zu verstehen, da wir uns im Kontext der generativen KI auf einige von ihnen beziehen werden.

Generative KI ist auf dem Vormarsch, und der Azure OpenAI Service ist bereits ein Schlüsselfaktor für die Einführung und Demokratisierung. Lass uns nun die Grundlagen der generativen KI erforschen, um zu verstehen, wie sie funktioniert und was sie für dich und dein Unternehmen tun kann.

Über generative KI

Der Begriff "generative KI" bezieht sich auf den Bereich der künstlichen Intelligenz, der sich mit der Erstellung von Modellen und Systemen beschäftigt, die in der Lage sind, neue Inhalte wie Bilder, Texte, Musik, Videos, Diagramme usw. zu erzeugen.

Wie du vielleicht schon weißt, hat dieser Begriff in den letzten Jahren stark an Bedeutung gewonnen, aber er ist nicht neu. Schon in den 1990er Jahren gab es probabilistische Modelle wie latente Variablenmodelle und grafische Modelle, die darauf abzielten, die Datenverteilung zu erfassen und zu generieren. Auch die jüngsten Fortschritte im Bereich des Deep Learning, insbesondere in Form von generativen adversarischen Netzwerken (GANs) und Variationalen Autocodierern (VAEs), haben erheblich zur Popularisierung und Weiterentwicklung der generativen KI beigetragen.

Der Begriff "generative KI" hat an Bedeutung gewonnen, da Forscher/innen, Unternehmen und Praktiker/innen beginnen, das Potenzial dieser Techniken zur Erzeugung realistischer und kreativer Ergebnisse zu erkunden. Das Ergebnis liegt auf der Hand: KI umfasst eine breite Palette von Anwendungen und Techniken, darunter Bilderzeugung, Texterzeugung, Musikerzeugung usw. Es ist klar, dass sich dieser Bereich weiterentwickelt und sowohl die Wissenschaft als auch die Industrie weiterhin innovativ sind.

Wie in Abbildung 1-2 zu sehen ist, kann die Generierungsfunktion als eine Erweiterung anderer bestehender KI-Techniken gesehen werden, die eher darauf ausgerichtet sind, Datenmuster zu beschreiben, vorherzusagen oder vorzuschreiben oder bestimmte Szenarien zu optimieren. Fortgeschrittene KI-Techniken, wie OR und generative KI, ermöglichen es, von "nur Erkenntnissen" zu automatisierten Entscheidungen und Handlungen überzugehen.

Abbildung 1-2. Arten von KI-Fähigkeiten

Technisch gesehen funktionieren diese Modelle auf eine ganz besondere Weise. Anstatt "nur" ein bestimmtes Muster für einen Dateneintrag vorherzusagen (z. B. die ideale Versicherungsprämie für einen bestimmten Kunden), generieren sie mehrere Ergebnisse auf eine bestimmte Anweisung. Die Interaktion mit dem generativen KI-Modell erfolgt nach dem Frage-Antwort-Prinzip und umfasst sowohl direkte Anweisungen von Menschen (basierend auf natürlichsprachlichen Anweisungen) als auch automatische Aktionen.

Der Begriff "Prompt-Engineering" ist in jüngerer Zeit im Zusammenhang mit NLP und der Entwicklung von Sprachmodellen aufgetaucht. Es gibt zwar keinen eindeutigen Ursprung oder Zeitpunkt, an dem der Begriff geprägt wurde, aber er hat an Popularität gewonnen, um den Prozess der Entwicklung und Verfeinerung von Eingabeaufforderungen zu beschreiben, die den Sprachmodellen die gewünschten Antworten entlocken.

Beim Prompt-Engineering geht es darum, die Anweisungen oder Eingaben für ein Sprachmodell so zu gestalten, dass das gewünschte Ergebnis erzielt wird. Dazu gehört die Auswahl des richtigen Wortlauts, der richtigen Struktur und des richtigen Kontexts, um das Modell dazu zu bringen, die gewünschte Antwort zu geben oder eine bestimmte Aufgabe zu erfüllen. Derzeit wird daran gearbeitet, systematische Ansätze für die Gestaltung effektiver Eingabeaufforderungen, die Feinabstimmung von Modellen für bestimmte Aufgaben und die Abschwächung von Verzerrungen oder unerwünschten Verhaltensweisen bei der Spracherzeugung zu entwickeln.

In der bereits erwähnten Frage-Antwort-Dynamik siehst du in Abbildung 1-3, dass die Eingabeaufforderung die Frage und die Antwort die Vervollständigung ist. Der Begriff "Vervollständigung" im Kontext von NLP und Sprachmodellen bezieht sich auf die Generierung oder Vorhersage von Text, der eine gegebene Eingabeaufforderung oder Eingabe vervollständigt, und er wurde mit der Entwicklung größerer und leistungsfähigerer Modelle wie dem GPT von OpenAI immer häufiger verwendet. Zusammenfassend lässt sich sagen, dass der Begriff "Vervollständigung" in Sprachmodellen aus dem sich entwickelnden Bereich der Sprachmodellierung hervorgegangen ist und die Fähigkeit der Modelle widerspiegelt, Text zu erzeugen oder vorherzusagen, der einen bestimmten Kontext oder eine Eingabeaufforderung ausfüllt oder vervollständigt.

Abbildung 1-3. Eingabeaufforderungen und Vervollständigungen

Generative KI ist eine neue Art der künstlichen Intelligenz, deren Hauptvorteil für eine breite Akzeptanz darin besteht, dass sie die Kommunikation zwischen den Nutzern und den generativen KI-Modellen über Eingabeaufforderungen und Vervollständigungen in natürlicher Sprache ermöglicht. Das ist ein entscheidender Vorteil, aber sehen wir uns jetzt die wichtigsten Möglichkeiten an, die wir mit diesen Modellen nutzen können.

Die wichtigsten Fähigkeiten der generativen KI

Es stimmt, dass Sprache und textbasierte Informationen ein wichtiger Aspekt der generativen KI sind. Sprachbasierte Eingabeaufforderungen können aber auch anderen Zwecken dienen. Unternehmen und Forscher arbeiten in verschiedenen Richtungen:

Sprache

Neben der zentralen ChatGPT-ähnlichen Funktionalität mit Fragen und Antworten zwischen dem KI-Modell und dem menschlichen Nutzer gibt es noch andere verwandte Aufgaben, die sich auf die Linguistik stützen, aber noch einen Schritt weiter gehen. Was wäre, wenn du die Sprache als Katalysator für die Erstellung von:

Code

Technisch gesehen ist eine Programmiersprache genau das... eine Sprache. LLMs können gut mit Englisch oder Spanisch umgehen, aber sie sind auch gut darin, Java, Python oder C++ zu verstehen und Code zu erzeugen, wie jede andere gesprochene Sprache. Das mag nicht intuitiv sein, aber es macht Sinn, Programmiersprachen wie jede andere Sprache zu behandeln. Und genau das tut die generative KI.

Melodien

Auf der Grundlage von Musiknoten können LLMs Melodien erzeugen wie sie reguläre Sätze erzeugen. Das Potenzial der generativen KI in diesem Bereich ist noch unerforscht, aber sie zeigt vielversprechende Ergebnisse für die Musikerzeugung.

Liedtext

Ein weiteres Beispiel aus der Linguistik: Songtexte können anhand bestimmter Kriterien erstellt werden, die über eine Eingabeaufforderung erklärt werden, in der die Benutzer/innen die Art der Wörter, die Inspiration, den Stil usw. angeben können.

Bild

Das Prinzip der Bilderzeugung ist überraschend intuitiv: Du schreibst die Beschreibung eines potenziellen Bildes (in einfacher natürlicher Sprache) auf, um sie in die Eingabeaufforderung aufzunehmen, und wartest dann darauf, dass die generative KI-Engine ein oder mehrere Ergebnisse liefert, die dieser Eingabeaufforderung entsprechen, und zwar auf der Grundlage ihrer eigenen Interpretation der zuvor konsumierten Bilder. Diese Art von Funktion ist sehr interessant für Kreativ- und Marketingaktivitäten, bei denen menschliche Profis die Tools zur Bilderzeugung als Inspirationsquelle nutzen können. Ein gutes Beispiel dafür ist der Microsoft Designer oder die Bilderzeugungsfunktionen von Microsoft Copilot.

Audio

Stell dir eine Technologie vor, die es dir ermöglicht, deine eigene Stimme für ein paar Minuten aufzunehmen und sie dann für jeden beliebigen Zweck zu reproduzieren und zu vervielfältigen. Eine Art skalierbare Sprachlizenzierung, die Audiodaten nutzt, um Muster zu erkennen und sie dann zu imitieren. Es gibt Systeme, die sogar Musik und andere Geräusche erzeugen können (z. B. mit Microsoft Copilot Integration mit Sunos KI-gestützter Musikerzeugung).

Video

Wie bei der Bilderzeugung kann die Eingabe eine Eingabeaufforderung sein, die bestimmte Szenen mit verschiedenen Detailstufen beschreibt, für die das Modell dann eine Videoszene entsprechend dieser Details liefert. Ein gutes Beispiel dafür ist OpenAI Sora.

Andere

Die generativen Fähigkeiten sind nicht nur auf diese Datenformate und -typen beschränkt. Es gibt auch generative KI-Anwendungen, die synthetische Daten erstellen, chemische Verbindungen erzeugen usw.

Dies sind nur einige der Möglichkeiten, die generative KI bietet. Sie sind ziemlich beeindruckend, aber sicher nicht der letzte Schritt der neuen KI-Ära, denn es gibt sehr relevante Akteure, die dafür sorgen, dass dies der Fall ist. Mal sehen, wer die Hauptanwärter auf sind.

Relevante Branchenakteure

Obwohl sich dieses Buch auf den Azure OpenAI Service konzentriert, der sowohl mit Microsoft als auch mit OpenAI zu tun hat, ist es wichtig, die Wettbewerbslandschaft für generative KI zu verstehen. Wie du bereits weißt, gibt es in diesem Bereich erhebliche Fortschritte und einen starken Wettbewerb. Forscher/innen und Organisationen arbeiten aktiv an der Entwicklung innovativer Modelle und Algorithmen, um die Grenzen der generativen KI-Fähigkeiten zu verschieben. Hier sind einige Beispiele für wichtige Akteure, die den Wettbewerb beschleunigen:

OpenAI

Wahrscheinlich der wichtigste Akteur der generativen KI-Welle. Das Unternehmen hat sowohl proprietäre Tools wie ChatGPT als auch andere Open-Source-Projekte wie Whisper) entwickelt. Die Ursprünge von OpenAI lassen sich bis Dezember 2015 zurückverfolgen, als sie von Elon Musk , Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman und Wojciech Zaremba als gemeinnützige Organisation gegründet wurde. Ihr Ziel ist es, sicherzustellen, dass künstliche allgemeine Intelligenz (AGI) der gesamten Menschheit zugutekommt.

OpenAI konzentrierte sich zunächst auf die Forschung und die Veröffentlichung von Publikationen im Bereich der künstlichen Intelligenz, um den Wissensaustausch und die Zusammenarbeit zu fördern. Im Jahr 2019 gründete OpenAI eine gewinnorientierte Tochtergesellschaft namens OpenAI LP, um zusätzliche Mittel für seine ehrgeizigen Projekte zu erhalten. Das Ziel des Unternehmens ist es, AGI zu entwickeln und einzusetzen, die sicher und nützlich ist und mit den menschlichen Werten übereinstimmt. Das Unternehmen will modernste KI-Technologie entwickeln und gleichzeitig sicherstellen, dass sie verantwortungsvoll und ethisch korrekt eingesetzt wird. Sie haben den Zugang zu verschiedenen KI-Modellen demokratisiert:

  • Conversational GPT-Modelle mit ihrer bekannten ChatGPT-Anwendung, die auf KI-Modellen basiert. Sie basiert auf der GPT-Architektur (generative pre-trained transformer), die die Grundlage für moderne Sprachmodelle bildet, die für ihre Fähigkeit bekannt sind, menschenähnlichen Text zu generieren und in Konversationen zu interagieren. ChatGPT wurde entwickelt, um Antworten in natürlicher Sprache zu verstehen und zu generieren, und eignet sich daher besonders gut für chatbasierte Anwendungen. Es wurde mit einer riesigen Menge verschiedener Textdaten aus dem Internet trainiert, so dass es sich Wissen aneignen und kohärente und kontextbezogene Antworten erzeugen kann.

  • Generative KI-Modelle für Text (GPT-4o, GPT-4, und andere), Code (Codex), Bilder (DALL-E 3) und Videos (Sora). Einige dieser Modelle sind, wie wir in Kapitel 3 sehen werden, über den Azure OpenAI Service verfügbar.

  • Modernste Sprache-zu-Text-Modelle wie Whisper sind als Open-Source-Repository, aber auch als kostenpflichtige OpenAI-API verfügbar. Außerdem sind die Whisper-Modelle über Microsoft Azure verfügbar.

Microsoft

Neben OpenAI ist Microsoft der zweite wichtige Akteur und einer der ersten Anwender generativer KI-Technologien, dank der Multimillionen-Dollar-Investition in OpenAI und der Partnerschaft zwischen beiden Unternehmen. Neben dem Azure OpenAI Service (dem Hauptthema dieses Buches, auf das wir in den nächsten Kapiteln näher eingehen werden) hat Microsoft LLMs als Teil seines Technologiestacks übernommen, um eine Reihe von KI-Kopiloten für alle seine Produktivitäts- und Cloud-Lösungen zu entwickeln, darunter Microsoft Copilot. Außerdem hat Microsoft die Small Language Models (SML) Phi-2 und Phi-3 veröffentlicht, die in Bezug auf Größe und Leistung einen neuen Standard für die Branche setzen. Wir werden in den nächsten Kapiteln noch mehr Details erläutern, aber die Strategie des Unternehmens ist KI-zentriert, mit einem starken Fokus auf generativer KI und der kontinuierlichen Bereitstellung neuer Produkte, Plattformen, Funktionen und Integrationen.

Umarmendes Gesicht

Hugging Face ist ein Technologieunternehmen, das sich auf NLP und maschinelles Lernen spezialisiert hat. Es ist bekannt für die Entwicklung der Transformers-Bibliothek, die ein leistungsstarkes und flexibles Framework für das Training, die Feinabstimmung und den Einsatz verschiedener NLP-Modelle bietet. Hugging Face hat sich zum Ziel gesetzt, den Zugang zu modernen NLP-Modellen und -Techniken zu demokratisieren und zu vereinfachen. Es wurde 2016 von Clément Delangue und Julien Chaumond gegründet. Ursprünglich startete das Unternehmen als Open-Source-Projekt mit dem Ziel, eine Community-gesteuerte Plattform für den Austausch von NLP-Modellen und -Ressourcen zu schaffen. Ihr Hugging Face Hub ist eine Plattform für den Austausch und den Zugang zu vortrainierten Modellen, Datensätzen und Trainingspipelines. Der Hub ermöglicht es Nutzern, verschiedene NLP-Ressourcen einfach herunterzuladen und in ihre eigenen Anwendungen zu integrieren, was ihn zu einer wertvollen Ressource für Entwickler und Forscher macht. Neben ihren Open-Source-Beiträgen bietet Hugging Face auch kommerzielle Produkte und Dienstleistungen an . Ihre Modelle sind dank der Partnerschaft zwischen beiden Unternehmen über Azure AI verfügbar.

Meta

Meta, früher bekannt als TheFacebook und Facebook, ist ein multinationales Technologieunternehmen, das sich auf soziale Medien, digitale Kommunikation und Technologieplattformen konzentriert. Es wurde ursprünglich von Mark Zuckerberg, Eduardo Saverin , Andrew McCollum, Dustin Moskovitz und Chris Hughes im Jahr 2004 gegründet. In den letzten Jahren haben sie eine sehr leistungsfähige KI-Organisationsstruktur mit relevanten KI-Forschern und bedeutenden Open-Source-KI-Beiträgen geschaffen. Sie haben mehrere Modelle veröffentlicht, darunter ihre neuesten LLMs Llama 3 und CodeLlama, eine interessante datenzentrierte Option mit guter Leistung (basierend auf Industrie-Benchmarks) und geringeren Rechenanforderungen als andere bestehende Lösungen. Die neuesten Modelle sind auch über Microsoft Azure verfügbar, mit neuen Funktionen zur Feinabstimmung und Bewertung über Azure AI Studio, als Teil der exklusiven Meta-Microsoft-Partnerschaft, die Microsoft Azure als bevorzugten Cloud-Provider für Metas Modelle positioniert.

Mistral KI

Ein französisches Unternehmen, das sich auf künstliche Intelligenz spezialisiert hat. Es wurde im April 2023 von Forschern gegründet, die zuvor bei Meta und Google DeepMind gearbeitet haben. Mistral AI konzentriert sich auf die Entwicklung generativer Sprachmodelle und zeichnet sich im Gegensatz zu proprietären Modellen durch sein Engagement für Open Source Software aus. Ihre Mixture of Experts (MoE)-Modelle setzen den Standard für kleinere Sprachmodelle und sind über den Azure AI-Modellkatalog verfügbar, darunter auch das Mistral Large-Modell.

Databricks

Eine Data-Intelligence-Plattform (verfügbar als nativer Dienst auf Microsoft Azure), die ihre eigenen LLMs veröffentlicht hat, darunter ein erstes Open-Source-Modell namens Dolly 2.0, das von ihren eigenen Mitarbeitern trainiert wurde, und das erste Open-Source-LLM für kommerzielle Zwecke. Im Jahr 2024 wurden neue DBRX-Modelle (Basis- und Instruct-Versionen) veröffentlicht, die auch über den Azure-KI-Modellkatalog verfügbar sind.

Google

Google ist ein weiterer wichtiger Mitbewerber und einer der wichtigsten KI-Innovatoren. Mit der Google Cloud Platform (GCP) wurden neue KI-gestützte Funktionen in Google Workspace und G-Suite eingeführt, und die KI-Plattform Vertex von Google Cloud wird für die Entwicklung und den Einsatz von Machine-Learning-Modellen und KI-Anwendungen im großen Maßstab verwendet. Wie Microsoft Azure bietet auch Google Cloud Tools an, die es Entwicklern erleichtern, mit generativer KI zu arbeiten und neue KI-gestützte Erlebnisse in ihrer Cloud zu schaffen, einschließlich des Zugangs zu Low-Code-Tools für generative KI. Schließlich hat Google Gemini (früher bekannt als Bard) als Alternative zu OpenAIs ChatGPT und Microsoft Copilot veröffentlicht.

NVIDIA

Ein Pionier im Bereich der generativen KI, der eine umfassende Plattform anbietet, die Innovation und Kreativität bei der Lösung komplexer Herausforderungen ermöglicht. Die Plattform umfasst beschleunigtes Computing, wichtige KI-Software, vortrainierte Modelle und KI-Gießereien. Aus Sicht von Microsoft gibt es eine wachsende Partnerschaft zwischen beiden Unternehmen, einschließlich der Verfügbarkeit ihres generativen KI-Foundry-Dienstes auf Microsoft Azure und der Aufnahme von NVIDIA-KI-Modellen in den Azure-KI-Modellkatalog.

Anthropisch

Ein KI-Unternehmen, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde. Sie haben auch ihren eigenen ChatGPT-ähnlichen Bot namens Claude, der über eine Chat-Schnittstelle und API in ihrer Entwicklerkonsole zugänglich ist. Claude ist in der Lage, eine Vielzahl von Konversations- und Textverarbeitungsaufgaben zu übernehmen und dabei ein hohes Maß an Zuverlässigkeit und Vorhersagbarkeit zu gewährleisten. Ihre Claude-Modelle sind über APIs verfügbar.

Amazon Web Services (AWS)

AWS hat einige Zeit gebraucht, um generative KI-Produkte zu veröffentlichen, aber vor kurzem wurde die AWS Bedrock-Plattform angekündigt, ein grundlegender KI-Service, der direkt mit generativen KI-Modellen verbunden ist. Sie bieten ihre eigenen Modelle und andere von Drittanbietern wie Cohere oder Anthropic an.

IBM

IBM hat seine neue WatsonX-Plattform angekündigt, die einen eigenen Modellkatalog, eine Labor-/Playground-Umgebung und API-fähige Integrationen umfasst.

Cohere

Ein LLM-Unternehmen, mit einem eigenen Angebot an Sprachmodellen und einem Coral Productivity Chatbot, der als Wissensassistent für Unternehmen arbeitet.

In Abbildung 1-4 siehst du die exponentielle Entwicklung des generativen KI-Marktes mit einer Zeitleiste der neuen Modelle nach Unternehmen, insbesondere nach der Veröffentlichung von ChatGPT im Jahr 2022, mit einem Jahr 2023 voller Modell- und Plattformveröffentlichungen.

Abbildung 1-4. Vereinfachte Zeitleiste der generativen KI

Diese Zeitleiste ist eine stark vereinfachte Version der Fortschritte und Veröffentlichungen von verschiedenen Open-Source-Teams und anderen Unternehmen. Der State of AI Report und der Stanford AI Index Report enthalten viele Details über Forschungs- und kommerzielle Modelle sowie über andere wichtige Akteure, die wir hier nicht erwähnt haben. Die Liste der generativen KI-Innovationen wird sich in den kommenden Monaten und Jahren sicherlich weiterentwickeln, und zukünftige Implementierungen bestehender Modelle wie Metas Llama 3 und OpenAIs GPT-4 und GPT-4o werden sich wahrscheinlich auf die Effizienz der Modelle konzentrieren.

Jetzt wollen wir sehen, warum generative KI eine besondere Art von künstlicher Intelligenz ist, und ein neues Konzept erklären, das Basismodelle genannt wird und sich von den traditionellen Sprachmodellen unterscheidet.

Die Schlüsselrolle der Basismodelle

Es gibt mehrere Gründe, warum generative KI eine totale Störung ist . Die Wahrnehmung eines nie dagewesenen Leistungsniveaus ist einer von ihnen. Die Möglichkeit, unsere Anweisungen in einfacher Sprache zu übermitteln und die Ergebnisse zu interpretieren, ist ein weiterer Grund. Einer der grundlegenden Aspekte für die generative KI ist jedoch das Konzept der Basismodelle, die den heutigen Wert darstellen.

Basismodelle sind Basismodelle, die mit einer großen Menge an Informationen trainiert wurden (z. B. LLMs) und die sehr unterschiedliche Aufgaben erfüllen können. Das ist etwas Neues, denn herkömmliche KI-/NLP-Modelle konzentrieren sich auf einheitliche Aufgaben, ein bestimmtes Modell pro Aufgabe (z. B. Sprachübersetzung).

Azure OpenAI-Modelle wie GPT-4 und GPT-4o können zum Beispiel viele Dinge mit einem einzigen Modell tun. Sie können verschiedene Aufgaben im Zusammenhang mit einer bestimmten generativen Fähigkeit, wie z. B. Text/Sprache, ausführen und dir dabei helfen, zu analysieren, zu generieren, zusammenzufassen, zu übersetzen, zu klassifizieren usw., und das alles mit nur einem Modell. Wenn die Modelle außerdem in der Lage sind, verschiedene Arten von Eingaben gleichzeitig zu verarbeiten, z. B. Text und Bild, werden sie unter als multimodale Modelle bezeichnet (z. B. GPT-4V). Die wichtigsten Unterschiede sind in Abbildung 1-5 zu sehen.

Dieser flexible Ansatz bietet mehrere Optionen für die Entwicklung neuer Anwendungsfälle, und du wirst später (in den Kapiteln 2 und 3) sehen, wie Azure OpenAI die Konfiguration, das Testen und den Einsatz dieser Basismodelle erleichtert. Aber was bedeutet das für die Disruption der KI? Schauen wir uns zunächst einen der grundlegenden Gründe an, warum generative KI und Unternehmen wie OpenAI in den letzten Jahren so viel Aufmerksamkeit bekommen haben.

Abbildung 1-5. Traditionelle KI-Modelle versus Basismodelle

Der Weg zur allgemeinen künstlichen Intelligenz

Bevor wir uns dem Kernstück dieses Buches widmen, ist es wichtig, all diese Innovationen in den allgemeinen Stand der künstlichen Intelligenz und die aktuellen Diskussionen über künstliche allgemeine Intelligenz (AGI) aufgrund der unerwarteten Fähigkeiten von GPT-4 und anderen LLMs zu kontextualisieren.

Vielleicht erinnerst du dich an einige filmische Anspielungen auf das, was sich viele Menschen unter künstlicher Intelligenz vorstellen - Skynet, Ultron, I, Robot, etc. Sie alle zeigten eine Art von überlegener Intelligenz, meist in Form von starken und gefährlichen humanoiden Robotern, die sich im Laufe der Zeit weiterentwickeln und planen, die menschliche Ethnie irgendwie zu ersetzen oder sogar zu zerstören. Auch wenn es nicht das Ziel dieses Buches ist, eine naive Vorstellung davon zu vermitteln, was KI und ihre Fähigkeiten sind, werden wir damit beginnen, den aktuellen Entwicklungsstand der künstlichen Intelligenz zu entmystifizieren und zu verdeutlichen, damit jeder verstehen kann, wo wir stehen und was die realistischen Erwartungen an ein KI-System sind. Zu diesem Zweck stellen wir hier drei Arten von KI vor, je nach Umfang und Intelligenzgrad:

Enge KI

Die aktuelle Art von Fähigkeiten, die KI-Systeme und Technologien bieten. Im Grunde handelt es sich dabei um eine KI, die eine relativ große Menge an Daten aus der Vergangenheit sammeln und darauf basierend Vorhersagen für ganz bestimmte Aufgaben erstellen kann, z. B. das Erkennen von Objekten auf neuen Bildern, das Erkennen von Personen aus Audiostimmen usw.

Allgemeine KI (oder künstliche allgemeine Intelligenz)

Das nächste Ziel für KI-Forscher und Unternehmen. Die Idee ist, den Trainingsprozess und das Wissen, das er für KI generiert, zu verallgemeinern und in anderen Bereichen zu nutzen. Wie können wir zum Beispiel einen KI-gestützten persönlichen Assistenten dazu bringen, den sich ändernden Kontext zu erkennen? Und dann frühere Erkenntnisse an neue Situationen anpassen? Das ist heute noch nicht zu 100 % machbar, wird aber wahrscheinlich irgendwann geschehen.

Super KI

Die Art von künstlicher Intelligenz, die in Filmen und Büchern immer wieder gezeigt wird. Ihre Fähigkeiten (kognitiv, physisch usw.) sind dem Menschen weit überlegen und sie kann ihn theoretisch sogar übertreffen. Allerdings ist diese Art von Superintelligenz derzeit eine futuristische Vision dessen, was eine künstliche Intelligenz sein könnte. Sie ist noch nicht realisierbar und wird wahrscheinlich auch in den nächsten Jahren oder sogar Jahrzehnten nicht eintreten (je nachdem, wen du fragst, wird diese Meinung unterschiedlich ausfallen).

Um auf das Thema der generativen KI zurückzukommen, konzentrieren sich die aktuellen Diskussionen auf das aktuelle Stadium oder die Art der künstlichen Intelligenz. Aber die eigentliche Frage ist: Reden wir immer noch von enger KI? Sind wir der allgemeinen KI näher gekommen? Das ist eine berechtigte Frage, wenn man bedenkt, wie leistungsfähig und flexibel Basismodelle sind, um eine Vielzahl von Aufgaben zu erfüllen. Unabhängig von der Antwort (die von technisch bis philosophisch reichen kann) ist die Realität, dass generative KI im Allgemeinen und der Azure OpenAI Service im Besonderen Fähigkeiten bieten, von denen wir bisher nicht einmal zu träumen wagten.

In einer frühen Analyse der Fähigkeiten des GPT-4-Modells hat das Microsoft-Team diese Beziehung zwischen den Basismodellen untersucht und spricht von einer "Leistung nahe der menschlichen Ebene" und einer "frühen Version eines AGI-Systems". Auch Unternehmen wie OpenAI haben das Streben nach AGI zu einem ihrer Hauptziele erklärt.

Wir haben alle Grundlagen zum Thema generative KI behandelt, einschließlich der Weiterentwicklung der traditionellen KI, der jüngsten Entwicklungen und der laufenden Diskussionen über die Leistung und die Auswirkungen der generativen KI. Jetzt wollen wir uns die Details des Azure OpenAI Service ansehen, mit besonderem Augenmerk auf die Geschichte dahinter und die Kernfunktionen.

Microsoft, OpenAI und Azure OpenAI Service

Microsoft, einer der wichtigsten etablierten Technologieanbieter, und OpenAI, ein relativ junges KI-Unternehmen, haben in den letzten Jahren zusammengearbeitet und beeindruckende Technologien entwickelt, darunter KI-Supercomputer und LLMs. Einer der wichtigsten Aspekte dieser Partnerschaft ist die Schaffung des Azure OpenAI Service, dem Hauptgrund für dieses Buch, und eines PaaS kognitiven Dienstes, der eine unternehmenstaugliche Version der bestehenden OpenAI-Dienste und APIs bietet, mit zusätzlichen cloud-nativen Sicherheits-, Identitätsmanagement-, Moderations- und verantwortungsvollen KI-Funktionen.

Die Zusammenarbeit zwischen den Unternehmen wurde im Jahr 2023 bekannter, aber in Wirklichkeit gab es mehrere Phasen mit sehr wichtigen Meilensteinen sowohl auf technischer als auch auf geschäftlicher Ebene:

  • Es begann 2019, als Microsoft eine Investition von 1 Milliarde Dollar in OpenAI ankündigte, um seine KI-Forschungsaktivitäten voranzutreiben und neue Technologien zu entwickeln.

  • Im Jahr 2021 kündigten sie eine weitere Stufe der Partnerschaft an, um KI-Modelle in großem Maßstab mit den Supercomputern von Azure zu erstellen.

  • Im Januar 2023 kündigten sie die dritte Phase ihrer langfristigen Partnerschaft mit einer mehrjährigen, milliardenschweren Investition an, um KI-Durchbrüche zu beschleunigen und sicherzustellen, dass diese Vorteile auf breiter Basis mit der Welt geteilt werden.

Es ist offensichtlich, dass jeder Schritt dieser Partnerschaft die Zusammenarbeit und die Auswirkungen für beide Unternehmen vertieft hat. Die wichtigsten Arbeitsbereiche sind die folgenden:

Generative KI-Infrastruktur

Aufbau neuer Azure-KI-Supercomputing-Technologien zur Unterstützung skalierbarer Anwendungen sowohl für OpenAI- als auch für generative Microsoft-KI-Anwendungen und Portierung bestehender OpenAI-Dienste auf Microsoft Azure.

Verwaltete generative KI-Modelle

Microsoft Azure wird zum bevorzugten Cloud-Partner für die Vermarktung neuer OpenAI-Modelle über den Azure OpenAI Service, was für dich als Anwender bedeutet, dass jedes OpenAI-Modell über Microsoft Azure als nativer Enterprise-Grade-Service in der Cloud verfügbar ist, zusätzlich zu den bestehenden OpenAI-APIs.

Microsoft Copilot Produkte

Wie wir auf den folgenden Seiten sehen werden, hat Microsoft KI in seine Produktsuite integriert, indem es KI-fähige Kopiloten entwickelt hat, die den Nutzern bei komplexen Aufgaben helfen.

Außerdem ist der Azure OpenAI Service nicht der einzige KI-Dienst von Microsoft. Er ist Teil der Azure AI Suite (siehe Abbildung 1-6), die weitere PaaS-Optionen für eine Reihe von fortschrittlichen Funktionen umfasst, die zusammenarbeiten und interagieren können, um neue KI-fähige Lösungen zu schaffen .

Abbildung 1-6. Azure OpenAI Service und andere Azure AI-Dienste

Auf einige dieser Bausteine werden wir in den Kapiteln 3 und 4 eingehen, da die meisten dieser Dienste je nach angestrebter Lösungsarchitektur nahtlos mit dem Azure OpenAI Service zusammenarbeiten. Doch dieser Bereich entwickelt sich rasant weiter. Abbildung 1-7 zeigt die Zeitachse der wichtigsten Azure OpenAI-Durchbrüche der letzten Monate und Jahre.

Abbildung 1-7. Azure OpenAI Service Zeitleiste

Wenn du mehr über die Ursprünge der Partnerschaft und die ersten Entwicklungen erfahren möchtest, ist diese Podcast-Episode mit Microsofts CTO Kevin Scott und dem Mitbegründer (und ehemaligen CEO) Bill Gates sehr interessant und erklärt, wie alles begann.

Der Aufstieg der KI-Copiloten

Im Rahmen seiner KI-gestützten Angebote fördert Microsoft das Konzept der KI-Kopiloten. Dabei handelt es sich um persönliche Assistenten, die mit der KI von Microsoft, den GPT-Modellen von OpenAI und anderen generativen KI-Technologien ausgestattet sind und die Nutzer/innen bei ihren Aufgaben und Zielen unterstützen, aber nicht den Menschen und seine Arbeit ersetzen sollen. Copiloten arbeiten an der Seite der Nutzer/innen und liefern Vorschläge, Erkenntnisse und Aktionen auf der Grundlage von KI. Die Nutzer/innen haben immer die Kontrolle und die Wahl, die Ergebnisse des Copiloten zu akzeptieren, zu ändern oder abzulehnen. Optisch gesehen befinden sich Copiloten normalerweise auf der rechten Seite des Bildschirms und Microsoft hat sie in mehrere Lösungen integriert:

GitHub Copilot

Ein KI-gesteuerter Paarprogrammierer, der Entwicklern hilft schneller besseren Code zu schreiben. Er schlägt ganze Zeilen oder Funktionen direkt im Editor vor, basierend auf dem Kontext des Codes und der Kommentare. GitHub Copilot wird von GPT-4 angetrieben (früher von OpenAI Codex aktiviert, jetzt veraltet), einem System, das natürliche Sprache und Computercode erzeugen kann. GitHub Copilot ist der Originalfall und der erste Copilot der Microsoft Suite.

Bing Chat/Microsoft Copilot

Ein konversationeller KI-Dienst, der Nutzern hilft, Informationen zu finden, Antworten zu erhalten und Aufgaben im Internet zu erledigen. Er nutzt GPT-Modelle, die auf der Grundlage von Benutzereingaben Antworten in natürlicher Sprache geben können. Die Nutzer/innen können mit Bing Chat per Text oder Sprache über den Browser oder die Bing App chatten. Dies ist die erste Suchmaschine, die generative KI-Funktionen für Chat-basierte Diskussionen einsetzt, die jetzt unter dem Namen Microsoft Copilot firmieren.

Microsoft 365 Copilot

Ein KI-gesteuerter Copilot für die Arbeit, der den Nutzern hilft, ihre Kreativität zu entfesseln, ihre Produktivität zu steigern und ihre Fähigkeiten zu verbessern. Er lässt sich mit Microsoft 365-Anwendungen wie Word, Excel, PowerPoint, Outlook, Teams und Business Chat integrieren. Außerdem nutzt er LLMs wie Azure OpenAI GPT-4, um auf der Grundlage von natürlichsprachlichen Befehlen Inhalte, Erkenntnisse und Aktionen zu generieren.

Windows Copilot

Ein verbesserter KI-Assistent für Windows 11, der den Nutzern hilft, einfach zu handeln und Dinge zu erledigen. Er lässt sich in den Bing Chat sowie in Windows-Funktionen und Anwendungen von Drittanbietern integrieren. Nutzer können mit dem Windows Copilot über Befehle in natürlicher Sprache interagieren.

Fabric und Power BI Copilot

Eine generative KI-Schnittstelle für Microsoft Fabric, die Lakehouse-Plattform , und Power BI, für automatisierte Berichte.

Sicherheitskopilot

Eine KI-gestützte Sicherheitslösung, die Nutzer/innen hilft, ihre Geräte und Daten vor Cyber-Bedrohungen zu schützen. Sie nutzt KI, um Malware, Phishing, Ransomware und andere Angriffe zu erkennen und zu verhindern. Sie gibt den Nutzern außerdem Sicherheitstipps und Empfehlungen, die auf ihrem Verhalten und ihren Vorlieben basieren.

Clarity Copilot

Eine Funktion, die generative KI in Microsoft Clarity integriert, ein Analysetool, das Nutzern hilft, das Nutzerverhalten auf ihren Websites zu verstehen. Es ermöglicht Nutzern, ihre Clarity- und Google Analytics-Daten in natürlicher Sprache abzufragen und prägnante Zusammenfassungen zu erhalten. Außerdem werden mithilfe von KI wichtige Erkenntnisse aus den Wiederholungen von Sitzungen gewonnen.

Dynamics 365 Copilot

Eine Funktion, die KI der nächsten Generation in traditionelle Customer Relationship Management (CRM) und Enterprise Resource Planning (ERP) Lösungen bringt. Sie hilft den Nutzern, ihre Geschäftsprozesse zu optimieren, die Kundenbindung zu verbessern und den Umsatz zu steigern. Sie nutzt LLMs wie OpenAIs GPT-4, um auf der Grundlage von natürlichsprachlichen Befehlen Erkenntnisse, Empfehlungen und Aktionen zu generieren.

Andere

Power Platform Copilot , Microsoft Designer (Software as a Service [Saas] für visuelles Design mit einer generativen KI-Eingabeaufforderung) und das neue Copilot Studio für Low-Code-Implementierungen von KI.

Zusammenfassend lässt sich sagen, dass Microsoft eine Reihe von KI-Kopiloten für seine Produktreihe veröffentlicht hat und dass der Azure OpenAI Service der Schlüssel zur Erstellung eigener Kopiloten ist. Wir werden verschiedene Bausteine eines KI-Copiloten für Cloud-native Anwendungen analysieren (z. B. neue Begriffe wie Plug-ins und Orchestratoren), aber du kannst in Abbildung 1-8 eine angepasste Version der "KI-Copilot" -Schichtarchitektur sehen, die Microsoft auf der Microsoft Build 2023 vorgestellt hat.

Abbildung 1-8. Der moderne KI-Copilot-Technologie-Stack (Quelle: angepasst an ein Bild von Microsoft)

Wie du in der Abbildung sehen kannst, sind die KI-Infrastruktur und die Basismodelle nur ein Teil der Gleichung. Für die Entwicklung von KI-Kopiloten für deine bestehenden und neuen Anwendungen sind sowohl eine Cloud-native Architektur als auch spezifische generative KI-Teile erforderlich, und genau das werden wir in den Kapiteln 2, 3 und 4 behandeln. Doch zuvor wollen wir uns die wichtigsten Funktionen und typischen Anwendungsfälle von Azure OpenAI ansehen.

Azure OpenAI Service Fähigkeiten und Anwendungsfälle

Wir konzentrieren uns jetzt auf die Kernfunktionen und die potenziellen Anwendungsfälle von Azure OpenAI-fähigen Systemen, bevor wir auf architektonische und technische Überlegungen eingehen. Angesichts der Flexibilität der Basismodelle ist es einfach, sich die vielfältigen Anwendungsmöglichkeiten der Azure OpenAI-Modelle vorzustellen . Schauen wir uns die wichtigsten Funktionen in Tabelle 1-1 an (es gibt noch mehr, aber du kannst diese als Grundlage für deine ersten Anwendungsideen verwenden), die mit denen übereinstimmen, die wir bereits in diesem Kapitel gesehen haben.

Tabelle 1-1. Hauptfunktionen und Anwendungsfälle des Azure OpenAI Service
Typ Fähigkeit und anschauliches Beispiel
Sprache Erstellung/ Analyse von Inhalten Textgenerierung Automatische Erstellung von SMS mit dynamischen Formaten und Inhalten
Themenklassifizierung Erkennen von Buchthemen auf der Grundlage ihres Inhalts für die automatische Kennzeichnung
Stimmungsanalyse Erkenne die Stimmung in den sozialen Medien, um Schmerzpunkte zu erkennen
Entität extrahieren Finde wichtige Themen aus spezifischen Informationen
Aufruf von APIs Erstelle einen API-Aufruf und integriere ihn in andere Systeme
Dokumente für Fachexperten Erstellung von rollenbasierter Dokumentation auf der Grundlage von Büchern oder Repositories
Maschinelle Übersetzungen Website-Übersetzung auf Abruf
Technische Berichte Erstellung von Berichten auf der Grundlage von Datenbanken und anderen Informationen
Unterstützung durch Agenten Dynamische Schritt-für-Schritt-Pläne für Kundenbetreuer
Zusammenfassung Buchzusammenfassungen Zusammenfassung langer Dokumente (z. B. Bücher) mit bestimmten Formaten und Abschnitten
Wettbewerbsanalyse Extraktion der Schlüsselfaktoren von zwei Unternehmen für die Wettbewerbsanalyse
Analyse der Trends in den sozialen Medien Zusammenfassung von Keyword-Trends und Verbindung mit Online-Nachrichten
Leseverstehen Neuformulierung der wichtigsten Themen in einer einfacheren Sprache
Suche Internet-Ergebnisse Semantische Suche nach Internet-Themen
Soziale Bewertungen suchen Detaillierte Suche nach bestimmten Themen aus sozialen Bewertungen im Internet
Knowledge Mining Extraktion von Wissen aus verschiedenen Quellen zum selben Thema
Dokumentenanalyse Suche nach Schlüsselthemen und anderen verwandten Begriffen für ein bestimmtes Dokument
Automatisierung Forderungsmanagement Automatische Strukturierung von textbasierten Informationen, um sie als JSON-Datei zu versenden
Finanzielle Berichterstattung Vierteljährliche Berichterstattung auf der Grundlage von Zusammenfassungen in sozialen Medien, Zahlen aus Datenbanken und Automatisierung des Abschlussberichts und seiner Verteilung
Automatische Antworten an Kunden Automatische sprachgesteuerte Antworten oder Chatbot-Diskussionen für den Level-1-Support
Codierung Natürliche Sprache in Kodiersprache Generierung einer Java-Schleife auf der Grundlage von Anweisungen in natürlicher Sprache
Kodierungsempfehlungen Live-Codierungsempfehlungen aus dem Entwicklungstool
Automatische Kommentare Automatische Generierung von Kommentaren basierend auf dem geschriebenen Code
Refactoring Automatisierte Code-Verbesserungen
Code-Übersetzung Übersetzung von einer Programmiersprache in eine andere
SQL-Abfragen in natürlicher Sprache Datenbankabfragen in natürlicher Sprache
Codeüberprüfung KI-fähige Paarprüfung
Infos zum Pull Request Automatisierte Pull Request Kommentare
Text JSON-isierung Umwandlung von einfachem Text in eine JSON-Datei mit bestimmten Parametern
Bild Kreative Ideenfindung Zufällige Bilderzeugung zu einem bestimmten Thema
Bilder von Podcast- und Musik-Playlisten Bilderzeugung auf der Grundlage von Podcast-Transkripten oder Musiktexten
Syndizierung von Inhalten Material für partnerschaftsorientiertes Marketing
Hyper-Personalisierung Visuelle Anpassung basierend auf dem Benutzerkontext
Personalisierung von Marketingkampagnen Bildmaterial für Marketingkampagnen, basierend auf Nutzersegmenten, Themen usw.

Dies sind nur ein paar Beispiele dafür, wie du die vielfältigen Möglichkeiten der Azure OpenAI Service-Modelle nutzen kannst. Sie können mit anderen Diensten kombiniert werden und die Modelle können sich auch weiterentwickeln, also schließe Szenarien für die Audio- oder Videoerzeugung nicht aus.

Unabhängig von der Art der Fähigkeit und dem Anwendungsfall kann der Azure OpenAI Service verschiedene Arten von Szenarien unterstützen:

Fertigstellung

Ergänzungen werden verwendet, um Inhalte zu generieren, die eine bestimmte Eingabeaufforderung abschließen. Du kannst sie dir als eine Art Vorhersage oder Fortsetzung eines Textes vorstellen. Vervollständigungen sind oft nützlich für Aufgaben wie die Erstellung von Inhalten, Hilfe bei der Codierung, das Schreiben von Geschichten usw.

Chat

Chat-Szenarien sollen ein Gespräch simulieren, bei dem du dich mit dem Modell austauschen kannst. Anstatt eine einzige Eingabeaufforderung zu geben und eine Antwort zu erhalten, geben die Nutzer/innen eine Reihe von Nachrichten ein, auf die das Modell entsprechend antwortet. Chat-Szenarien (wie die von ChatGPT) sind nützlich für interaktive Aufgaben, z. B. Nachhilfeunterricht, Kundensupport und natürlich für zwangloses Chatten.

Einbettungen

Wir werden uns am Ende von Kapitel 2 mit dem Begriff der Einbettung beschäftigen, aber im Grunde genommen ermöglichen sie uns, spezifisches Wissen aus Dokumenten und anderen Quellen zu nutzen. Wir werden diese Art von Fähigkeit in mehreren Szenarien in Kapitel 3 nutzen.

Die Dynamik hinter all diesen Beispielen ist die gleiche. Azure OpenAI ist eine PaaS, die auf der Grundlage der Cloud-Nutzung funktioniert. Im Gegensatz zu anderen Cloud-Diensten oder APIs, die ihre Leistungen auf der Grundlage einer Reihe von Interaktionen abrechnen, misst Azure OpenAI (und andere kommerzielle LLM-Plattformen) die Nutzung des Dienstes auf der Grundlage eines neuen Konzepts namens "Token". Mal sehen, was es damit auf sich hat.

LLM-Tokens als neue Maßeinheit

Im Allgemeinen nutzen Cloud- und SaaS-Anbieter sehr unterschiedliche Möglichkeiten, ihre Dienste abzurechnen, von festen monatlichen Gebühren und Nutzungsstufen mit Mengenrabatten bis hin zu sehr granularen Maßeinheiten wie Zeichen, Wörtern oder API-Aufrufen.

In diesem Fall hat die generative KI den Begriff der Token übernommen, d. h. eine Menge von Wörtern oder Zeichen, in die wir die textbasierten Informationen aufteilen. Die Token-Einheit wird für zwei Zwecke verwendet:

  • Für den Verbrauch, um die Kosten für die Konfiguration und Interaktionen mit den Azure OpenAI-Modellen zu berechnen. Jeder API-Aufruf, jede Eingabeaufforderung (Textanfrage), die an das Modell gesendet wird, und jeder Abschluss (Antwort), der von Azure OpenAI geliefert wird, folgt dieser Einheit. Die Preise für den Service basieren auf den Kosten pro 1.000 Token und sind abhängig vom Modelltyp (GPT-3.5 Turbo, GPT-4, GPT-4o, DALL-E 3, etc.).

  • Für die Kapazität, sowohl auf der Modell- als auch auf der Dienstebene:

    • Token-Limit, das ist die maximale Eingabe, die wir an jedes Azure OpenAI-Modell (und generative KI-Modelle im Allgemeinen) weitergeben können. GPT-3.5 Turbo bietet zum Beispiel zwei Optionen mit einem 4K- und 16K-Token-Limit, während GPT-4, GPT-4 Turbo und GPT-4o 128K erreichen. Das wird sich in den kommenden Monaten und Jahren wahrscheinlich noch ändern. Aktuelle Informationen findest du auf der Seite zur Modellverfügbarkeit und in der Spalte "Max Request (Tokens)".

    • Service-Quoten, d.h. die maximale Kapazität auf einer bestimmten Ressourcen-, Konfigurations- und Nutzungsebene für jedes Azure OpenAI-Modell. Dies sind ebenfalls sich entwickelnde Informationen, die über die offizielle Dokumentation und den Quota-Bereich von Azure OpenAI Studio verfügbar sind. Diese Grenzen sind für jeden Einsatzplan wichtig, je nach Art der Anwendung (z. B. wenn wir einen Service für umfangreiche Business-to-Consumer [B2C]-Anwendungen einsetzen wollen). Außerdem gibt es bewährte Methoden, um mit diesen Einschränkungen umzugehen.

Die genaue Anzahl der Token hängt von der Anzahl der Wörter ab (andere Anbieter berechnen die Token auf der Grundlage von Zeichen statt von Wörtern), aber auch von der Länge und der Sprache. Die allgemeine Regel lautet, dass 1.000 Token ungefähr 750 Wörtern für die englische Sprache entsprechen, aber OpenAI erklärt, wie man die Token je nach Fall berechnet. Außerdem kannst du jederzeit Azure OpenAI Playground oder den Tokenizer von OpenAI verwenden, um eine spezifische Token-Schätzung auf der Grundlage des Eingabetextes zu berechnen.

Fazit

Dieses erste Kapitel war eine Mischung aus einführenden Informationen zu KI und generativer KI und einer vorläufigen Einführung in Azure OpenAI-Themen, einschließlich aktueller Entwicklungen, primärer Fähigkeiten, typischer Anwendungsfälle und des Wertes als KI-Kopilot für deine eigenen generativen KI-Entwicklungen.

Abhängig von deinem Hintergrund können diese Informationen nur eine 101 Einführung sein, aber die Konzepte hinter dem Azure OpenAI Service, auch wenn sie neu sind und einige neue Begriffe beinhalten, können so einfach sein, wie es aussieht - eine verwaltete PaaS, die es dir ermöglicht, deine eigenen Cloud-nativen, generativen KI-Lösungen einzusetzen.

In Kapitel 2 analysieren wir die potenziellen Szenarien für die Cloud Native-Entwicklung, ihre Verbindung mit Azure OpenAI und die architektonischen Anforderungen, die dir helfen werden, alles vorzubereiten, noch bevor du deine Azure OpenAI-fähigen Lösungen implementierst. Wenn du bereits über Vorkenntnisse zu Cloud Native und Azure-Architekturen verfügst, kannst du dieses Kapitel lesen, um die Punkte zu verknüpfen und die Besonderheiten dieser Themen in Bezug auf generative KI zu verstehen. Wenn das Thema für dich völlig neu ist, kannst du den Inhalt lesen und alle externen Ressourcen nutzen, die dich bei deiner Weiterbildung unterstützen können. Wir fangen gerade erst an!

Get Azure OpenAI Service für Cloud Native Anwendungen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.