Kapitel 2. RAG Teil I: Indizierung deiner Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Im vorigen Kapitel hast du die wichtigsten Bausteine kennengelernt, um eine LLM-Anwendung mit LangChain zu erstellen. Du hast auch einen einfachen KI-Chatbot gebaut, der aus einer Eingabeaufforderung an das Modell und der vom Modell erzeugten Ausgabe besteht. Aber dieser einfache Chatbot hat große Einschränkungen.
Was ist, wenn dein Anwendungsfall Wissen erfordert, auf das das Modell nicht trainiert wurde? Nehmen wir zum Beispiel an, du willst KI nutzen, um Fragen über ein Unternehmen zu stellen, aber die Informationen sind in einem privaten PDF oder einem anderen Dokument enthalten. Zwar haben die Modellanbieter ihre Trainingsdatenbanken so erweitert, dass sie immer mehr öffentliche Informationen enthalten (unabhängig davon, in welchem Format sie gespeichert sind), aber die beiden wichtigsten Einschränkungen des LLM-Wissenskorpus bleiben bestehen:
- Private Daten
-
Informationen, die nicht öffentlich zugänglich sind, sind per Definition nicht in den Trainingsdaten der LLMs enthalten.
- Aktuelle Ereignisse
-
Ausbildung ein LLM ist ein kostspieliger und zeitaufwändiger Prozess, der sich über mehrere Jahre erstrecken kann, wobei das Sammeln von Daten einer der ersten Schritte ist. Daraus ergibt sich der so genannte Wissens-Cutoff oder ein Datum, nach dem das LLM kein Wissen mehr über reale Ereignisse hat; ...