Kapitel 4. Optimierungen für Speicher und Rechenleistung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 3 hast du bewährte Methoden für das Ausprobieren und Auswählen eines Basismodells für deinen Anwendungsfall kennengelernt. Der nächste Schritt besteht in der Regel darin, das Modell an deine spezifischen Bedürfnisse und Datensätze anzupassen. Dazu gehört auch die Anpassung des Modells an deine Datensätze mit Hilfe einer Technik namens Feinabstimmung, die du in Kapitel 5 genauer kennenlernen wirst. Wenn du große Basismodelle trainierst oder fein abstimmst, stehst du oft vor der Frage, wie du große Modelle in den GPU-Speicher einbauen kannst.
In diesem Kapitel lernst du Techniken kennen, mit denen du Speicherbeschränkungen überwinden kannst. Du lernst, wie du Quantisierung und verteiltes Training einsetzen kannst, um den benötigten GPU-RAM zu minimieren, und wie du das Modelltraining bei größeren Modellen horizontal auf mehrere GPUs verteilen kannst.
Das ursprüngliche Falcon-Modell mit 40 Milliarden Parametern wurde zum Beispiel auf einem Cluster von 48 ml.p4d.24xlarge Amazon SageMaker-Instanzen trainiert, die aus 384 NVIDIA A100-GPUs, 15 TB GPU-RAM und 55 TB CPU-RAM bestanden. Eine neuere Version von Falcon wurde auf einem Cluster von 392 ml.p4d.24xlarge SageMaker-Instanzen mit 3.136 NVIDIA A100 GPUs, 125 TB GPU-RAM und 450 TB CPU-RAM trainiert. Die Größe und Komplexität des Falcon-Modells ...