Chapitre 3. Modèles de base pour les grandes langues
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
Au chapitre 2, tu as appris à réaliser l'ingénierie des prompts et à exploiter l'apprentissage en contexte à l'aide d'un modèle de base existant. Dans ce chapitre, tu vas explorer la façon dont un modèle de base est formé, y compris les objectifs de formation et les ensembles de données. Bien qu'il ne soit pas courant de former son propre modèle de base à partir de zéro, il est utile de comprendre combien de temps, d'efforts et de complexité sont nécessaires pour réaliser ce processus gourmand en ressources informatiques.
L'apprentissage d'un modèle linguistique à plusieurs milliards de paramètres à partir de zéro, appelé pré-entraînement, nécessite des millions d'heures de calcul GPU, des trillions de données et beaucoup de patience. Dans ce chapitre, tu découvriras les lois empiriques de mise à l'échelle décrites dans l'article populaire de Chinchilla pour le préapprentissage des modèles.1
Lors de la formation du modèle BloombergGPT, par exemple, les chercheurs ont utilisé les lois d'échelle de Chinchilla comme point de départ, mais ils ont dû procéder à de nombreux essais et erreurs, comme l'explique l'article de BloombergGPT.2 Avec un budget de calcul GPU de 1,3 million d'heures GPU, BloombergGPT a été entraîné avec une grande grappe distribuée d'instances GPU à l'aide d'Amazon SageMaker. ...