Chapitre 1. Une vue d'ensemble de Ray
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
L'une des raisons pour lesquelles nous avons besoin d'une informatique distribuée efficace est que nous collectons toujours plus de données d'une grande variété à des vitesses croissantes. Les systèmes de stockage, le traitement des données et les moteurs d'analyse qui ont émergé au cours de la dernière décennie sont cruciaux pour le succès de nombreuses entreprises. Il est intéressant de noter que la plupart des technologies "big data" sont construites pour et exploitées par des ingénieurs (de données) qui sont en charge des tâches de collecte et de traitement des données. La logique est de libérer les scientifiques des données pour qu'ils puissent faire ce qu'ils savent faire de mieux. En tant que praticien de la science des données, tu pourrais vouloir te concentrer sur l'entraînement de modèles d'apprentissage automatique complexes, l'exécution d'une sélection efficace d'hyperparamètres, la construction de modèles ou de simulations entièrement nouveaux et personnalisés, ou le service de tes modèles pour les mettre en valeur.
En même temps, il pourrait être inévitable de faire évoluer ces charges de travail vers un cluster de calcul. Pour ce faire, le système distribué de ton choix doit prendre en charge toutes ces tâches de "big compute" à grain fin, potentiellement sur du matériel spécialisé. Idéalement, il ...