Capitolo 2. Una moderna infrastruttura di dati
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Prima di scegliere i prodotti e il design per la creazione di pipeline, vale la pena di capire cosa compone un moderno stack di dati. Come per la maggior parte delle cose che riguardano la tecnologia, non esiste un unico modo corretto di progettare il tuo ecosistema di analisi o di scegliere prodotti e fornitori. Tuttavia, ci sono alcune esigenze e concetti chiave che sono diventati standard nel settore e che definiscono le migliori pratiche per l'implementazione delle pipeline.
Diamo un'occhiata ai componenti chiave di un'infrastruttura di questo tipo, come illustrato nella Figura 2-1. I prossimi capitoli analizzeranno come ogni componente influisce sulla progettazione e sull'implementazione delle pipeline di dati.
Diversità delle fonti di dati
La maggior parte delle organizzazioni ha decine, se non centinaia, di fonti di dati che alimentano i loro sforzi analitici. Le fonti di dati variano in molte dimensioni trattate in questa sezione.
Figura 2-1. I componenti chiave di una moderna infrastruttura dati.
Fonte Proprietà del sistema
È tipico di un team di analisi ingerire dati da sistemi di origine costruiti e di proprietà dell'organizzazione, nonché da strumenti e fornitori di terze parti. ...