Capitolo 2. Preparazione dei dati per l'analisi
Questo lavoro è stato tradotto utilizzando l'AI. Siamo lieti di ricevere il tuo feedback e i tuoi commenti: translation-feedback@oreilly.com
Le stime sul tempo che i data scientist dedicano alla preparazione dei dati variano, ma è sicuro che questa fase occupa una parte significativa del tempo dedicato al lavoro con i dati. Nel 2014, il New York Times ha riportato che i data scientist dedicano dal 50% all'80% del loro tempo alla pulizia e alla gestione dei dati. Un sondaggio del 2016 di CrowdFlower ha rilevato che i data scientist dedicano il 60% del loro tempo alla pulizia e all'organizzazione dei dati per prepararli all'analisi o alla modellazione. La preparazione dei dati è un'attività talmente comune che sono nati termini per descriverla, come data munging, data wrangling e data prep. ("Mung" è l'acronimo di Mash Until No Good, che sicuramente ho fatto in alcune occasioni). Tutto questo lavoro di preparazione dei dati è una fatica inutile o è una parte importante del processo?
La preparazione dei dati è più semplice quando un set di dati ha un dizionario dei dati, un documento o un archivio che contiene descrizioni chiare dei campi, dei possibili valori, di come i dati sono stati raccolti e di come si relazionano con altri dati. Purtroppo, spesso non è così. La documentazione spesso non viene considerata prioritaria, anche da chi ne vede il valore, oppure diventa obsoleta con l'aggiunta di nuovi campi e tabelle o con la modifica ...