Capítulo 2. Prepara os dados para análise
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
As estimativas do tempo que os cientistas de dados passam a preparar os seus dados variam, mas é seguro dizer que este passo ocupa uma parte significativa do tempo gasto a trabalhar com dados. Em 2014, o New York Times referiu que os cientistas de dados passam entre 50% e 80% do seu tempo a limpar e a manipular os dados. Um inquérito realizado em 2016 pela CrowdFlower revelou que os cientistas de dados passam 60% do seu tempo a limpar e a organizar os dados, a fim de os preparar para o trabalho de análise ou modelação. Preparar os dados é uma tarefa tão comum que surgiram termos para a descrever, como "munging", "wrangling" e "data prep" ("Mung" é um acrónimo de "Mash Until No Good", que eu certamente já fiz em algumas ocasiões). Será que todo este trabalho de preparação de dados é apenas um trabalho sem sentido, ou é uma parte importante do processo?
A preparação de dados é mais fácil quando um conjunto de dados tem um dicionário de dados, um documento ou repositório que tem descrições claras dos campos, valores possíveis, como os dados foram recolhidos e como se relacionam com outros dados. Infelizmente, é frequente não ser esse o caso. Muitas vezes, a documentação não é considerada prioritária, mesmo por pessoas que vêem o seu valor, ou fica desactualizada à medida que são adicionados novos campos e tabelas ou que ...