Capítulo 12. Organiza e manipula dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Se torturares os dados o suficiente, a natureza confessará sempre.
Ronald Coase
Até este ponto, falámos principalmente sobre a linguagem Python em si - os seus tipos de dados, estruturas de código, sintaxe, etc. O resto deste livro é sobre a aplicação destes a problemas do mundo real.
Neste capítulo, aprenderás muitas técnicas práticas para domar os dados. Por vezes, isto é chamado de "data munging", ou ETL(extract/transform/load) do mundo das bases de dados. Embora os livros de programação normalmente não cubram o tópico explicitamente, os programadores passam muito tempo a tentar moldar os dados na forma correta para os seus objectivos.
A especialidade chamada ciência de dados tornou-se muito popular nos últimos anos. Um artigo da Harvard Business Review chamou ao cientista de dados o "emprego mais sexy do século XXI". Se isso significasse procura e boa remuneração, tudo bem, mas também há trabalho mais do que suficiente. A ciência de dados vai além dos requisitos ETL das bases de dados, envolvendo muitas vezes a aprendizagem automática para descobrir informações que não eram visíveis aos olhos humanos.
Começarei com os formatos de dados básicos e depois passarei para as novas ferramentas mais úteis para a ciência dos dados.
Os formatos de dados dividem-se em duas categorias:texto e binário. As strings Python são usadas ...