Capítulo 12. Organiza e manipula dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Se torturares os dados o suficiente, a natureza confessará sempre.
Ronald Coase
Até este ponto, falámos principalmente sobre a linguagem Python em si - os seus tipos de dados, estruturas de código, sintaxe, etc. O resto deste livro é sobre a aplicação destes a problemas do mundo real.
Neste capítulo, aprenderás muitas técnicas práticas para domar os dados. Por vezes, isto é chamado de "data munging", ou ETL(extract/transform/load) do mundo das bases de dados. Embora os livros de programação normalmente não cubram o tópico explicitamente, os programadores passam muito tempo a tentar moldar os dados na forma correta para os seus objectivos.
A especialidade chamada ciência de dados tornou-se muito popular nos últimos anos. Um artigo da Harvard Business Review chamou ao cientista de dados o "emprego mais sexy do século XXI". Se isso significasse procura e boa remuneração, tudo bem, mas também há trabalho mais do que suficiente. A ciência de dados vai além dos requisitos ETL das bases de dados, envolvendo muitas vezes a aprendizagem automática para descobrir informações que não eram visíveis aos olhos humanos.
Começarei com os formatos de dados básicos e depois passarei para as novas ferramentas mais úteis para a ciência dos dados.
Os formatos de dados dividem-se em duas categorias:texto e binário. As strings Python são usadas ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access