Skip to Main Content
Python程序设计:人工智能案例实践
book

Python程序设计:人工智能案例实践

by 保罗 戴特尔, 哈维 戴特尔
August 2021
Intermediate to advanced content levelIntermediate to advanced
450 pages
13h 28m
Chinese
Pearson
Content preview from Python程序设计:人工智能案例实践

8.13 数据科学入门:pandas、正则表达式和数据治理

数据并不总是以可供分析的格式出现。例如,它的格式可能是错误的、不正确的,甚至是缺失的。行业经验表明,数据科学家在开始做研究之前甚至要花费多达75%的时间准备数据。为分析准备数据的行为被称为数据整理(data munging)或数据规整(data wrangling)。二者其实属于同义词,因此从现在开始,我们将统一称其为数据治理

数据治理中最重要的两个步骤是数据清理和将数据转换为可供数据库系统和分析软件处理的最佳格式。以下是一些常见的数据清理示例:

▪ 删除具有缺失值的观测值;

▪ 用合理的值代替缺失值;

▪ 删除具有错误值的观察值;

▪ 用合理的值代替不良值;

▪ 抛弃离群值(也称异常值)(尽管有时希望保留它们);

▪ 消除重复(尽管有时重复是有效的);

▪ 处理不一致的数据;

……

读者可能已经感觉到了数据清理是一个困难和混乱的过程。在此过程中,很容易做出错误的决定,从而对结果产生负面影响。这种感觉没错。在本书第四部分的数据科学案例研究中,读者会发现数据科学更多是像医学的经验科学,而不是像理论物理学的理论科学。经验科学把结论建立在观察和经验的基础上。例如,许多能有效解决当今医学问题的药物是通过观察这些药物的早期版本对实验动物以及最终对人类的影响,并逐步改进成分和剂量开发出来的。数据科学家采取的行动可能因项目而异,具体取决于数据的质量和性质,并且会受不断发展的组织和专业标准的影响。

一些常见的数据转换包括:

▪ 删除不必要的数据和特征(我们将在本书第四部分的数据科学案例研究中更多地讨论特征);

▪ 关联相关的特征;

▪ 进行数据抽样以获得有代表性的子集(在本书第四部分的数据科学案例研究中我们将看到随机采样对此特别有效,届时会说明原因); ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

数据科学中的实用统计学(第2版)

数据科学中的实用统计学(第2版)

Peter Bruce, Andrew Bruce, Peter Gedeck
Python算法交易实战

Python算法交易实战

Posts & Telecom Press, Sebastien Donadio
Python机器学习案例精解

Python机器学习案例精解

Posts & Telecom Press, Yuxi (Hayden) Liu

Publisher Resources

ISBN: 9787111678458