8.13 数据科学入门:pandas、正则表达式和数据治理
数据并不总是以可供分析的格式出现。例如,它的格式可能是错误的、不正确的,甚至是缺失的。行业经验表明,数据科学家在开始做研究之前甚至要花费多达75%的时间准备数据。为分析准备数据的行为被称为数据整理(data munging)或数据规整(data wrangling)。二者其实属于同义词,因此从现在开始,我们将统一称其为数据治理。
数据治理中最重要的两个步骤是数据清理和将数据转换为可供数据库系统和分析软件处理的最佳格式。以下是一些常见的数据清理示例:
▪ 删除具有缺失值的观测值;
▪ 用合理的值代替缺失值;
▪ 删除具有错误值的观察值;
▪ 用合理的值代替不良值;
▪ 抛弃离群值(也称异常值)(尽管有时希望保留它们);
▪ 消除重复(尽管有时重复是有效的);
▪ 处理不一致的数据;
……
读者可能已经感觉到了数据清理是一个困难和混乱的过程。在此过程中,很容易做出错误的决定,从而对结果产生负面影响。这种感觉没错。在本书第四部分的数据科学案例研究中,读者会发现数据科学更多是像医学的经验科学,而不是像理论物理学的理论科学。经验科学把结论建立在观察和经验的基础上。例如,许多能有效解决当今医学问题的药物是通过观察这些药物的早期版本对实验动物以及最终对人类的影响,并逐步改进成分和剂量开发出来的。数据科学家采取的行动可能因项目而异,具体取决于数据的质量和性质,并且会受不断发展的组织和专业标准的影响。
一些常见的数据转换包括:
▪ 删除不必要的数据和特征(我们将在本书第四部分的数据科学案例研究中更多地讨论特征);
▪ 关联相关的特征;
▪ 进行数据抽样以获得有代表性的子集(在本书第四部分的数据科学案例研究中我们将看到随机采样对此特别有效,届时会说明原因); ...
Get Python程序设计:人工智能案例实践 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.