第3章 数据基础
在本章中,我们将首先讨论一些开放数据源,其中包括加州大学欧文校区(University of California at Irvine,UCI)的机器学习库,美国劳工统计局、人口普查局、French教授的数据库和美联储的数据库。然后,展示几种输入数据的方法、如何处理缺失值、排序、选择子集、合并不同数据集和数据输出。此外,针对不同的语言,如Python、R和Julia,我们还将介绍几个与数据操作相关的包。特别地,我们还将讨论Python的pandas
包。
本章包含以下主题:
- 数据源
- Python包pandas简介
- 输入数据的几种方式
- Quandl数据分发平台简介
- 处理缺失数据
- 数据排序,即如何分片、分块切割及合并不同数据集
- 介绍Python包:
cbsodata
和datadotword
- 介绍R包:
dslabs
、haven
和foreign
- 生成Python数据集
- 生成R数据集
3.1 数据源
对于数据科学和商业分析领域的用户来说,一个重要的问题就是数据的来源,简单来说,就是从哪里获取数据。当你在一家公司工作时,很明显的数据来源就是公司,例如销售数据、原材料成本、经理和其他员工的工资、供应商和客户的相关信息、未来销售额、原材料成本等的估计值等。寻找一些用于学习目的的数据是一个不错的主意,对于全日制学生尤其如此。
一般来说,有两种类型的数据:公共数据和私有数据。私有或专有的数据库相当昂贵,一个典型的例子就是证券价格研究中心(Center for Research in Security Prices,CRSP)数据库,这是由芝加哥大学制作并维护的一个金融数据库。该数据库包含1926年以来美国证券交易所所有股票的每日、每周、每月和每年的交易数据。
第二种类型的数据是公共或免费数据。对于各种数据科学或商业分析程序的用户来说,这种类型的数据能够满足学习和测试的需求。例如,UCI提供了许多可用于机器学习的有用数据集,可以用于测试和学习目的,这为数据科学领域的初学者提供了巨大的好处。在本章后面部分,我们将为数据科学、经济学以及金融和会计学的初学者提供一些免费的数据。 ...
Get Anaconda数据科学实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.