第3章　数据基础

在本章中，我们将首先讨论一些开放数据源，其中包括加州大学欧文校区（University of California at Irvine，UCI）的机器学习库，美国劳工统计局、人口普查局、French教授的数据库和美联储的数据库。然后，展示几种输入数据的方法、如何处理缺失值、排序、选择子集、合并不同数据集和数据输出。此外，针对不同的语言，如Python、R和Julia，我们还将介绍几个与数据操作相关的包。特别地，我们还将讨论Python的pandas包。

本章包含以下主题：

数据源
Python包pandas简介
输入数据的几种方式
Quandl数据分发平台简介
处理缺失数据
数据排序，即如何分片、分块切割及合并不同数据集
介绍Python包：cbsodata和datadotword
介绍R包：dslabs、haven和foreign
生成Python数据集
生成R数据集

3.1　数据源

对于数据科学和商业分析领域的用户来说，一个重要的问题就是数据的来源，简单来说，就是从哪里获取数据。当你在一家公司工作时，很明显的数据来源就是公司，例如销售数据、原材料成本、经理和其他员工的工资、供应商和客户的相关信息、未来销售额、原材料成本等的估计值等。寻找一些用于学习目的的数据是一个不错的主意，对于全日制学生尤其如此。

一般来说，有两种类型的数据：公共数据和私有数据。私有或专有的数据库相当昂贵，一个典型的例子就是证券价格研究中心（Center for Research in Security Prices，CRSP）数据库，这是由芝加哥大学制作并维护的一个金融数据库。该数据库包含1926年以来美国证券交易所所有股票的每日、每周、每月和每年的交易数据。

第二种类型的数据是公共或免费数据。对于各种数据科学或商业分析程序的用户来说，这种类型的数据能够满足学习和测试的需求。例如，UCI提供了许多可用于机器学习的有用数据集，可以用于测试和学习目的，这为数据科学领域的初学者提供了巨大的好处。在本章后面部分，我们将为数据科学、经济学以及金融和会计学的初学者提供一些免费的数据。 ...

Get Anaconda数据科学实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Anaconda数据科学实战 by Posts & Telecom Press, James Yan, Yan James

第3章　数据基础

3.1　数据源

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第3章 数据基础

3.1 数据源

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第3章　数据基础

3.1　数据源