第4章　统计学与线性代数

统计学和线性代数为探索性数据分析奠定了基础。无论是描述性还是推论性的统计方法，都有助于从原始数据中获得见解和进行推断。比如，通过数据求出变量的算术平均值和标准差，并由此推出该变量的取值范围和期望值后，我们就可以利用统计检验来评估所得结论的可信度了。

线性代数关注的是解线性方程组，而NumPy和SciPy的linalg程序包可以帮我们轻松地解决这个问题。线性代数用途广泛，如利用模型拟合数据时就离不开它。除此之外，本章还会介绍其他几种NumPy和SciPy程序包，内容涉及随机数的生成和掩码式数组（Masked arrays）。

本章涉及以下主题。

4.1　用NumPy进行简单的描述性统计计算

在本书中，我们会尽量使用各种不同的可以通过公开渠道获得的数据集。但是，这些数据的主题未必正是读者的兴趣之所在。此外，虽然每个数据集都有其自身的特点，但是本书介绍的技巧却是通用的，所以同样适用于大家的领域。在本章中，我们将数据集从statsmodels库载入NumPy数组，来进行数据分析。

Mauna Loa CO₂测量数据是我们用到的statsmodels库的第一个数据集。以下代码将会加载数据集并给出基本的描述性统计值。

import numpy as np from scipy.stats import scoreatpercentile import pandas as pd data = pd.read_csv("co2.csv", index_col=0, parse_dates=True) ...

Get Python数据分析（第2版） now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.