第4章 统计学与线性代数

统计学和线性代数为探索性数据分析奠定了基础。无论是描述性还是推论性的统计方法,都有助于从原始数据中获得见解和进行推断。比如,通过数据求出变量的算术平均值和标准差,并由此推出该变量的取值范围和期望值后,我们就可以利用统计检验来评估所得结论的可信度了。

线性代数关注的是解线性方程组,而NumPy和SciPy的linalg程序包可以帮我们轻松地解决这个问题。线性代数用途广泛,如利用模型拟合数据时就离不开它。除此之外,本章还会介绍其他几种NumPy和SciPy程序包,内容涉及随机数的生成和掩码式数组(Masked arrays)。

本章涉及以下主题。

  • 利用NumPy处理简单的描述性统计运算
  • 利用NumPy进行线性代数运算
  • 利用NumPy寻找特征值和特征向量
  • NumPy随机数
  • 创建NumPy掩码式数组(Masked arrays)

在本书中,我们会尽量使用各种不同的可以通过公开渠道获得的数据集。但是,这些数据的主题未必正是读者的兴趣之所在。此外,虽然每个数据集都有其自身的特点,但是本书介绍的技巧却是通用的,所以同样适用于大家的领域。在本章中,我们将数据集从statsmodels库载入NumPy数组,来进行数据分析。

Mauna Loa CO2测量数据是我们用到的statsmodels库的第一个数据集。以下代码将会加载数据集并给出基本的描述性统计值。

import numpy as np from scipy.stats import scoreatpercentile import pandas as pd data = pd.read_csv("co2.csv", index_col=0, parse_dates=True) ...

Get Python数据分析(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.