第3章 统计学与线性代数

统计学与线性代数这两个数学分支在进行数据分析时非常有用,因此本章将重点加以介绍。当我们从原生数据进行推断时,统计学是必不可少的。比如,通过数据求出变量的算术平均值和标准差,并由此推出该变量的取值范围和期望值后,就可以利用统计检验来评估所得结论的可信度了。

线性代数关注的是解线性方程组,而Numpy和Scipy的linalg程序包可以帮我们轻松地解决这个问题。线性代数用途广泛,如利用模型拟合数据时就离不开它。除此之外,本章还会介绍其他几种Numpy和Scipy程序包,内容涉及随机数的生成和掩码式数组(Masked arrays)。

本章涉及以下主题。

  • 描述性统计学。

  • linalg程序包。

  • 多项式。

  • 作为特殊ndarray子类的矩阵。

  • 随机数。

  • 连续分布和离散分布。

  • 掩码式数组(Masked arrays)。

首先,我们来研究一下Numpy和Scipy模块的相关文档。需要注意的是,这里介绍的内容不仅适用于数据分析人员,对于普通Python用户来说,也是非常有用的。

下面的代码将为我们展示Numpy和Scipy各个子库的描述信息:

import pkgutil as pu import numpy as np import matplotlib as mpl import scipy as sp import pydoc print "NumPy version", np.__version__ print "SciPy version", sp.__version__ print "Matplotlib version", mpl.__version__ def clean(astr):     s ...

Get Python数据分析 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.