第3章 统计学与线性代数
统计学与线性代数这两个数学分支在进行数据分析时非常有用,因此本章将重点加以介绍。当我们从原生数据进行推断时,统计学是必不可少的。比如,通过数据求出变量的算术平均值和标准差,并由此推出该变量的取值范围和期望值后,就可以利用统计检验来评估所得结论的可信度了。
线性代数关注的是解线性方程组,而Numpy和Scipy的linalg
程序包可以帮我们轻松地解决这个问题。线性代数用途广泛,如利用模型拟合数据时就离不开它。除此之外,本章还会介绍其他几种Numpy和Scipy程序包,内容涉及随机数的生成和掩码式数组(Masked arrays)。
本章涉及以下主题。
-
描述性统计学。
-
linalg
程序包。 -
多项式。
-
作为特殊
ndarray
子类的矩阵。 -
随机数。
-
连续分布和离散分布。
-
掩码式数组(Masked arrays)。
3.1 Numpy和Scipy模块
首先,我们来研究一下Numpy和Scipy模块的相关文档。需要注意的是,这里介绍的内容不仅适用于数据分析人员,对于普通Python用户来说,也是非常有用的。
下面的代码将为我们展示Numpy和Scipy各个子库的描述信息:
import pkgutil as pu import numpy as np import matplotlib as mpl import scipy as sp import pydoc print "NumPy version", np.__version__ print "SciPy version", sp.__version__ print "Matplotlib version", mpl.__version__ def clean(astr): s ...
Get Python数据分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.