book

面向数据科学家的实用统计学

Name: 面向数据科学家的实用统计学
ISBN: 9787115493668

by Peter Bruce, Andrew Bruce

October 2018

Beginner to intermediate

238 pages

6h 32m

Chinese

Posts & Telecom Press

Read now

Unlock full access

电子书
第1章探索性数据分析
1.1 结构化数据的组成
1.2 矩形数据
1.2.1 数据框和索引
1.2.2 非矩形数据结构
1.2.3 拓展阅读
1.3 位置估计
1.3.1 均值
1.3.2 中位数和稳健估计量
1.3.3 位置估计的例子：人口和谋杀率
1.3.4 拓展阅读
1.4 变异性估计
1.4.1 标准偏差及相关估计值
1.4.2 基于百分位数的估计量
1.4.3 例子：美国各州人口的变异性估计量
1.4.4 拓展阅读1.5 探索数据分布
1.5.1 百分位数和箱线图
1.5.2 频数表和直方图
1.5.3 密度估计
1.5.4 拓展阅读
1.6 探索二元数据和分类数据
1.6.1 众数
1.6.2 期望值
1.6.3 拓展阅读1.7 相关性
1.7.1 散点图
1.7.2 拓展阅读
1.8 探索两个及以上变量1.8.1 六边形图和等势线（适用于两个数值型变量）
1.8.2 两个分类变量
1.8.3 分类数据和数值型数据
1.8.4 多个变量的可视化
1.8.5 拓展阅读
1.9 小结
第2章数据和抽样分布
2.1 随机抽样和样本偏差
2.1.1 偏差
2.1.2 随机选择
2.1.3 数据规模与数据质量：何时规模更重要
2.1.4 样本均值与总体均值
2.1.5 拓展阅读
2.2 选择偏差
2.2.1 趋均值回归
2.2.2 拓展阅读
2.3 统计量的抽样分布
2.3.1 中心极限定理
2.3.2 标准误差
2.3.3 拓展阅读
2.4 自助法
2.4.1 重抽样与自助法
2.4.2 拓展阅读
2.5 置信区间
2.6 正态分布
2.7 长尾分布
2.8 学生t分布
2.9 二项分布
2.10 泊松分布及其相关分布
2.10.1 泊松分布
2.10.2 指数分布
2.10.3 故障率估计
2.10.4 韦伯分布
2.10.5 拓展阅读
2.11 小结
第3章统计实验与显著性检验
3.1 A/B测试
3.1.1 为什么要有对照组
3.1.2 为什么只有处理A和B，没有C、D……
3.1.3 拓展阅读
3.2 假设检验
3.2.1 零假设
3.2.2 备择假设
3.2.3 单向假设检验和双向假设检验
3.2.4 拓展阅读3.3 重抽样
3.3.1 置换检验
3.3.2 例子：Web黏性
3.3.3 穷尽置换检验和自助置换检验
3.3.4 置换检验：数据科学的底线3.3.5 拓展阅读3.4 统计显著性和p值
3.4.1 p值
3.4.2 α值
3.4.3 第一类错误和第二类错误
3.4.4 数据科学与p值
3.4.5 拓展阅读
3.5 t检验
3.6 多重检验
3.7 自由度
3.8 方差分析
3.8.1 F统计量
3.8.2 双向方差分析
3.8.3 拓展阅读
3.9 卡方检验3.9.1 卡方检验：一种重抽样方法
3.9.2 卡方检验：统计理论
3.9.3 费舍尔精确检验
3.9.4 与数据科学的关联
3.9.5 拓展阅读
3.10 多臂老虎机算法
3.11 检验效能和样本规模
3.11.1 样本规模
3.11.2 拓展阅读
3.12 小结
第4章回归与预测
4.1 简单线性回归
4.1.1 回归方程
4.1.2 拟合值与残差
4.1.3 最小二乘法
4.1.4 预测与解释（剖析）
4.1.5 拓展阅读
4.2 多元线性回归4.2.1 美国金县房屋数据案例
4.2.2 评估模型
4.2.3 交叉验证
4.2.4 模型选择和逐步回归法
4.2.5 加权回归
4.3 使用回归做预测
4.3.1 外推法的风险
4.3.2 置信区间和预测区间
4.4 回归中的因子变量
4.4.1 虚拟变量的表示
4.4.2 多层因子变量
4.4.3 有序因子变量
4.5 解释回归方程
4.5.1 相关的预测变量
4.5.2 多重共线性
4.5.3 混淆变量
4.5.4 交互作用和主效应
4.6 检验假设：回归诊断
4.6.1 离群值
4.6.2 强影响值
4.6.3 异方差性、非正态分布和相关误差
4.6.4 偏残差图和非线性
4.7 多项式回归和样条回归
4.7.1 多项式回归
4.7.2 样条回归
4.7.3 广义加性模型
4.7.4 拓展阅读
4.8 小结
第5章分类
5.1 朴素贝叶斯算法
5.1.1 准确的贝叶斯分类是不切实际的
5.1.2 朴素解决方案
5.1.3 数值型预测变量
5.1.4 拓展阅读5.2 判别分析
5.2.1 协方差矩阵
5.2.2 费希尔线性判别分析
5.2.3 一个简单的例子
5.2.4 拓展阅读
5.3 逻辑回归
5.3.1 逻辑响应函数和Logit函数
5.3.2 逻辑回归和广义线性模型
5.3.3 广义线性模型
5.3.4 逻辑回归的预测值
5.3.5 解释系数和优势比
5.3.6 线性回归与逻辑回归：相似之处和不同之处
5.3.7 模型评估
5.3.8 拓展阅读
5.4 评估分类模型
5.4.1 混淆矩阵
5.4.2 稀有类问题
5.4.3 准确率、召回率和特异性
5.4.4 ROC曲线
5.4.5 AUC
5.4.6 提升
5.4.7 拓展阅读
5.5 不平衡数据的处理策略
5.5.1 欠采样
5.5.2 过采样以及上权重和下权重
5.5.3 数据生成
5.5.4 基于代价的分类
5.5.5 探索预测值
5.5.6 拓展阅读
5.6 小结
第6章统计机器学习
6.1 K最近邻算法
6.1.1 预测贷款拖欠的示例
6.1.2 距离度量
6.1.3 独热编码
6.1.4 标准化
6.1.5 K值的选取
6.1.6 KNN作为特征引擎
6.2 树模型
6.2.1 一个简单的例子
6.2.2 递归分区算法
6.2.3 测量同质性或不纯度
6.2.4 阻止树模型继续生长
6.2.5 预测连续值
6.2.6 如何使用树模型
6.2.7 拓展阅读
6.3 Bagging和随机森林
6.3.1 Bagging方法
6.3.2 随机森林
6.3.3 变量的重要性
6.3.4 超参数
6.4 Boosting
6.4.1 Boosting算法
6.4.2 XGBoost软件
6.4.3 正则化：避免过拟合
6.4.4 超参数和交叉验证
6.5 小结
第7章无监督学习
7.1 主成分分析
7.1.1 一个简单的例子
7.1.2 计算主成分
7.1.3 解释主成分
7.1.4 拓展阅读
7.2 K-Means聚类
7.2.1 一个简单的例子
7.2.2 K-Means算法
7.2.3 解释类
7.2.4 选择类的个数
7.3 层次聚类
7.3.1 一个简单的例子
7.3.2 树状图
7.3.3 凝聚算法
7.3.4 测量相异性
7.4 基于模型的聚类
7.4.1 多元正态分布
7.4.2 混合正态分布
7.4.3 类数的选取
7.4.4 拓展阅读
7.5 变量的缩放和分类变量
7.5.1 变量的缩放
7.5.2 控制变量
7.5.3 分类数据和高氏距离
7.5.4 混合数据的聚类问题
7.6 小结
作者简介
封面说明

Content preview from 面向数据科学家的实用统计学

无监督学习

｜

201

7.2.2

-Means

算法

-Means

算法同样可以应用于具有

个变量

(

…

)

的数据集。要让

-Means

给出精确

解，计算难度很大，但启发式算法可以高效地计算出局部最优解。

在算法开始时，用户需要指定

值和一组初始的类均值，然后重复执行以下步骤。

(1)

根据距离的平方值，将每条记录分配给最近的类均值所在的类。

(2)

根据记录的分配情况，重新计算新的类均值。

一旦记录到类的分配情况不再改变，该算法就收敛。

在开始首次迭代前，需要指定一组初始的类均值。一般做法是将每个记录随机分配给

个

类中的一个，然后计算类均值。

由于该算法并不保证能给出最优解，所以推荐做法是在初始化时使用不同的随机样本多次

运行算法。当使用了多组迭代时，

-Means

的结果由类内平方和最低的一组迭代给出。

可以通过设置

函数 kmeans 的 nstart 参数，指定随机启动初始化的尝试次数。例如，下

面的代码使用

个不同的初始类均值运行

-Means

，以找出

个类。

syms <- c( 'AAPL', 'MSFT', 'CSCO', 'INTC', 'CVX', 'XOM', 'SLB', 'COP',

'JPM', 'WFC', 'USB', 'AXP', 'WMT', 'TGT', 'HD', 'COST')

df <- sp500_px[row.names(sp500_px)>='2011-01-01', syms]

km <- kmeans(df, centers=5, nstart=10) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9787115493668

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

面向数据科学家的实用统计学

by Peter Bruce, Andrew Bruce

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

C++语言导学（原书第2版）

基于Python的智能文本分析

数据驱动力：企业数据分析实战

商战数据挖掘：你需要了解的数据科学与分析思维

Publisher Resources