book

精通数据科学算法

Name: 精通数据科学算法
ISBN: 9781836204596

by Posts & Telecom Press, David Natingga

May 2024

Intermediate to advanced

181 pages

3h 9m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权声明
内容提要
作者简介
致谢
评阅者简介
前言
资源与支持
第1章用k最近邻算法解决分类问题
1.1 Mary对温度的感觉1.2 实现k最近邻算法1.3 意大利地区的示例——选择k值1.4 房屋所有权——数据转换1.5 文本分类——使用非欧几里德距离1.6 文本分类——更高维度的k-NN1.7 小结1.8 习题
第2章朴素贝叶斯
2.1 医疗检查——贝叶斯定理的基本应用2.2 贝叶斯定理的证明及其扩展2.3 西洋棋游戏——独立事件2.4 朴素贝叶斯分类器的实现2.5 西洋棋游戏——相关事件2.6 性别分类——基于连续随机变量的贝叶斯定理2.7 小结2.8 习题

第3章决策树
3.1 游泳偏好——用决策树表示数据3.2 信息论3.3 ID3算法——构造决策树3.4 用决策树进行分类3.5 小结3.6 习题
第4章随机森林
4.1 随机森林算法概述4.2 游泳偏好——随机森林分析法4.3 随机森林算法的实现4.4 下棋实例4.5 购物分析——克服随机数据的不一致性以及度量置信水平4.6 小结4.7 习题
第5章 k-means聚类
5.1 家庭收入——聚类为k个簇5.2 性别分类——聚类分类5.3 k-means聚类算法的实现5.4 房产所有权示例——选择簇的数量5.5 小结5.6 习题
第6章回归分析
6.1 华氏温度和摄氏温度的转换——基于完整数据的线性回归6.2 根据身高预测体重——基于实际数据的线性回归6.3 梯度下降算法及实现6.4 根据距离预测飞行时长6.5 弹道飞行分析——非线性模型6.6 小结6.7 习题
第7章时间序列分析
7.1 商业利润——趋势分析7.2 电子商店的销售额——季节性分析7.3 小结7.4 习题
附录A 统计
A.1 基本概念A.2 贝叶斯推理A.3 分布A.4 交叉验证A.5 A/B测试
附录B R参考
B.1 介绍B.2 数据类型B.3 线性回归
附录C Python参考
C.1 介绍C.2 数据类型C.3 控制流
附录D 数据科学中的算法和方法术语

Content preview from 精通数据科学算法

第4章　随机森林

随机森林由一系列决策树（决策树描述见第3章）组成，每一棵决策树由随机抽取的数据子集产生。通过投票表决的方式，随机森林把特征值归类至得票最多的类中。随机森林可以同时减少偏差和方差，因此，它往往能比决策树提供更加精确的特征分类结果。

本章涵盖内容如下：

装袋法（引导聚类法）是随机森林构建的一部分，它可以推广到数据科学中的其他算法和方法，用于减少偏差和方差，以提高预测结果准确性；
以游泳偏好案例构建随机森林，并用构建出的随机森林对样本数据进行分类；
如何用Python实现随机森林算法；
朴素贝叶斯、决策树和随机森林算法在分析下棋案例时的差异；
通过购物案例，分析随机森林如何克服决策树的不足之处，以及为什么优于决策树算法；
章末练习描述了如何通过减小分类器的方差，以产生更精准的结果。

4.1　随机森林算法概述　

通常来讲，我们需要在一开始决定所构建决策树的个数。随机森林通常不会产生过拟合问题（噪声数据除外），因此选择构建大量的决策树不会降低预测的准确性。然而，决策树越多，所需的计算能力越高。此外，大幅度地增加随机森林中决策树的个数，分类的准确性并不会提升很大。值得注意的是，在构建决策树过程中，必须有足够多的决策树，使得在随机抽选的时候大部分训练数据能够参与到分类中。

在实践中我们可以运行构建特定数量的决策树的算法，并不断地增加树的个数，比较树少和树多的随机森林的分类结果。如果结果极其相似，则停止增加树的个数。

为了简化示范过程，本书使用包含少量决策树的随机森林。

随机森林构造概述

本节会描述如何以随机抽样的方式构建每棵树。具体地，已知N个训练特征值，通过有放回地从初始数据中随机抽取N个特征数据来构建决策树。随机选择构建每棵树所需数据的过程称为装袋法（树装袋）。采取装袋法的方式抽取训练数据可以减少分类结果的方差和偏差。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836204596

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

精通数据科学算法

by Posts & Telecom Press, David Natingga

第4章　随机森林