book

Python机器学习案例精解

Name: Python机器学习案例精解
ISBN: 9781835465882

by Posts & Telecom Press, Yuxi (Hayden) Liu

February 2024

Intermediate to advanced

230 pages

3h 48m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
作者简介
审稿人简介
译者序
译者简介
前言
资源与支持

第1章开始Python和机器学习之旅
1.1 什么是机器学习？我们为什么需要它1.2 机器学习概览1.3 机器学习算法发展简史1.4 从数据中泛化的能力1.5 过拟合、欠拟合及偏差和方差的权衡1.5.1 用交叉检验避免过拟合1.5.2 用正则化避免过拟合1.6 通过特征选取和降维避免过拟合1.7 预处理、探索和特征工程1.7.1 缺失值1.7.2 标签编码1.7.3 一位有效编码1.7.4 调整数值范围1.7.5 多项式特征1.7.6 幂次转换1.7.7 面元划分[5]1.8 模型组合1.8.1 Bagging1.8.2 Boosting1.8.3 Stacking1.8.4 Blending1.8.5 投票和平均法1.9 安装和设置软件1.10 问题解决和寻求帮助1.11 小结
第2章用文本分析算法探索20个新闻组数据集
2.1 什么是NLP2.2 强大的Python NLP库之旅2.3 新闻组数据集2.4 获取数据2.5 思考特征2.6 可视化2.7 数据预处理2.8 聚类2.9 话题建模2.10 小结
第3章用朴素贝叶斯检测垃圾邮件
3.1 开始分类之旅3.2 分类的类型3.3 文本分类应用3.4 探索朴素贝叶斯3.5 贝叶斯定理实例讲解3.6 朴素贝叶斯原理3.7 朴素贝叶斯的实现3.8 分类器性能评估3.9 模型调试和交叉检验3.10 小结
第4章用支持向量机为新闻话题分类
4.1 回顾先前内容和介绍逆文档频率4.2 SVM4.2.1 SVM的原理4.2.2 SVM的实现4.2.3 SVM内核4.2.4 线性和RBF内核的选择4.3 用SVM为新闻话题分类4.4 更多示例——用SVM根据胎心宫缩监护数据为胎儿状态分类4.5 小结
第5章用基于树的算法预测点击率
5.1 广告点击率预测简介5.2 两种不同类型的数据：数值型和类别型5.3 决策树分类器5.3.1 构造决策树5.3.2 度量划分的标准5.3.3 实现决策树5.4 用决策树预测点击率5.5 随机森林——决策树的特征装袋技术5.6 小结
第6章用对率回归预测点击率
6.1 一位有效编码——将类别型特征转换为数值型特征6.2 对率回归分类器6.2.1 从对率函数说起6.2.2 对率回归的原理6.2.3 用梯度下降方法训练对率回归模型6.3 用梯度下降对率回归预测点击率6.3.1 训练随机梯度下降对率回归模型6.3.2 训练带正则项的对率回归模型6.3.3 用线上学习方法，在大型数据集上训练6.3.4 多分类6.4 用随机森林选择参数6.5 小结
第7章用回归算法预测股价
7.1 股市和股价的简介7.2 什么是回归7.3 用回归算法预测股价7.3.1 特征工程7.3.2 数据获取和特征生成7.3.3 线性回归7.3.4 决策树回归7.3.5 支持向量回归7.3.6 回归性能评估7.3.7 用回归算法预测股价7.4 小结
第8章最佳实践
8.1 机器学习工作流8.2 数据准备阶段的最佳实践8.2.1 最佳实践1——理解透彻项目的目标8.2.2 最佳实践2——采集所有相关字段8.2.3 最佳实践3——字段值保持一致8.2.4 最佳实践4——缺失值处理8.3 训练集生成阶段的最佳实践8.3.1 最佳实践5——用数值代替类别型特征8.3.2 最佳实践6——决定是否对类别型特征编码8.3.3 最佳实践7——是否要选择特征，怎么选8.3.4 最佳实践8——是否降维，怎么降8.3.5 最佳实践9——是否缩放特征，怎么缩放8.3.6 最佳实践10——带着领域知识做特征工程8.3.7 最佳实践11——缺少领域知识的前提下，做特征工程8.3.8 最佳实践12——记录每个特征的生成方法8.4 算法训练、评估和选择阶段的最佳实践8.4.1 最佳实践13——选择从正确的算法开始8.4.2 最佳实践14——降低过拟合8.4.3 最佳实践15——诊断过拟合和欠拟合8.5 系统部署和监控阶段的最佳实践8.5.1 最佳实践16——保存、加载和重用模型8.5.2 最佳实践17——监控模型性能8.5.3 最佳实践18——定期更新模型8.6 小结

Content preview from Python机器学习案例精解

第3章　用朴素贝叶斯检测垃圾邮件

本章从垃圾邮件检测着手来开启机器学习分类之旅。我们结合一个实例来学习分类问题，争取开个好头。邮件服务提供商已经向我们提供了垃圾邮件过滤服务，该服务我们自己也能实现。在本章中，我们将学习分类问题的一些基础却很重要的概念，重点学习用朴素贝叶斯这种简单却很强大的算法检测垃圾邮件。

在本章中，我们将深入讲解以下主题。

什么是分类？
分类的类型。
文本分类实例。
朴素贝叶斯。
朴素贝叶斯的原理。
朴素贝叶斯的实现。
用朴素贝叶斯检测垃圾邮件。
分类性能评估。
交叉检验。
调试分类器。

3.1　开始分类之旅

从基本概念讲，垃圾邮件检测就是一种机器学习分类问题。我们先从机器学习分类问题的重要概念讲起。分类是机器学习中有监督学习这一类学习任务的主要代表。给定含有观测数据及其所属类别的训练集，分类的目标是学习一种能够扩展的规则，可以正确地将观测数据（亦称特征）映射到目标类别中。换言之，通过从训练数据的特征和目标类别中学习以生成训练好的模型。分类的过程如图3-1所示。新数据或先前未观测到的数据进来之后，模型能够确定它们的类别。利用训练好的分类模型，再根据输入的特征，可预测样本的类别。

图3-1　分类的主要流程

3.2　分类的类型

根据输出类别的可能性，机器学习分类问题可分为二分类、多分类和多标签分类。

二分类（binary classification）问题是指将观测数据分到两个可能类别之一的问题，如图3-2所示。一个经常提及的例子是，识别邮件信息（输入或观测数据）是否是垃圾邮件（输出或类别），从而过滤垃圾邮件。二分类另一个比较有代表性的应用是客户流失预测，从客户关系管理系统（CRM）得到顾客细分数据和活动数据，识别哪些客户可能会流失。二分类在营销和广告行业的另一个应用是在线广告点击预测——给定用户的cookie信息和浏览器的历史记录，判断他是否会点击某则广告。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781835465882

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design