Skip to Content
Spark:权威指南
book

Spark:权威指南

by Bill Chambers, Matei Zaharia
May 2025
Intermediate to advanced
606 pages
7h 38m
Chinese
O'Reilly Media, Inc.
Content preview from Spark:权威指南

第 26 章 分类 分类

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

分类 是在给定输入特征的情况下预测标签、类别、等级或离散变量的任务。与回归等其他 ML 任务的主要区别在于,输出标签有一组有限的可能值(如三个类别)。

使用案例

正如我们在第 24 章中所讨论的,分类 有很多用例。以下是一些更值得考虑的案例,它们强化了分类在现实世界中的多种应用方式。

预测信贷风险

在向公司或个人提供贷款之前,融资公司可能会考虑许多变量。是否提供贷款是一个二元分类问题。

新闻分类

可以训练算法来预测新闻文章的主题(体育、政治、商业等)。

人类活动的分类

通过收集手机加速计或智能手表等传感器的数据,可以预测人的活动。输出结果将是一组有限类别(如行走、睡眠、站立或跑步)中的一种。

分类类型

在 继续之前,让我们回顾一下几种不同类型的分类。

二元分类

最简单的分类例子是二元分类,即只有两个标签可以预测。其中一个例子是欺诈分析,给定的交易可被归类为欺诈或非欺诈;或者是垃圾邮件,给定的电子邮件可被归类为垃圾邮件或非垃圾邮件。

多级分类

除了 二元分类外,还有多类分类,即从两个以上不同的可能标签中选择一个标签。一个典型的例子是 Facebook 预测给定照片中的人物,或者气象学家预测天气(下雨、晴天、多云等)。请注意,要预测的类别集合总是有限的,而不是无限制的。这也被称为多项式分类。

多标签分类

最后, 还有多标签分类,即给定输入可以产生多个标签。例如,您可能想根据一本书的文字本身来预测这本书的流派。虽然这可以是多标签分类,但它可能更适合多标签分类,因为一本书可能属于多种流派。多标签分类的另一个例子是识别图像中出现的物体数量。请注意,在这个例子中,输出预测的数量并不一定是固定的,可能因图像而异。

MLlib 中的分类模型

Spark 开箱即用,有多个模型可用于执行二元分类和多分类。以下模型可用于 Spark 中的分类:

  • 逻辑回归

  • 决策树

  • 随机森林

  • 梯度增强树

Spark 本身不支持多标签预测。要训练多标签模型,必须为每个标签训练一个模型,然后手动将它们组合起来。手动构建完成后,有一些内置工具可以支持测量这类模型(将在本章末尾讨论)。

本章将介绍上述每种模式的基本知识:

  • 简单解释模型及其背后的直觉

  • 模型超参数(初始化模型的不同方法)

  • 训练参数(影响模型训练方式的参数)

  • 预测参数(影响预测方式的参数)

第 24 章所述,您可以在ParamGrid 中设置超参数和训练参数。

模型可扩展性

模型 可扩展性是选择模型时的一个重要考虑因素。一般来说,Spark 对训练大规模机器学习模型有很好的支持(注意,这些都是大规模的;在单节点工作负载上,有很多其他工具也有很好的表现)。表 26-1是一个简单的模型可扩展性记分卡,可用于为您的特定任务找到最佳模型(如果可扩展性是您的核心考虑因素)。实际可扩展性取决于您的配置、机器大小和其他具体情况,但应该是一个很好的启发式方法。

表 26-1. 模型可扩展性参考
模型 功能计算 培训实例 输出类别

逻辑回归

100 万至 1 000 万

无限制

特征 x 类别 < 1 000 万

决策树

1,000s

无限制

功能 x 类别 < 10,000

随机森林

10,000s

无限制

功能 x 类别 < 100,000

梯度增强树

1,000s

无限制

功能 x 类别 < 10,000 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

设计数据密集型应用程序

设计数据密集型应用程序

Martin Kleppmann
Kafka权威指南(第2版)

Kafka权威指南(第2版)

Gwen Shapira, Todd Palino, Rajini Sivaram, Krit Petty
低代码AI

低代码AI

Gwendolyn Stripling, Michael Abel

Publisher Resources

ISBN: 9798341656932