Skip to Content
Python机器学习案例精解
book

Python机器学习案例精解

by Posts & Telecom Press, Yuxi (Hayden) Liu
February 2024
Intermediate to advanced
230 pages
3h 48m
Chinese
Packt Publishing
Content preview from Python机器学习案例精解

第8章 最佳实践

前几章的多个项目涵盖了机器学习的重要概念、技术和广泛使用的算法,做完这些项目之后,我们对机器学习生态系统有了全面的认识,就如何用机器学习算法和Python解决实际问题,积累了经验,打好了底子。然而,我们在实际工作中,只要从头开始做项目,就会遇到各种各样的问题。本章旨在以机器学习方案整个工作流的最佳实践武装我们。我们掌握了这些知识,自己动手做项目就没有那么困难了。

在本章中,我们将深入讲解以下主题。

  • 机器学习方案工作流。
  • 数据准备阶段的任务。
  • 训练集生成阶段的任务。
  • 算法训练、评估和选择阶段的任务。
  • 系统部署和监控阶段的任务。
  • 数据准备阶段的最佳实践。
  • 训练集生成阶段的最佳实践。
  • 算法训练、评估和选择阶段的最佳实践。
  • 系统部署和监控阶段的最佳实践。

通常,解决一个机器学习问题所要完成的任务可归纳为以下4个方面:

  • 数据准备;
  • 训练集生成;
  • 算法训练、评估和选择;
  • 系统部署和监控。

从数据源到最终的机器学习系统,一个机器学习方案基本上遵从图8-1所示的流程。

图片 1

图8-1 机器学习方案流程图

后续几节,我们将学习以上4个阶段每个阶段的典型任务、常见挑战和最佳实践。

显然,无数据何以谈构建机器学习系统。数据应当是我们首先要关注的。

在采集数据之前,我们应该透彻理解项目的目标,也就是业务问题。因为它将指导我们选取数据源作研究。只有具备足够的领域知识和专家意见,才能选对数据源。例如,在第7章,我们的目标是预测DJIA指数未来的价格,因此我们采集它在过去的表现,而不是采集欧洲股票市场的历史数据。第5章和第6章的业务问题是,最大化广告的命中率,命中率以点击率为准,因此,我们采集谁点击或没有点击哪个页面哪个广告这样的点击数据,而不只是采集网页展示了什么广告这样的数据。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

数据科学中的实用统计学(第2版)

数据科学中的实用统计学(第2版)

Peter Bruce, Andrew Bruce, Peter Gedeck
自然语言处理与计算语言学

自然语言处理与计算语言学

Posts & Telecom Press, Bhargav Srinivasa-Desikan
scikit-learn机器学习(第2版)

scikit-learn机器学习(第2版)

Posts & Telecom Press, Gavin Hackeling

Publisher Resources

ISBN: 9781835465882