Skip to Content
机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
book

机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)

by Aurélien Géron
October 2020
Intermediate to advanced
693 pages
16h 26m
Chinese
China Machine Press
Content preview from 机器学习实战:基于Scikit-Learn、Keras 和TensorFlow (原书第2 版)
44
2
2.2 观察大局
欢迎来到机器学习房产公司!你要做的第一件事是使用加州人口普查的数据建立起加州
的房价模型。数据中有许多指标,诸如每个街区的人口数量、收入中位数、房价中位数
等。街区是美国人口普查局发布样本数据的最小地理单位(一个街区通常人口数为 600
3000 人)。这里,我们将其简称为“区域”。
你的模型需要从这个数据中学习,从而能够根据所有其他指标,预测任意区域的房价中
位数。
如果你是一名习惯良好的数据科学家,要做的第一件事应该是拿出机器学习
项目清单。你可以从附录 B 中的清单项开始,它适合绝大多数机器学习项
目,但还是要确保它满足你的需求。本章我们将会讨论这个清单中的部分内
容,但也会跳过一部分,有些是因为不需要多做解释,有些是因为在后面的
章节中会展开讨论。
2.2.1 框架问题
你问老板的第一个问题应该是业务目标是什么,因为建立模型本身可能不是最终的目
标。公司期望知道如何使用这个模型,如何从中获益?这才是重要的问题,因为这将决
定你怎么设定问题,选择什么算法,使用什么测量方式来评估模型的性能,以及应该花
多少精力来进行调整。
老板回答说,这个模型的输出(对一个区域房价中位数的预测)将会跟其他许多信号一
起被传输给另一个机器学习系统(见图 2-2
3
。而这个下游系统将被用来决策一个给
定的区域是否值得投资。因为直接影响到收益,所以正确获得这个信息至关重要。
1
区域定价
区域数据 区域价格
你的部分 其他信息
投资分析
投资
上游部分
2-2:一个针对房地产投资的机器学习流水线
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

算法技术手册(原书第2 版)

算法技术手册(原书第2 版)

George T.Heineman, Gary Pollice, Stanley Selkow
Go语言编程

Go语言编程

威廉·肯尼迪
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787111665977