
44
|
第
2
章
2.2 观察大局
欢迎来到机器学习房产公司!你要做的第一件事是使用加州人口普查的数据建立起加州
的房价模型。数据中有许多指标,诸如每个街区的人口数量、收入中位数、房价中位数
等。街区是美国人口普查局发布样本数据的最小地理单位(一个街区通常人口数为 600
到 3000 人)。这里,我们将其简称为“区域”。
你的模型需要从这个数据中学习,从而能够根据所有其他指标,预测任意区域的房价中
位数。
如果你是一名习惯良好的数据科学家,要做的第一件事应该是拿出机器学习
项目清单。你可以从附录 B 中的清单项开始,它适合绝大多数机器学习项
目,但还是要确保它满足你的需求。本章我们将会讨论这个清单中的部分内
容,但也会跳过一部分,有些是因为不需要多做解释,有些是因为在后面的
章节中会展开讨论。
2.2.1 框架问题
你问老板的第一个问题应该是业务目标是什么,因为建立模型本身可能不是最终的目
标。公司期望知道如何使用这个模型,如何从中获益?这才是重要的问题,因为这将决
定你怎么设定问题,选择什么算法,使用什么测量方式来评估模型的性能,以及应该花
多少精力来进行调整。
老板回答说,这个模型的输出(对一个区域房价中位数的预测)将会跟其他许多信号一
起被传输给另一个机器学习系统(见图 2-2)
注 3
。而这个下游系统将被用来决策一个给
定的区域是否值得投资。因为直接影响到收益,所以正确获得这个信息至关重要。
1
区域定价
区域数据 区域价格
你的部分 其他信息
投资分析
投资
上游部分
图 2-2:一个针对房地产投资的机器学习流水线
注