
144
|
第
9
章
多篇论文中共有
7604
个唯一的研究领域,这些最终结果应该是向着正确方向前进。我们
的工作正逐步接近有用的模型,我们对此非常有信心。
对更多文本型变量继续迭代,比如找出论文题目中的名词短语,或对关键字进行词干提
取,都可以使我们更加接近“最佳”推荐。
需要注意的是,这里所说的“最佳”只是所有推荐器和搜索引擎追求的一种理想状态。我
们要搜索出一个对用户最有帮助的结果,这不一定能从数据中直接表现出来。特征工程可
以抽象出显著的特征并将其转化为一种表示形式,以使算法能揭示出其中包含的显式和隐
式信息。
9.5
小结
正如你看到的,建立一个机器学习模型非常容易,但要建立一个
好
模型并得到
有用
的结果
则需要花很多时间做很多工作。在本章中,我们为了获得更好的结果,检验了可能的变量
集合,使用多种特征工程方法进行了试验。在这里,“更好”的含义不仅包括从训练和测
试中得到好的结果,还包括使模型更简洁,以及减少在各种试验上的迭代时间。
本书开头说过,要精通一门学科,需要深入理解其中的原理,以便获得直觉,进而有效地
将知识应用到工作中。希望从本书中你能获得必要的方法和工具,提高工作的效率和效
果,同时扩展你的数学与计算机能力,更好地理解为什么特征工程是开发有用的机器学习
模型的一项基本技能。
9.6
参考文献
Sarwar, Badrul, George Karypis, Joseph Konstan, and John Riedl. Item-Based Collaborative
Filtering Recommendation ...