托马斯·H·达文波特 序言
自动机器学习是一个难以撰写的课题。 从宏观层面来看,这个概念相对容易理解——“如果计算机能自动构建一个能很好拟合我的数据并做出精准预测的统计模型,那该多好啊?”——但若要从组织和技术两个角度进行详细探讨,却颇具难度。事实上,大多数AutoML专家都拥有深厚的技术背景和倾向,却往往无法真正探讨其组织和经济层面的影响。
本书的独特之处在于,它巧妙地兼顾了这两个视角。作者凯雷姆·托马克(Kerem Tomak)是一位拥有深厚数据科学背景的高级商业高管,他成功地架起了AutoML这两个不同领域的桥梁。尽管如此,我建议您根据自身的专业背景和对该主题的理解,参考他的建议来选择本书中适合阅读的章节。
尽管该主题涉及需要衔接的两个领域,但此刻正是撰写和阅读AutoML相关书籍的激动人心的时刻。专业数据科学家们曾因认为自己能“手动”构建出更优秀的模型而对AutoML持怀疑态度,如今却已开始拥抱这项技术——特别是在模型探索的早期阶段。
在非专业人士中,也出现了一系列令人振奋的新技术进展。一些AutoML程序原本就通过点选式界面和与商业智能程序的集成,让业余爱好者也能轻松上手。但如今,生成式AI不仅催生了“直觉编程”,更催生了“直觉数据科学”。 正如托马克在书中指出的,利用语言模型prompt来创建机器学习模型,只是推动数据科学和机器学习进一步普及的漫长技术发展历程中的最新一步。 如今,非技术用户只需向语言模型发出简短prompt、上传数据集,便能迅速获得不仅符合数据的预测模型,还包括特征工程处理、缺失值的最佳处理方案、多种算法的探索,甚至还有几页关于管理者如何利用模型结果以实现最大效益的指导。
本书并未过多关注基于生成式人工智能的机器学习,因为该技术尚处于早期阶段,且prompt的细微差异便可能导致截然不同的结果。不过,托马克在书中多处探讨了这一重要议题:业余爱好者何时适合进行数据科学工作,何时又必须由专业人士来处理。 虽然他在AutoML项目中重点探讨的技术比生成式AI的prompt稍难掌握,但这些技术不仅比以往的机器学习程序更精准,而且使用起来也简单得多。
你还应注意,本书探讨的是基于机器学习的更传统类型的人工智能。从技术角度讲,生成式人工智能确实属于机器学习的一种形式。但本书关注的是我称之为“分析型人工智能”的领域——即开发利用结构化数值数据来预测其他数值数据的机器学习模型。这种类型的人工智能出现的时间远早于生成式人工智能。 如果您拿起了这本书,想必已经知道这一领域虽然在大众中知名度不高,但依然颇具人气且至关重要。事实上,我最近的研究表明,当今大多数组织从分析型人工智能中获得的经济价值往往高于生成式人工智能。而当组织利用AutoML来创建和管理机器学习模型时,分析型人工智能的价值将成倍增长。况且,关于生成式人工智能的书籍已不胜枚举。
因此,我希望您能阅读此书,进而借助AutoML加速并普及您个人及所在组织对机器学习的应用。您还能随着时间的推移有效管理生成的模型,确保它们始终能准确预测您期望的结果。在该领域,没有比Kerem Tomak更出色的指南了,他汇集了您成为AutoML专家所需的所有知识。
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access