第 9 章. 人工智能之旅的下一步
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
通过本书的学习,您将了解如何利用企业级 ML 工作流程来推动企业的决策制定,如何理解数据并着眼于构建 ML 模型,以及有哪些工具可用于构建 ML 模型。您将发现如何使用 AutoML 训练回归和分类模型,如何使用 BigQuery ML 中的 SQL 创建自定义低代码模型,如何使用 scikit-learn 和 TensorFlow 框架创建自定义代码模型,以及如何通过进一步的特征工程和超参数调整提高自定义模型的性能。希望您能在这段旅程中得到启发和乐趣。对许多人来说,这应该足以让您将 ML 融入到解决问题的过程中。
对于其他人来说,这只是进入 ML 和 AI 的漫长旅程的开始。本章将探讨下一步该怎么走。你将了解数据科学和 ML 操作(或 MLOps)中的其他重要主题。本章还将为你提供许多精彩的资源,帮助你增长本书以外的知识。
Go 深入数据科学
对于数据科学或数据科学家,目前还没有公认的定义。数据科学是一门使用其他学科的各种工具从数据集中提取见解的学科。这些不同的工具来自数学、统计学、计算机科学等其他领域,有时也会根据手头的问题而来自不同的领域。
你在本书中使用的所有数据集都是结构化数据集--具有明确定义的模式的数据集。大多数业务问题都涉及结构化数据,而你也掌握了一套探索结构化数据的绝佳技能。然而,随着 ML 作为一门学科变得越来越成熟,非结构化数据集 也变得越来越重要。回顾第 2 章,非结构化数据包括图像、视频、声音文件和文本。在过去十年中,大量研究都集中在针对非结构化数据的 ML 的各个方面。
最近变得越来越重要的一种人工智能是生成式人工智能 ,指的是生成图像、视频等各种类型数据的模型。最近,生成式人工智能已成为一个非常流行且发展迅速的领域,如Midjourney和Craiyon 等图像生成模型,以及ChatGPT和Bard 等聊天机器人 (上下文文本生成)。此外,许多商业产品中也包含了人工智能生成功能,如Bing(ChatGPT)、Google Search(搜索生成体验)和 Amazon CodeWhisperer。
模型越复杂,就越难理解。例如,当你在第 6 章学习线性回归时,你会发现模型的权重能让人清楚地了解各个特征的重要性。即使对于只有一个隐藏层的神经网络来说,模型的权重与所使用特征的重要性之间也不再有易于描述的联系。对于用于解决非结构化数据和生成模型问题的超大模型来说,这一点变得更加困难。
本节将深入探讨各种资源,并提供更多资源,供您选择探索这些主题。
处理非结构化数据
非结构化数据被定义为没有模式的数据。前面提到过一些典型的例子,如图像和文本。回想一下,ML 模型归根结底是一种数学函数,它接受数字输入并产生数字输出,然后再对其进行解释。如何将图像或句子解释为数字输入?
处理图像数据
对于图像来说,情况比您想象的要简单。每幅图像都表示为一个像素值数组。例如,请看图 9-1 中手写数字的像素化图像。左边的图像是手写数字 2 的低分辨率版本。该图像由一个 12 × 12 的网格块组成,称为像素。该灰度图像的像素值介于 0 和 255 之间。0 代表黑色,255 代表白色,介于两者之间的值代表不同的灰度值。在第二幅图像中,你可以看到图像的实际像素值是一个数组。
图 9-1. 手写 2 的低分辨率灰度图像以及相应的像素 值。
对于彩色图像来说,原理非常相似。彩色图像由三个通道 :红色、绿色和蓝色。每个像素的每个通道都有一个介于 ...