第 2 章 数据是第一步 数据是第一步
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
本章概述了书中使用的用例和数据集,同时还提供了关于在哪里可以找到数据源进行进一步学习和实践的信息。你还将了解数据类型,以及批量数据和流数据之间的区别。您还将使用 Google 基于浏览器的免费开源软件Jupyter Notebook 进行数据预处理的实践。本章的最后一节介绍了如何使用 GitHub 为本书中的选定项目创建数据存储库。
书中使用的案例和数据集概览
,希望你拿起我们的书,不是从数学第一或算法第一的方法,而是从基于项目的方法来学习 ML。我们选择的使用案例旨在利用不同行业的实际真实数据来教你学习 ML。其中有医疗保健、零售、能源、电信和金融方面的用例。有关客户流失的用例可适用于任何行业。如果你有一定的数据预处理经验,每个用例项目都可以独立完成,因此可以跳到你需要学习的内容,以提高自己的技能。表 2-1显示了每个部分、其用例、行业以及是无代码还是低代码。
| 部门 | 用例 | 部门 | 类型 |
|---|---|---|---|
| 1 | 产品定价 | 零售 | 不适用 |
| 2 | 心脏病 | 医疗保健 | 低代码数据预处理 |
| 3 | 营销活动 | 能源 | 无代码 (AutoML) |
| 4 | 广告媒体渠道销售 | 保险 | 无代码 (AutoML) |
| 5 | 欺诈检测 | 财务 | 无代码 (AutoML) |
| 6 | 发电厂生产预测 | 能源 | 低代码(BigQuery ML) |
| 7 | 客户流失预测 | 电信 | 低代码(scikit-learn 和 Keras) |
| 8 | 提高自定义模型的性能 | 汽车 | 自定义代码(scikit-learn、Keras、BigQueryML) |
1.零售:产品定价
本节以一个用例开始,旨在说明数据在决策中的作用。在这个用例中,你是一家生产雨伞的公司的营销负责人,业务目标是提高销售额。如果降低现有雨伞的销售价格,您能预测会卖出多少把雨伞吗?图 2-1显示了可能影响降价策略以提高销量的数据元素。
图 2-1. 影响降价策略以提高销售额的数据元素。
2.医疗保健:心脏病运动
在中,你是一名医疗保健顾问,并得到了美国 35 岁以上人口心脏病死亡率的数据。目标是分析心脏病死亡率数据,并就心脏病预防活动的可能用例提出建议。例如,一个可能的用例是跟踪心脏病死亡率随时间变化的趋势,或开发和验证预测心脏病死亡率的模型。这个数据集很脏。某些字段有缺失值。有一个字段缺失。在解决这些问题的过程中,您将学会将数据导入 PythonJupyter Notebook ,对其进行分析并修复脏污元素。图 2-2显示了有助于分析的数据元素。
图 2-2. 心脏病死亡率使用案例的数据元素。
3.能源:公用事业运动
在这里,you是一名业务分析师,为一家公用事业公司工作。您的任务是针对电能消耗高的社区制定营销和推广计划。数据已经过预处理。您没有 ML 背景或任何编程知识。您选择使用 AutoML 作为您的 ML 框架。图 2-3显示了有助于建立模型的数据元素。 ...