book

《Google Cloud Platform 上的数据科学（第二版）》

Name: 《Google Cloud Platform 上的数据科学（第二版）》
Author: Valliappa Lakshmanan
ISBN: 9798341658578

by Valliappa Lakshmanan

May 2025

Intermediate to advanced

462 pages

6h 16m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
1.根据数据做出更好的决策
许多类似的决定数据科学家的作用废旧环境全栈云数据科学家合作最佳做法从简单到复杂的解决方案云计算无服务器概率决策概率方法概率密度函数累积分布函数做出的选择选择 Cloud不是参考书代码入门谷歌云上数据科学的 Agile 架构什么是 Agile 架构？无代码、低代码使用托管服务摘要推荐资源
2.将数据输入云
航空公司准点率数据可知性因果关系培训-服务偏差下载数据辐辏架构数据集字段计算与存储分离扩大规模使用分片数据进行扩展利用就地数据进行扩展输入数据逆向工程网络表单数据集下载勘探和清理将数据上传到 Google Cloud Storage将数据加载到 Google BigQuery无服务器列式数据库的优势云存储上的分期门禁控制输入 CSV 文件分区安排每月下载用 Python 进行摄取Cloud Run确保 Cloud 运行安全部署和调用 Cloud Run调度云运行摘要代码破解推荐资源
3.创建引人注目的仪表板
用仪表盘解释您的模型为什么要先建立仪表板？准确、诚实和良好的设计将数据加载到 Cloud SQL 中创建 Google Cloud SQL 实例创建数据表与数据库互动使用 BigQuery 进行查询模式探索使用预览使用表格资源管理器创建 BigQuery 视图建立我们的第一个模型应急表阈值优化建立仪表板数据工作室入门创建图表添加最终用户控制用饼图显示比例解释应急表现代商业智能数字化自然语言查询连接片材摘要推荐资源
4.流数据：利用 Pub/Sub 和数据流进行发布和收录
设计事件反馈需要转型建筑学获取机场信息共享数据时间校正Apache Beam/Cloud Dataflow解析机场数据添加时区信息将时间转换为 UTC更正日期创建活动向云读写在云中运行管道将事件流发布到 Cloud Pub/Sub提速因子获取记录以便发布有多少主题？记录迭代建立一批事件发布一批事件实时流处理数据流中的流窗口化管道流媒体聚合使用事件时间戳执行流处理在 BigQuery 中分析流数据实时仪表板摘要推荐资源
5.使用 Vertex AI 工作台进行交互式数据探索
探索性数据分析使用 SQL 进行探索读取查询解释顶点人工智能工作台的探索性数据分析Jupyter 笔记本创建笔记本Jupyter 命令安装软件包用于 Google Cloud 的 Jupyter Magic探索抵达延误基本统计数据绘制分布图质量控制以出发延误为条件的到达延误评估模型随机洗牌按日期分割培训和测试摘要推荐资源
6.在 Cloud Dataproc 上使用 Apache Spark 的贝叶斯分类器
MapReduce 和 Hadoop 生态系统MapReduce 如何工作Apache HadoopGoogle Cloud Dataproc需要更高级别的工具就业，而非集群预装软件使用 Spark SQL 进行量化Cloud Dataproc 上的 JupyterLab使用 BigQuery 检查独立性JupyterLab 中的 Spark SQL直方图均衡化贝叶斯分类法每区贝叶斯评估模型动态调整群集大小与单一阈值模型的比较编排提交 Spark 职务工作流程模板Cloud Composer自动缩放无服务器 Spark摘要推荐资源
7.使用 Spark ML 进行逻辑回归
逻辑回归逻辑回归的工作原理Spark ML 库Spark 机器学习入门Spark Logistic 回归创建训练数据集训练模型使用模型进行预测评估模型功能工程实验框架特征选择特征转换功能创建分类变量可重复、实时摘要推荐资源
8.使用 BigQuery ML 进行机器学习
逻辑回归预分割数据质疑模式评估模型规模与简约非线性机器学习XGBoost超参数调整顶点 AI AutoML 表格时间窗口功能出租车离开时间复合延迟因果关系时间特征出发时间转换条款分类变量特色十字架摘要推荐资源
9.在顶点人工智能中使用 TensorFlow 进行机器学习
建立更复杂的模型为 TensorFlow 准备 BigQuery 数据将数据读入 TensorFlowKeras 中的培训和评估模型功能特点输入训练 Keras 模型保存和导出深度神经网络Keras 中的宽深度模型代表空中交通走廊桶装水特色穿越宽深分级机向 Vertex AI 部署训练好的 TensorFlow 模型概念上传模型创建端点将模型部署到端点调用已部署模型摘要推荐资源

10.使用顶点人工智能为 MLOps 做好准备
使用 Python 进行开发和部署编写 model.py编写培训计划预定义分割AutoML超参数调整模型参数化缩短训练时间培训期间的衡量标准超参数调整管道最佳完成试验解释模型配置说明元数据创建和部署模型获取解释摘要推荐资源
11.用于实时机器学习的时间窗口特征
时间平均值Apache Beam 和 Cloud Dataflow阅读与写作时间窗口机器学习培训机器学习数据集训练模型流媒体预测重复使用转换器输入和输出调用模型重复使用端点批量预测流媒体管道写入 BigQuery执行流水管道逾期和缺货记录可能的流媒体汇摘要推荐资源
12.完整数据集
四年数据创建数据集培训模式评估摘要推荐资源
结论
A.机器学习数据集中敏感数据的注意事项
处理敏感信息列中的敏感数据自然语言数据集中的敏感数据自由格式非结构化数据中的敏感数据综合领域中的敏感数据非结构化内容中的敏感数据保护敏感数据删除敏感数据屏蔽敏感数据粗略处理敏感数据制定治理政策
索引
关于作者

Content preview from 《Google Cloud Platform 上的数据科学（第二版）》

第 11 章实时机器学习的时间窗口特征用于实时机器学习的时间窗口特征

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第 8 章中，我们简要探讨了将时间窗口特征（如始发机场滑出延误的移动平均值）作为模型输入的问题。我们发现时间窗口特征减少了模型误差。但是，我们还不清楚客户（他们只知道自己乘坐的航班）如何才能提供正确的数值。因此，我们决定放弃时间窗口功能。在本章中，我们将通过使用 Cloud Dataflow 和 Vertex AI 实现实时、流式机器学习管道来解决这一缺陷。

本章中的所有代码片段都在GitHub 代码库的11_realtime文件夹中。请参阅该目录中的README.md文件，了解如何执行本章所述步骤。

时间平均值

我们有哪些时间窗口汇总功能想用却用不了？航班到达时间是根据出发机场在该特定时段的平均打车时间安排的。机器学习模型可以很容易地学习到这个平均值，因为我们显示的是整个数据集，并告诉机器学习模型出发机场的名称。例如，在纽约肯尼迪机场的高峰时段，一个小时左右的打车离开时间非常常见，因此航空公司在发布航班时刻表时会考虑到这一点。只有当滑出时间超过平均值时，我们才应该担心。这种全球平均值通常不是我们需要纳入模型的特征（尽管如果我们这样做也无妨）。

另一方面，还需要计算近期航班的时间平均值。例如，我们的直觉认为，出发机场的平均起飞和滑出延误时间会影响我们是否可能准时到达。即使我们乘坐的航班刚好准时起飞，也是如此。从一个机场起飞的大量航班出现延误，通常与天气或其他原因导致的跑道关闭有关。这会导致空域拥堵，因此后续航班也会受到影响，因为天气延误可能会持续，而且跑道数量可能会受到限制。与全球平均滑出时间不同，最近的平均起飞延误时间需要实时计算。根据历史数据，我们需要计算飞机起飞时间前一小时的平均值。在实时情况下，这一计算将通过流式数据进行。

Apache Beam 和 Cloud Dataflow

我们将利用 Apache Beam 解决用时间窗口聚合特征增强数据集的问题。

为什么选择 Apache Beam？

Apache Beam 允许我们在批处理和流处理中使用相同的代码--例如，在历史数据上计算聚合特征，然后在预测时实时计算相同的聚合特征（见图 11-1）。

为什么选择数据流？

Cloud Dataflow 是一项完全托管的服务，用于执行使用 Apache Beam 编写的数据处理管道。完全托管意味着什么？想想 BigQuery 而不是 Cloud SQL。两者都允许对数据进行 SQL 查询，但 Cloud SQL 只是云虚拟机上的 MySQL 托管版本，而 BigQuery 则是完全无服务器的。这使得 BigQuery 可以进行更大规模的即时可用 SQL 处理。¹Cloud Dataflow 为程序化数据管道提供了类似的无服务器自动扩展服务。

与 Cloud Dataproc 不同，使用 Cloud Dataflow 时，我们不需要启动集群来进行数据处理。相反，我们只需提交代码，它就会被执行，并自动扩展到有效完成任务所需的任意数量的机器上。我们将根据任务涉及的计算资源数量收取费用。为什么我要使用 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658578

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

《Google Cloud Platform 上的数据科学（第二版）》

by Valliappa Lakshmanan

第 11 章实时机器学习的时间窗口特征用于实时机器学习的时间窗口特征

时间平均值