book

学习 Excel 生成式人工智能工具 (Chinese Edition)

Name: 学习 Excel 生成式人工智能工具 (Chinese Edition)
Author: Angelica Lo Duca
ISBN: 0642572371579

by Angelica Lo Duca

April 2026

Intermediate

390 pages

5h 31m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
前言
本书内容概览第一部分：在 Excel 中使用 ChatGPT第二部分：使用 Copilot 进行数据科学第三部分：适用于 Excel 的其他 AI 工具第四部分：案例与解决方案如何阅读本书本书采用的约定代码示例的使用O’Reilly 在线学习联系我们致谢
I. 在 Excel 中使用 ChatGPT
1. 破冰：Excel 人工智能入门
Excel 基础概念Excel 数据管理Excel 数据分析Excel 数据可视化练习Excel 为何需要人工智能？Excel与AI在数据管理中的应用Excel 与 AI 数据分析Excel与AI在数据可视化中的应用在 Excel 中使用 AI 的优势在 Excel 中 AI 无用武之地浏览各种适用于 Excel 的 AI 工具总结实践活动
2. 开始使用 ChatGPT 和 Excel
介绍适用于 Excel 的 ChatGPT对话的结构背景介绍明确核心要点设定行动练习：prompt的结构设计任务 1任务 2任务 3基础函数与公式计算计数逻辑搜索文本处理日期和时间摘要活动
3. 利用 ChatGPT 加速常用操作
创建模板从零开始创建模板练习 1从零开始自动生成模板根据草图创建模板练习 2自动填充练习 3数据增强练习 4摘要活动
4. 使用 ChatGPT 进行高级操作
使用 ChatGPT 分析数据集数据集提取类别和相关问题生成答案实现答案练习 1扩展至所有问题使用 ChatGPT 处理数据透视表宏与VBA录制宏使用 ChatGPT 生成宏练习 2摘要活动
II. 借助 Copilot 进行数据科学
5. Copilot入门
在 Excel 中介绍并启用 Copilot创建数据透视表柱形图练习 1编辑重命名列拆分列练习 2理解练习 3摘要操作
6. 使用 Copilot 进行数据准备
删除重复项处理缺失值处理缺失值的方法一个实际示例练习 1数据格式化处理数据格式问题的技巧一个实际案例练习 2练习 3摘要练习

7. 文本转换与处理
解释文本公式生成文本公式练习 1处理错误问题描述练习 2让 Copilot 检测问题应用条件文本逻辑总结练习
8. 使用 Copilot 进行基础统计
介绍基础统计集中趋势指标在工作表间复制统计数据对所有度量使用单一prompt离散度指标可视化离散度指标练习 1数据分布与形状统计结果的解读计算指标的可靠性是否存在主导值练习 2总结活动
9. 使用 Copilot 进行数据分析
高级数据透视表创建动态摘要添加切片器假设分析目标寻优数据表练习数据分析的概括总结活动
10. 使用 Copilot 进行数据可视化和报表制作
数据集数据可视化选择合适的图表类型简化并去除冗余练习 1数据报告原始数据定义摘要仪表板练习 2摘要练习
III. 适用于 Excel 的其他 AI 工具
11. Excel AI 加载项概览
Excel 加载项入门AI 驱动的加载项比较 AI 加载项与 Copilot医院患者数据集Numerous.ai工作场景中的GPT从现有字段中提取新字段通过更多信息丰富数据集练习 1Power GPTSally Suite从 Excel 开始学习 Python 编程练习 2摘要活动
12. Python、Excel 与 AI
嵌入式 Python数据集测试 Python 环境使用生成式 AI 工具练习 1Python 加载项的架构ExcelxlwingsPythonOpenAI API环境设置在计算机上安装 Python配置 OpenAI API 访问权限在 Excel 中安装 xlwings 加载项情感分析编写脚本运行脚本分类使用 AI 生成 Python 代码利用 AI 进行故障排除练习 2摘要活动结语
第四章案例与解决方案
A. 尼泊尔峰之旅前
序言活动 1：入门练习 2：创建模板活动 3：数据集增强练习 4：定义宏后记
B. 追寻真相
迄今为止的故事序言练习 1：准备数据集练习 2：基础统计练习 3：数据探索与可视化练习 4：数据报告后记
C. 决战
迄今为止的故事序言活动 1：使用 Numerous.ai 进行数据清洗活动 2：使用 PY() 进行数据提取练习 3：使用 Python 和 AI 进行预测后记
D. 习题解答
第 1 章第2章第3章第4章第5章第6章第7章第8章第9章第10章第11章第12章
索引
关于作者

Content preview from 学习 Excel 生成式人工智能工具 (Chinese Edition)

第 6 章. 使用 Copilot进行数据准备

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

多年前，我第一次接触预测建模项目。该项目由欧洲航天局（ESA）资助，旨在预测船舶航线。这也是我第一次真正接触到涉及历史船舶航线数据的海量数据集。该数据集包含约 8000 万条记录，由两家不同的供应商提供。当时，这个数字对我来说显得无比庞大。这也是我第一次亲手构建实际应用的机器学习模型。

我至今仍清晰记得当时构建的第一个模型版本。我使用约2000万条记录对模型进行训练，随后用剩余的6000万条记录进行测试。结果却是一场彻底的灾难。

首先，的训练过程耗时超过一个月。但这还不是最糟糕的；模型的预测结果完全失准，根本无法准确识别船只航线。但我并没有放弃。我决定深入挖掘数据，对其进行细致入微的分析，以更深入地理解问题的本质。正是那时，一切开始变得明朗。我意识到，这两家数据提供商给我的数据几乎完全相同，因此几乎每条记录都是重复的。换句话说，我实际上并没有8000万条记录，而是大约4000万条。随后我又发现了其他问题：数字格式错误、缺失值、某些字段被误判为文本而非数值……问题层出不穷。

于是，我卷起袖子投入工作，对数据集进行了细致入微的清理和预处理。经过全面清理后，最终保留了约400万条有效记录。我利用这些数据训练了模型的新版本，这次它终于奏效了。该模型在预测船舶航线方面表现出了相当高的准确度。

这次经历让我学到了宝贵的一课：在着手进行任何数据分析之前，必须对数据进行妥善的准备和清理。而这正是本章的主题：让您的数据做好准备，随时投入使用。

更具体地说，本章将介绍三种用于数据准备的技术：

去除重复项
处理缺失值
数据格式化

让我们从第一步开始：去除重复数据。

去除重复项

数据集中的重复项是指在所有列中值完全相同且出现多次的记录。这些重复可能由手动录入错误、系统导入或不一致的数据收集流程引起。

虽然乍看之下重复数据似乎无害，但它们会显著降低数据分析的质量和可靠性，因为它们可能导致以下问题：

导致汇总统计数据和总计出现偏差: 重复数据会人为地虚增计数、总和、平均值和百分比等指标。例如，如果某个销售 ID 因错误而出现两次，总收入数据可能会被高估，每笔交易的平均销售额也会显得高于实际水平。
会导致不准确的洞察: 重复数据会扭曲趋势，给预测模型引入噪声，并导致结果产生偏差。例如，基于交易频率的客户细分可能会因重复条目夸大了客户的活跃度，从而错误地将客户归类。
使数据分析复杂化: 分析师通常依赖某些标识符（如销售 ID）的唯一性来连接表或分组数据。这些字段中的重复数据会导致错误的连接、数据不匹配或聚合结果不明确。

因此，您应删除重复项以维护数据集的完整性及分析结果的可靠性。让我们看看 Copilot 如何协助完成此任务。

请参考与示例产品销售相关的数据集，该数据集可在本书的 GitHub 仓库中获取： 06/product_sales.xlsx （图 6-1）。

Spreadsheet displaying sample product sales transactions with details including sale ID, date, product name, quantity, price, total, salesperson, and branch location.

每行描述一笔交易。该数据集的列结构如下：

销售 ID: 销售交易的唯一标识符（例如 1001、1002 等）
日期: 交易日期
产品名称: 所售产品的名称（例如：笔记本电脑、鼠标、显示器） ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 0642572371579

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

学习 Excel 生成式人工智能工具 (Chinese Edition)

by Angelica Lo Duca

第 6 章. 使用 Copilot进行数据准备

去除重复项

图 6-1. 产品销售数据集

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.