Skip to Content
边缘AI
book

边缘AI

by Daniel Situnayake, Jenny Plunkett
May 2025
Beginner to intermediate
514 pages
5h 36m
Chinese
O'Reilly Media, Inc.
Content preview from 边缘AI

第 7 章 如何建立数据集 如何建立数据集

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

数据集是任何边缘人工智能项目的基础。有了优秀的数据集,工作流程中的每一项任务--从选择正确的算法到了解硬件要求和评估实际性能--都会变得更加容易,风险也更小。

数据集对于机器学习项目来说无可争议地至关重要,因为数据直接用于训练模型。然而,即使您的边缘人工智能应用不需要机器学习,数据也是至关重要的。为了选择有效的信号处理技术、设计启发式算法以及在现实条件下测试应用,数据集是必不可少的。

收集数据集通常是任何边缘人工智能项目中最困难、最耗时、最昂贵的部分。这也是你最有可能犯下难以察觉的可怕错误的地方,这些错误可能会导致你的项目失败。本章旨在介绍当今构建边缘人工智能数据集的最佳实践。它可能是本书最重要的章节。

数据集是什么样的?

每个数据集都是由一堆单独的项目(称为记录)组成的,每个记录都包含一个或多个信息片段(称为特征)。每个特征可能是完全不同的数据类型:数字、时间序列、图像和文本都很常见。这种结构如图 7-1 所示。

A diagram showing a stack of records, each with features.
图 7-1. 数据集包含许多记录,每条记录可能包含许多特征;特征可以有不同的数据类型。

数据集的这些组成部分有许多不同的名称。记录通常被称为样本示例实例。特征也被称为字段1

许多数据集还包含标签标签是一种特殊的特征,表示在该数据集上训练的模型的预期输出结果--例如分类器返回的类别,或物体检测模型返回的边界框。

数据集通常包含一种叫做元数据的东西。这是描述数据本身的特殊数据。例如,一条记录可能包含一些元数据,这些元数据说明了采集其特征的传感器的确切型号、采集的确切日期和时间,或构成其特征之一的信号的采样率。

提示

数据集的存储方式有很多种:文件系统、数据库、云,甚至文件柜和纸箱。

数据集的结构在开发过程中经常会发生重大变化。这可能包括记录和特征所代表的内容发生变化。例如,假设您正在建立一个来自工业机器的振动数据集,因为您希望训练一个分类器来区分不同的运行状态。

您可以先从 10 台不同的机器上采集 24 小时的数据。在这种情况下,每条记录代表一台特定机器的特定时间段。然后,您可以将这些记录分割开来,将每条 24 小时记录分割成与不同运行状态相对应的部分,然后添加相应的标签。接下来,您可以对每条记录执行特征工程,创建可输入机器学习模型的附加特征。

理想数据集

理想的数据集具有以下特性:

相关性

您的数据集应包含对您要解决的问题有用的信息。例如,如果您正在构建一个使用心率传感器数据估算运动成绩的系统,那么您就需要一个同时包含心率传感器数据和某种成绩测量值的数据集。如果您打算使用某种特定类型的传感器,那么使用类似设备收集数据集通常非常重要。如果您想解决分类问题,那么数据集必须包含您所关注类别的判别信息。

代表

要具有代表性,数据集必须包含现实世界中可能遇到的所有不同类型的情况信息。例如,用于健康监测应用的数据集需要包含足够广泛的个人数据,以涵盖可能使用该应用的所有不同类型的人。如"黑盒与偏差 "所述,不具代表性的数据集将导致偏差。

平衡

除了具有代表性之外,理想的数据集还能很好地平衡来自所有相关条件类型的信息。许多类型的机器学习算法都能在平衡的数据集上发挥最佳效果,包括 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

AI原生软件交付

AI原生软件交付

Nick Durkin, Eric Minick, Chinmay Gaikwad
图解大模型 : 生成式AI 原理与实战

图解大模型 : 生成式AI 原理与实战

Jay Alammar, Maarten Grootendorst

Publisher Resources

ISBN: 9798341657762