第3章　从数据到知识挖掘

本章主要内容

基本的变量类别
如何处理缺失数据、异常值，如何清洗数据
度量集中趋势、分散度、弥散度、分布形状、相关性和协方差
知识挖掘方法：计算极差、百分位数和分位数
如何画箱形图、柱状图、散点图和散点图矩阵

现代的计算机技术加上越来越强大的传感器，产生了令人惊叹的大量信息和数据。拥有大量数据，的确是一个优势，但也造成了一些问题——因为这产生了明显的管理问题：人们需要更复杂的工具去从中寻找相关知识。

这些散落的数据实际上都是散落的基础信息，这些信息能分别描述一种观测现象的某些特定方面，但是却无法准确地表达它们。为了从一种观测现象中挖掘出更多知识，我们需要一种分析范式，使它让我们能够将数据和这个观测现象的某些重要方面联系起来。因此遵循一种能将数据转化为知识的正确方法是非常有必要的。

这种方法包含两个重要步骤：第一，数据分析，从原始数据中抽取信息；第二，模型，将抽取到的信息组织在一个可解释的环境中。这个环境定义了每个信息的含义，并建立了各个散落信息之间的联系，以这种方式帮助我们发掘出观测现象中的知识。

从本章开始，我们会通过分析数据从中抽取有用信息，从对基本的变量类别进行分析和逐步清洗数据入手。我们会分析可用的方法（如缺失数据的插补、移除异常值、添加派生数据）——这些方法能够为分析和建模准备最合适的数据。通过描述性统计方法（descriptive statistical technique），我们可以更加精确地解释数据。我们将主要介绍一些数据分析方法，还会介绍数据可视化——这对理解数据起着重要的作用。^[1]

学完本章的内容，读者应该能够具备如下能力：区分机器学习领域中不同变量的类别，清洗数据和辨别缺失数据；使用最常见的描述性统计方法来处理异常值和缺失数据；理解一些数据分析方法并且能够可视化数据。 ...

Get MATLAB机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

MATLAB机器学习 by Posts & Telecom Press, Giuseppe Ciaburro

第3章　从数据到知识挖掘

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第3章 从数据到知识挖掘

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

第3章　从数据到知识挖掘