第3章 从数据到知识挖掘

本章主要内容

  • 基本的变量类别
  • 如何处理缺失数据、异常值,如何清洗数据
  • 度量集中趋势、分散度、弥散度、分布形状、相关性和协方差
  • 知识挖掘方法:计算极差、百分位数和分位数
  • 如何画箱形图、柱状图、散点图和散点图矩阵

现代的计算机技术加上越来越强大的传感器,产生了令人惊叹的大量信息和数据。拥有大量数据,的确是一个优势,但也造成了一些问题——因为这产生了明显的管理问题:人们需要更复杂的工具去从中寻找相关知识。

这些散落的数据实际上都是散落的基础信息,这些信息能分别描述一种观测现象的某些特定方面,但是却无法准确地表达它们。为了从一种观测现象中挖掘出更多知识,我们需要一种分析范式,使它让我们能够将数据和这个观测现象的某些重要方面联系起来。因此遵循一种能将数据转化为知识的正确方法是非常有必要的。

这种方法包含两个重要步骤:第一,数据分析,从原始数据中抽取信息;第二,模型,将抽取到的信息组织在一个可解释的环境中。这个环境定义了每个信息的含义,并建立了各个散落信息之间的联系,以这种方式帮助我们发掘出观测现象中的知识。

从本章开始,我们会通过分析数据从中抽取有用信息,从对基本的变量类别进行分析和逐步清洗数据入手。我们会分析可用的方法(如缺失数据的插补、移除异常值、添加派生数据)——这些方法能够为分析和建模准备最合适的数据。通过描述性统计方法(descriptive statistical technique),我们可以更加精确地解释数据。我们将主要介绍一些数据分析方法,还会介绍数据可视化——这对理解数据起着重要的作用。[1]

学完本章的内容,读者应该能够具备如下能力:区分机器学习领域中不同变量的类别,清洗数据和辨别缺失数据;使用最常见的描述性统计方法来处理异常值和缺失数据;理解一些数据分析方法并且能够可视化数据。 ...

Get MATLAB机器学习 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.