第1章　获取数据与清洗数据

本章涵盖如下内容：

使用Java从分层目录中提取所有文件名；
使用Apache Commons IO从分层目录中提取所有文件名；
使用Java 8同时从多个文本文件读取内容；
使用Apache Commons IO同时从多个文本文件读取内容；
使用Apache Tika提取PDF文本；
使用正则表达式清洗ASCII文本文件；
使用Univocity解析CSV（逗号分隔）文件；
使用Univocity解析TSV（制表符分隔）文件；
使用JDOM解析XML文件；
使用JSON.simple编写JSON文件；
使用JSON.simple读取JSON文件；
使用JSoup从一个URL地址提取Web数据；
使用Selenium Webdriver从一个网站提取Web数据；
从MYSQL数据库读取表格数据。

1.1　简介

每个数据科学家都需要处理存储在磁盘中的数据，这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外，数据还可以存储在数据库表格中。在对数据进行分析之前，数据科学家首先要做的是从这些数据源获取各种格式的数据，并对这些数据进行清洗，去除其中的噪声。本章我们将学习这些内容，即了解如何从不同数据源获取各种格式的数据。

在这一过程中，我们将用到外部Java库（Java归档文件，简称JAR文件），这些库的使用不仅限于本章，还贯穿于整本书。这些库由不同开发者或组织开发，方便了大家的使用。编写代码时，我们会用到Eclipse IDE工具，它是Windows平台下最好的集成开发环境，全书都会使用它。接下来，我们将讲解如何导入任意一个外部JAR文件，以下各个部分将指导你把外部JAR文件导入到项目中，跟随步骤动手去做即可。

对于一个Eclipse项目，你可以采用如下方法添加JAR文件：首先依次单击“ ...

Get Java数据科学指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial