第1章 获取数据与清洗数据
本章涵盖如下内容:
- 使用Java从分层目录中提取所有文件名;
- 使用Apache Commons IO从分层目录中提取所有文件名;
- 使用Java 8同时从多个文本文件读取内容;
- 使用Apache Commons IO同时从多个文本文件读取内容;
- 使用Apache Tika提取PDF文本;
- 使用正则表达式清洗ASCII文本文件;
- 使用Univocity解析CSV(逗号分隔)文件;
- 使用Univocity解析TSV(制表符分隔)文件;
- 使用JDOM解析XML文件;
- 使用JSON.simple编写JSON文件;
- 使用JSON.simple读取JSON文件;
- 使用JSoup从一个URL地址提取Web数据;
- 使用Selenium Webdriver从一个网站提取Web数据;
- 从MYSQL数据库读取表格数据。
1.1 简介
每个数据科学家都需要处理存储在磁盘中的数据,这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外,数据还可以存储在数据库表格中。在对数据进行分析之前,数据科学家首先要做的是从这些数据源获取各种格式的数据,并对这些数据进行清洗,去除其中的噪声。本章我们将学习这些内容,即了解如何从不同数据源获取各种格式的数据。
在这一过程中,我们将用到外部Java库(Java归档文件,简称JAR文件),这些库的使用不仅限于本章,还贯穿于整本书。这些库由不同开发者或组织开发,方便了大家的使用。编写代码时,我们会用到Eclipse IDE工具,它是Windows平台下最好的集成开发环境,全书都会使用它。接下来,我们将讲解如何导入任意一个外部JAR文件,以下各个部分将指导你把外部JAR文件导入到项目中,跟随步骤动手去做即可。
对于一个Eclipse项目,你可以采用如下方法添加JAR文件:首先依次单击“ ...
Get Java数据科学指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.