第3章 数据统计分析

本章包含如下内容:

  • 生成描述性统计;
  • 生成概要统计;
  • 从多种分布生成概要统计;
  • 计算频率分布;
  • 计算字符串中的词频;
  • 使用Java8计算字符串中的词频;
  • 计算简单回归;
  • 计算普通最小二乘回归;
  • 计算广义最小二乘回归;
  • 计算两组数据点的协方差;
  • 计算两组数据点的皮尔逊相关系数;
  • 执行配对t检验;;
  • 执行卡方检验;
  • 执行单因素方差分析;
  • 执行K-S检验。

统计分析是数据科学家要进行的常规活动之一。这些分析包括(但不限于)描述性分析、频率分布、简单与多重回归、相关与协方差,以及数据分布中的统计显著性。幸运的是,Java提供了许多库,用于支持数据统计分析,借助这些库,我们只需编写几行代码就能对数据进行统计分析。本章包含15个小节,讲解数据科学家如何使用Java对数据进行统计分析。

请注意,本章讲解的重点是使用Java对数据进行基本的统计分析,但是你完全可以使用Java进行线性代数、数值分析、特殊函数、复数计算、几何学、曲线拟合、微分方程等复杂计算。

开始讲解本章内容之前,需要先做如下准备。

1.下载Apache Commons Math 3.6.1。

2.如果你想使用旧版本,请前往官网下载,如图3-1所示。

image_03_001

图3-1

3.如图3-2所示,下载完成后,把JAR文件作为外部文件添加到你的Eclipse项目中。

图3-2

Apache Commons Math 3.6.1的stat包的内容非常丰富,并且得到很好的优化。使用这个包能够生成如下描述性统计: ...

Get Java数据科学指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.