第3章 数据统计分析
本章包含如下内容:
- 生成描述性统计;
- 生成概要统计;
- 从多种分布生成概要统计;
- 计算频率分布;
- 计算字符串中的词频;
- 使用Java8计算字符串中的词频;
- 计算简单回归;
- 计算普通最小二乘回归;
- 计算广义最小二乘回归;
- 计算两组数据点的协方差;
- 计算两组数据点的皮尔逊相关系数;
- 执行配对t检验;;
- 执行卡方检验;
- 执行单因素方差分析;
- 执行K-S检验。
3.1 简介
统计分析是数据科学家要进行的常规活动之一。这些分析包括(但不限于)描述性分析、频率分布、简单与多重回归、相关与协方差,以及数据分布中的统计显著性。幸运的是,Java提供了许多库,用于支持数据统计分析,借助这些库,我们只需编写几行代码就能对数据进行统计分析。本章包含15个小节,讲解数据科学家如何使用Java对数据进行统计分析。
请注意,本章讲解的重点是使用Java对数据进行基本的统计分析,但是你完全可以使用Java进行线性代数、数值分析、特殊函数、复数计算、几何学、曲线拟合、微分方程等复杂计算。
开始讲解本章内容之前,需要先做如下准备。
1.下载Apache Commons Math 3.6.1。
2.如果你想使用旧版本,请前往官网下载,如图3-1所示。
图3-1
3.如图3-2所示,下载完成后,把JAR文件作为外部文件添加到你的Eclipse项目中。
图3-2
Apache Commons Math 3.6.1的stat
包的内容非常丰富,并且得到很好的优化。使用这个包能够生成如下描述性统计: ...
Get Java数据科学指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.