Java数据分析指南

Book description

透过Java编程学习,掌握实用的数据分析技巧,学会使用各种Java工具和库

Key Features

  • 通过Java编程来引导读者更好地进行数据分析
  • 深入理解数据分析,掌握实用的数据分析技术

Book Description

当今,数据科学已经成为一个热门的技术领域,例如数据处理、信息检索、机器学习、自然语言处理、数据可视化等都得到了广泛的应用和发展。而Java作为一门经典的编程语言,在数据科学领域也有着卓越的表现。

本书旨在通过Java编程来引导读者更好地进行数据分析。本书包含11章内容,详细地介绍了数据科学导论、数据预处理、数据可视化、统计、关系数据库、回归分析、分类分析、聚类分析、推荐系统、NoSQL数据库以及Java大数据分析等重要主题。

本书适合想通过Java解决数据科学问题的读者,也适合数据科学领域的专业人士以及普通的Java开发者阅读。通过阅读本书,读者将能够对数据分析有更加深入的理解,并且掌握实用的数据分析技术。

What you will learn

  • 数据科学导论
  • 数据预处理
  • 数据可视化
  • 统计
  • 关系数据库
  • 回归分析
  • 分类分析
  • 聚类分析
  • 推荐系统
  • NoSQL数据库
  • Java大数据分析
  • 机器学习算法

Who this book is for

程序开发人员、数据分析人员、计算机专业学生、Java工程师

Table of contents

  1. 版权信息
  2. 版权声明
  3. 内容提要
  4. 译者简介
  5. 作者简介
  6. 审阅者简介
  7. 前言
    1. 本书内容
    2. 阅读准备
    3. 目标读者
    4. 排版约定
    5. 注释
    6. 提示
  8. 资源与支持
    1. 配套资源
    2. 提交勘误
    3. 与我们联系
    4. 关于异步社区和异步图书
  9. 第1章 数据科学导论
    1. 1.1 数据分析起源
    2. 1.2 科学方法
    3. 1.3 精算科学
    4. 1.4 蒸汽计算
    5. 1.5 一个惊人的例子
    6. 1.6 赫尔曼·何乐礼
    7. 1.7 ENIAC
    8. 1.8 VisiCalc
    9. 1.9 数据、信息和知识
    10. 1.10 为什么用Java
    11. 1.11 Java集成开发环境
    12. 1.12 小结
  10. 第2章 数据预处理
    1. 2.1 数据类型
    2. 2.2 变量
    3. 2.3 数据点和数据集
    4. 2.4 关系数据库表
      1. 2.4.1 关键字段
      2. 2.4.2 键—值对
    5. 2.5 哈希表
    6. 2.6 文件格式
      1. 2.6.1 微软Excel数据
      2. 2.6.2 XML和JSON数据
    7. 2.7 生成测试数据集
      1. 2.7.1 元数据
      2. 2.7.2 数据清洗
      3. 2.7.3 数据缩放
      4. 2.7.4 数据过滤
      5. 2.7.5 排序
      6. 2.7.6 合并
      7. 2.7.7 散列法
    8. 2.8 小结
  11. 第3章 数据可视化
    1. 3.1 表和图
      1. 3.1.1 散点图
      2. 3.1.2 线图
      3. 3.1.3 条形图
      4. 3.1.4 直方图
    2. 3.2 时间序列
    3. 3.3 Java实现
    4. 3.4 移动平均
    5. 3.5 数据排序
    6. 3.6 频率分布
    7. 3.7 正态分布
    8. 3.8 指数分布
    9. 3.9 Java示例
    10. 3.10 小结
  12. 第4章 统计
    1. 4.1 描述性统计量
    2. 4.2 随机抽样
    3. 4.3 随机变量
    4. 4.4 概率分布
    5. 4.5 累积分布
    6. 4.6 二项分布
    7. 4.7 多元分布
    8. 4.8 条件概率
    9. 4.9 概率事件的独立性
    10. 4.10 列联表
    11. 4.11 贝叶斯定理
    12. 4.12 协方差和相关
    13. 4.13 标准正态分布
    14. 4.14 中心极限定理
    15. 4.15 置信区间
    16. 4.16 假设检验
    17. 4.17 小结
  13. 第5章 关系数据库
    1. 5.1 关系数据模型
    2. 5.2 关系数据库
    3. 5.3 外键
    4. 5.4 关系数据库设计
      1. 5.4.1 创建数据库
      2. 5.4.2 SQL命令
      3. 5.4.3 数据插入数据库
      4. 5.4.4 数据库查询
      5. 5.4.5 SQL数据类型
      6. 5.4.6 JDBC
      7. 5.4.7 使用JDBC PreparedStatement
      8. 5.4.8 批处理
      9. 5.4.9 数据库视图
      10. 5.4.10 子查询
      11. 5.4.11 表索引
    5. 5.5 小结
  14. 第6章 回归分析
    1. 6.1 线性回归
      1. 6.1.1 Excel中的线性回归
      2. 6.1.2 计算回归系数
      3. 6.1.3 变异统计量
      4. 6.1.4 线性回归的Java实现
      5. 6.1.5 安斯库姆的四重奏
    2. 6.2 多项式回归
      1. 6.2.1 多元线性回归
      2. 6.2.2 Apache Commons的实现
      3. 6.2.3 曲线拟合
    3. 6.3 小结
  15. 第7章 分类分析
    1. 7.1 决策树
      1. 7.1.1 熵和它有什么关系?
      2. 7.1.2 ID3算法
      3. 7.1.3 Weka平台
      4. 7.1.4 数据的ARFF文件类型
      5. 7.1.5 Weka的Java实现
    2. 7.2 贝叶斯分类器
      1. 7.2.1 Weka的Java实现
      2. 7.2.2 支持向量机算法
    3. 7.3 逻辑回归
      1. 7.3.1 k近邻算法
      2. 7.3.2 模糊分类算法
    4. 7.4 小结
  16. 第8章 聚类分析
    1. 8.1 测量距离
    2. 8.2 维数灾难
    3. 8.3 层次聚类法
      1. 8.3.1 Weka实现
      2. 8.3.2 K-均值聚类
      3. 8.3.3 k-中心点聚类
      4. 8.3.4 仿射传播聚类
    4. 8.4 小结
  17. 第9章 推荐系统
    1. 9.1 效用矩阵
    2. 9.2 相似性度量
    3. 9.3 余弦相似性
    4. 9.4 一个简单的推荐系统
    5. 9.5 亚马逊项目对项目的协同过滤推荐
    6. 9.6 实现用户评分
    7. 9.7 大型稀疏矩阵
    8. 9.8 使用随机访问文件
    9. 9.9 Netflix大奖赛
    10. 9.10 小结
  18. 第10章 NoSQL数据库
    1. 10.1 映射数据结构
    2. 10.2 SQL与NoSQL
    3. 10.3 Mongo数据库系统
    4. 10.4 Library数据库
    5. 10.5 MongoDB的Java开发
    6. 10.6 MongoDB的地理空间数据库扩展
    7. 10.7 MongoDB中的索引
    8. 10.8 为什么选择NoSQL,为什么选择MongoDB
    9. 10.9 其他的NoSQL数据库系统
    10. 10.10 小结
  19. 第11章 Java大数据分析
    1. 11.1 扩展、数据分块和分片
    2. 11.2 谷歌的PageRank算法
    3. 11.3 谷歌的MapReduce框架
    4. 11.4 MapReduce的一些应用示例
    5. 11.5 “单词计数”示例
    6. 11.6 可扩展性
    7. 11.7 MapReduce的矩阵操作
    8. 11.8 MongoDB中的MapReduce
    9. 11.9 Apache Hadoop
    10. 11.10 Hadoop MapReduce
    11. 11.11 小结
  20. 附录 Java工具
    1. 命令行
    2. Java
    3. NetBeans
    4. MySQL
    5. MySQL Workbench
    6. 从NetBeans访问MySQL数据库
    7. Apache Commons Math库
    8. javax JSON库
    9. Weka库
    10. MongoDB

Product information

  • Title: Java数据分析指南
  • Author(s): Posts & Telecom Press, John R. Hubbard
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836201052

You might also like

book

Spark机器学习实战

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

学习实用的机器学习算法,并用Spark快速动手实践 Key Features 步骤清晰,讲解细致,适合读者边学边做 提供Apache Spark机器学习API的全面解决方案 Book Description 机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。 本书提供了Apache Spark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。 本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。 What …

book

Python编程入门与实战

by Posts & Telecom Press, Fabrizio Romano

Python编程入门的精炼指南,以具体编程范例讲解高效解决真实问题的宝典 Key Features 本书内容由浅入深,从理论到实践 探索不同的编程用法,找到解决特定问题的理想方法 Book Description Python 是一种极其灵活和强大的编程语言,适用于多个领域。本书并没有对 Python 的基础知识进行过多讲解,而是对其实用性进行了透彻的介绍,从而帮助读者熟悉并使用该语言。 你将首先了解 Python 的基础知识,为接下来的学习打下坚实的基础,并学习Python 编程基础,即如何操控 Python以实现想要的效果。你还将探索不同的编程用法,找到解决特定问题的理想方法,理解如何实现程序性能优化,学习有效调试、控制程序的执行流,并使用一种交换格式对数据进行交换。此外,你还将学习 …

book

Python和NLTK实现自然语言处理

by Posts & Telecom Press, Nitin Hardeniya

使用Python实现NLP项目的大量实践经验 Key Features NLTK是自然语言处理领域中非常受欢迎和广泛使用的Python库。 Book Description NLTK是自然语言处理领域中非常受欢迎和广泛使用的Python库。NLTK的优点在于其简单性,其中大多数复杂的自然语言处理任务使用几行代码即可完成。本书旨在讲述如何用Python和NLTK解决各种自然语言处理任务并开发机器学习方面的应用。本书介绍了NLTK的基本模块,讲述了采用NLTK实现自然语言处理的大量技巧,讨论了一些文本处理方法和语言处理技术,展示了使用Python实现NLP项目的大量实践经验。本书主要内容包括文本挖掘/NLP任务中所需的所有预处理步骤,如何使用Python 3的NLTK 3进行文本处理,如何通过Python开展NLP项目。 本书适合NLP和机器学习领域的爱好者、Python程序员以及机器学习领域的研究人员阅读。 本书包括以下主要内容 • 使用词性标注和分块的方法对文本进行整理与清洗。 • 把文本标记为句子,把句子标记为单词。 • …

book

Python实用技能学习指南

by Posts & Telecom Press, Robert Smallshire, Austin Bingham

快速上手Python项目 Key Features 进行系统化的讲解 Book Description Python语言具有免费开源、简单易学、可移植性和解释性强、可扩展可嵌入等优点,在国内外都得到了广泛的应用。 本书基于Python 3的版本进行讲解。本书共有11章,由浅入深地讲解了Python的相关知识。本书从Python的安装开始讲起,对数据类型、函数、内置类型、集合类型、异常、生成器、文件和资源管理、单元测试等重要知识进行了系统化的讲解。 本书包含如下内容: Python语法的核心元素 PDB调试器 字符串与集合类型 unittest软件包 函数和模块 面向对象编程 …