Java数据分析指南

Book description

透过Java编程学习,掌握实用的数据分析技巧,学会使用各种Java工具和库

Key Features

  • 通过Java编程来引导读者更好地进行数据分析
  • 深入理解数据分析,掌握实用的数据分析技术

Book Description

当今,数据科学已经成为一个热门的技术领域,例如数据处理、信息检索、机器学习、自然语言处理、数据可视化等都得到了广泛的应用和发展。而Java作为一门经典的编程语言,在数据科学领域也有着卓越的表现。

本书旨在通过Java编程来引导读者更好地进行数据分析。本书包含11章内容,详细地介绍了数据科学导论、数据预处理、数据可视化、统计、关系数据库、回归分析、分类分析、聚类分析、推荐系统、NoSQL数据库以及Java大数据分析等重要主题。

本书适合想通过Java解决数据科学问题的读者,也适合数据科学领域的专业人士以及普通的Java开发者阅读。通过阅读本书,读者将能够对数据分析有更加深入的理解,并且掌握实用的数据分析技术。

What you will learn

  • 数据科学导论
  • 数据预处理
  • 数据可视化
  • 统计
  • 关系数据库
  • 回归分析
  • 分类分析
  • 聚类分析
  • 推荐系统
  • NoSQL数据库
  • Java大数据分析
  • 机器学习算法

Who this book is for

程序开发人员、数据分析人员、计算机专业学生、Java工程师

Table of contents

  1. 版权信息
  2. 版权声明
  3. 内容提要
  4. 译者简介
  5. 作者简介
  6. 审阅者简介
  7. 前言
    1. 本书内容
    2. 阅读准备
    3. 目标读者
    4. 排版约定
    5. 注释
    6. 提示
  8. 资源与支持
    1. 配套资源
    2. 提交勘误
    3. 与我们联系
    4. 关于异步社区和异步图书
  9. 第1章 数据科学导论
    1. 1.1 数据分析起源
    2. 1.2 科学方法
    3. 1.3 精算科学
    4. 1.4 蒸汽计算
    5. 1.5 一个惊人的例子
    6. 1.6 赫尔曼·何乐礼
    7. 1.7 ENIAC
    8. 1.8 VisiCalc
    9. 1.9 数据、信息和知识
    10. 1.10 为什么用Java
    11. 1.11 Java集成开发环境
    12. 1.12 小结
  10. 第2章 数据预处理
    1. 2.1 数据类型
    2. 2.2 变量
    3. 2.3 数据点和数据集
    4. 2.4 关系数据库表
      1. 2.4.1 关键字段
      2. 2.4.2 键—值对
    5. 2.5 哈希表
    6. 2.6 文件格式
      1. 2.6.1 微软Excel数据
      2. 2.6.2 XML和JSON数据
    7. 2.7 生成测试数据集
      1. 2.7.1 元数据
      2. 2.7.2 数据清洗
      3. 2.7.3 数据缩放
      4. 2.7.4 数据过滤
      5. 2.7.5 排序
      6. 2.7.6 合并
      7. 2.7.7 散列法
    8. 2.8 小结
  11. 第3章 数据可视化
    1. 3.1 表和图
      1. 3.1.1 散点图
      2. 3.1.2 线图
      3. 3.1.3 条形图
      4. 3.1.4 直方图
    2. 3.2 时间序列
    3. 3.3 Java实现
    4. 3.4 移动平均
    5. 3.5 数据排序
    6. 3.6 频率分布
    7. 3.7 正态分布
    8. 3.8 指数分布
    9. 3.9 Java示例
    10. 3.10 小结
  12. 第4章 统计
    1. 4.1 描述性统计量
    2. 4.2 随机抽样
    3. 4.3 随机变量
    4. 4.4 概率分布
    5. 4.5 累积分布
    6. 4.6 二项分布
    7. 4.7 多元分布
    8. 4.8 条件概率
    9. 4.9 概率事件的独立性
    10. 4.10 列联表
    11. 4.11 贝叶斯定理
    12. 4.12 协方差和相关
    13. 4.13 标准正态分布
    14. 4.14 中心极限定理
    15. 4.15 置信区间
    16. 4.16 假设检验
    17. 4.17 小结
  13. 第5章 关系数据库
    1. 5.1 关系数据模型
    2. 5.2 关系数据库
    3. 5.3 外键
    4. 5.4 关系数据库设计
      1. 5.4.1 创建数据库
      2. 5.4.2 SQL命令
      3. 5.4.3 数据插入数据库
      4. 5.4.4 数据库查询
      5. 5.4.5 SQL数据类型
      6. 5.4.6 JDBC
      7. 5.4.7 使用JDBC PreparedStatement
      8. 5.4.8 批处理
      9. 5.4.9 数据库视图
      10. 5.4.10 子查询
      11. 5.4.11 表索引
    5. 5.5 小结
  14. 第6章 回归分析
    1. 6.1 线性回归
      1. 6.1.1 Excel中的线性回归
      2. 6.1.2 计算回归系数
      3. 6.1.3 变异统计量
      4. 6.1.4 线性回归的Java实现
      5. 6.1.5 安斯库姆的四重奏
    2. 6.2 多项式回归
      1. 6.2.1 多元线性回归
      2. 6.2.2 Apache Commons的实现
      3. 6.2.3 曲线拟合
    3. 6.3 小结
  15. 第7章 分类分析
    1. 7.1 决策树
      1. 7.1.1 熵和它有什么关系?
      2. 7.1.2 ID3算法
      3. 7.1.3 Weka平台
      4. 7.1.4 数据的ARFF文件类型
      5. 7.1.5 Weka的Java实现
    2. 7.2 贝叶斯分类器
      1. 7.2.1 Weka的Java实现
      2. 7.2.2 支持向量机算法
    3. 7.3 逻辑回归
      1. 7.3.1 k近邻算法
      2. 7.3.2 模糊分类算法
    4. 7.4 小结
  16. 第8章 聚类分析
    1. 8.1 测量距离
    2. 8.2 维数灾难
    3. 8.3 层次聚类法
      1. 8.3.1 Weka实现
      2. 8.3.2 K-均值聚类
      3. 8.3.3 k-中心点聚类
      4. 8.3.4 仿射传播聚类
    4. 8.4 小结
  17. 第9章 推荐系统
    1. 9.1 效用矩阵
    2. 9.2 相似性度量
    3. 9.3 余弦相似性
    4. 9.4 一个简单的推荐系统
    5. 9.5 亚马逊项目对项目的协同过滤推荐
    6. 9.6 实现用户评分
    7. 9.7 大型稀疏矩阵
    8. 9.8 使用随机访问文件
    9. 9.9 Netflix大奖赛
    10. 9.10 小结
  18. 第10章 NoSQL数据库
    1. 10.1 映射数据结构
    2. 10.2 SQL与NoSQL
    3. 10.3 Mongo数据库系统
    4. 10.4 Library数据库
    5. 10.5 MongoDB的Java开发
    6. 10.6 MongoDB的地理空间数据库扩展
    7. 10.7 MongoDB中的索引
    8. 10.8 为什么选择NoSQL,为什么选择MongoDB
    9. 10.9 其他的NoSQL数据库系统
    10. 10.10 小结
  19. 第11章 Java大数据分析
    1. 11.1 扩展、数据分块和分片
    2. 11.2 谷歌的PageRank算法
    3. 11.3 谷歌的MapReduce框架
    4. 11.4 MapReduce的一些应用示例
    5. 11.5 “单词计数”示例
    6. 11.6 可扩展性
    7. 11.7 MapReduce的矩阵操作
    8. 11.8 MongoDB中的MapReduce
    9. 11.9 Apache Hadoop
    10. 11.10 Hadoop MapReduce
    11. 11.11 小结
  20. 附录 Java工具
    1. 命令行
    2. Java
    3. NetBeans
    4. MySQL
    5. MySQL Workbench
    6. 从NetBeans访问MySQL数据库
    7. Apache Commons Math库
    8. javax JSON库
    9. Weka库
    10. MongoDB

Product information

  • Title: Java数据分析指南
  • Author(s): Posts & Telecom Press, John R. Hubbard
  • Release date: May 2024
  • Publisher(s): Packt Publishing
  • ISBN: 9781836201052

You might also like

book

微服务即学即用

by Ronnie Mitra, Irakli Nadareishvili

微服务架构提供更快的更改速度,更好的可扩展性,更干净,可进化的系统设计。但是实现你的第一个微服务架构是困难的。你如何做出无数的选择,让你的团队了解所有的技术细节,并引导组织走向成功的执行,以最大限度地提高你的成功机会?在这本书中,本书作者为构建有效的微服务架构提供了一步一步的指导。 架构师和工程师将遵循基于已被证明适用微服务系统的技术和架构进行实现。你将构建一个操作模型、一个微服务设计、一个基础设施和两个正在工作的微服务,然后将这些部分放在一起作为一个实现。对于任何负责构建微服务或微服务架构的人来说,本书都是非常宝贵的。 学习有效和明确的端到端微服务系统设计。 定义团队、他们的职责以及共同工作的指导方针。 了解如何将大型应用程序分割成一组微服务。 研究如何将数据隔离并嵌入到相应的微服务中。 为基础架构更改构建一个简单但功能强大的CI/CD管道。 为示例微服务编写代码。 在Amazon上部署可正常工作的微服务应用程序Web服务。

book

Python高级编程(第2版)

by Posts & Telecom Press, Michał Jaworski, Tarek Ziadé

使用Python3.5学习编码实践以及高级概念 Key Features 本书是Python的高级读物,它不是介绍如何使用Python编程,而是如何利用Python更好地编程,教会读者提高编程技能。 Book Description Python作为一种高级程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言之一。 本书基于Python 3.5版本进行讲解,通过13章的内容,深度揭示了Python编程的高级技巧。本书从Python语言及其社区的现状开始介绍,对Python语法、命名规则、Python包的编写、部署代码、扩展程序开发、管理代码、文档编写、测试开发、代码优化、并发编程、设计模式等重要话题进行了全面系统化的讲解。 本书适合想要进一步提高自身Python编程技能的读者阅读,也适合对Python编程感兴趣的读者参考学习。全书结合典型且实用的开发案例,可以帮助读者创建高性能的、可靠且可维护的Python应用。 What you will learn 了解在Python社区中广泛采用的约定和最佳实践; 高效打包Python代码,以便将其应用于社区和生产; …

book

流畅的Python(第2版)

by Luciano Ramalho

不要浪费时间让Python屈就你在其他语言中学到的模式。Python的简洁性有助于你迅速提升编程效率,但这通常意味着你并未使用它所提供的所有功能。《流畅的Python》是编程领域的实用经典参考书,第2版做了与时俱进的修订和升级,教你利用Python特性,写出高效且现代的Python 3代码。 打破旧有经验,探索并运用地道的Python 3特性。本书作者带你一览Python语言核心功能和库,教你编写更简洁、快速和易读的代码。 第2版分为如下五部分,每一部分均可单独成书。 数据结构:序列、字典、集合、Unicode和数据类。 函数即对象:一等函数、相关设计模式和函数声明中的类型提示。 类和协议:组合、继承、混入、接口、运算符重载、协议和更多静态类型。 控制流:上下文管理器、生成器、协程、async/await及线程和进程池。 元编程:特性、属性描述符、类装饰器,以及可取代或简化元类的类元编程新钩子。

book

Spark机器学习实战

by Posts & Telecom Press, Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen Mei

学习实用的机器学习算法,并用Spark快速动手实践 Key Features 步骤清晰,讲解细致,适合读者边学边做 提供Apache Spark机器学习API的全面解决方案 Book Description 机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。 本书提供了Apache Spark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。 本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。 What …