book

精通Spark数据科学

Name: 精通Spark数据科学
ISBN: 9781836203858

by Posts & Telecom Press, Andrew Morgan, Antoine Amend, David George, Matthew Hallett

May 2024

Intermediate to advanced

457 pages

6h 33m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者序
译者简介
原书序言
作者简介
审稿人简介
前言

资源与支持
第1章数据科学生态系统
1.1 大数据生态系统简介1.1.1 数据管理1.1.2 数据管理职责1.1.3 合适的工具1.2 数据架构1.2.1 数据采集1.2.2 数据湖1.2.3 数据科学平台1.2.4 数据访问1.3 数据处理技术Apache Spark的角色1.4 配套工具1.4.1 Apache HDFS1.4.2 亚马逊S31.4.3 Apache Kafka1.4.4 Apache Parquet1.4.5 Apache Avro1.4.6 Apache NiFi1.4.7 Apache YARN1.4.8 Apache Lucene1.4.9 Kibana1.4.10 Elasticsearch1.4.11 Accumulo1.5 小结
第2章数据获取
2.1 数据管道2.1.1 通用采集框架2.1.2 GDELT数据集简介2.2 内容登记2.2.1 选择和更多选择2.2.2 随流而行2.2.3 元数据模型2.2.4 Kibana仪表盘2.3 质量保证2.3.1 案例1——基本质量检查，无争用用户2.3.2 案例2——进阶质量检查，无争用用户2.3.3 案例3——基本质量检查，50%使用率争用用户2.4 小结
第3章输入格式与模式
3.1 结构化的生活是美好的生活3.2 GDELT维度建模GDELT模型3.3 加载数据3.3.1 模式敏捷性3.3.2 GKG ELT3.4 Avro3.4.1 Spark-Avro方法3.4.2 教学方法3.4.3 何时执行Avro转换3.5 Apache Parquet3.6 小结
第4章探索性数据分析
4.1 问题、原则与规划4.1.1 理解EDA问题4.1.2 设计原则4.1.3 探索的总计划4.2 准备工作4.2.1 基于掩码的数据剖析简介4.2.2 字符类掩码简介4.2.3 构建基于掩码的剖析器4.3 探索GDELT探索GKG V2.14.4 小结
第5章利用Spark进行地理分析
5.1 GDELT和石油5.1.1 GDELT事件5.1.2 GDELT GKG5.2 制订行动计划5.3 GeoMesa5.3.1 安装5.3.2 GDELT采集5.3.3 GeoMesa采集5.3.4 GeoHash5.3.5 GeoServer5.4 计量油价5.4.1 使用GeoMesa查询API5.4.2 数据准备5.4.3 机器学习5.4.4 朴素贝叶斯5.4.5 结果5.4.6 分析5.5 小结
第6章采集基于链接的外部数据
6.1 构建一个大规模的新闻扫描器6.1.1 访问Web内容6.1.2 与Spark集成6.1.3 创建可扩展的生产准备库6.2 命名实体识别6.2.1 Scala库6.2.2 NLP攻略6.2.3 构建可扩展代码6.3 GIS查询6.3.1 GeoNames数据集6.3.2 构建高效的连接6.3.3 内容除重6.4 名字除重6.4.1 用Scalaz进行函数式编程6.4.2 简单清洗6.4.3 DoubleMetaphone算法6.5 新闻索引仪表板6.6 小结
第7章构建社区
7.1 构建一个人物图谱7.1.1 联系链7.1.2 从Elasticsearch中提取数据7.2 使用Accumulo数据库7.2.1 设置Accumulo7.2.2 单元级安全7.2.3 迭代器7.2.4 从Elasticsearch到Accumulo7.2.5 从Accumulo读取7.2.6 AccumuloGraphxInputFormat和EdgeWritable7.2.7 构建图7.3 社区发现算法7.3.1 Louvain算法7.3.2 加权社区聚类7.4 GDELT数据集7.4.1 Bowie 效应7.4.2 较小的社区7.4.3 使用Accumulo单元级的安全性7.5 小结
第8章构建推荐系统
8.1 不同的方法8.1.1 协同过滤8.1.2 基于内容的过滤8.1.3 自定义的方法8.2 信息不完整的数据8.2.1 处理字节8.2.2 创建可扩展的代码8.2.3 从时域到频域8.3 构建歌曲分析器推销数据科学和推销纸杯蛋糕是一样的8.4 构建一个推荐系统8.4.1 PageRank算法8.4.2 构建个性化的播放列表8.5 扩大“蛋糕厂”规模8.5.1 构建播放列表服务8.5.2 应用Spark任务服务器8.5.3 用户界面8.6 小结
第9章新闻词典和实时标记系统
9.1 土耳其机器人9.1.1 人类智能任务9.1.2 引导分类模型9.1.3 懒惰、急躁、傲慢9.2 设计Spark Streaming应用9.2.1 两个架构的故事9.2.2 Lambda架构的价值9.2.3 Kappa架构的价值9.3 消费数据流9.3.1 创建GDELT数据流9.3.2 创建Twitter数据流9.4 处理Twitter数据9.4.1 提取URL和主题标签9.4.2 保存流行的主题标签9.4.3 扩展缩短的URL9.5 获取HTML内容9.6 使用Elasticsearch作为缓存层9.7 分类数据9.7.1 训练朴素贝叶斯模型9.7.2 确保线程安全9.7.3 预测GDELT数据9.8 Twitter土耳其机器人9.9 小结
第10章故事除重和变迁
10.1 检测近似重复10.1.1 从散列开始第一步10.1.2 站在“互联网巨人”的肩膀上10.1.3 检测GDELT中的近似重复10.1.4 索引GDELT数据库10.2 构建故事10.2.1 构建词频向量10.2.2 维度灾难，数据科学之痛10.2.3 优化KMeans10.3 故事变迁10.3.1 平衡态10.3.2 随时间追踪故事10.3.3 构建故事的关联10.4 小结
第11章情感分析中的异常检测
11.1 在Twitter上追踪美国大选11.1.1 流式获取数据11.1.2 成批获取数据11.2 情感分析11.2.1 格式化处理Twitter数据11.2.2 使用斯坦福NLP11.2.3 建立管道11.3 使用Timely作为时间序列数据库11.3.1 存储数据11.3.2 使用Grafana可视化情感11.4 Twitter与戈德温（Godwin）点11.4.1 学习环境11.4.2 对模型进行可视化11.4.3 Word2Graph和戈德温点11.5 进入检测讽刺的一小步11.5.1 构建特征11.5.2 检测异常11.6 小结
第12章趋势演算
12.1 研究趋势12.2 趋势演算算法12.2.1 趋势窗口12.2.2 简单趋势12.2.3 用户定义聚合函数12.2.4 简单趋势计算12.2.5 反转规则12.2.6 FHLS条状图介绍12.2.7 可视化数据12.3 实际应用12.3.1 算法特性12.3.2 潜在的用例12.4 小结
第13章数据保护
13.1 数据安全性13.1.1 存在的问题13.1.2 基本操作13.2 认证和授权13.3 访问13.4 加密13.4.1 数据处于静态时13.4.2 数据处于传输时13.4.3 混淆/匿名13.4.4 遮罩13.4.5 令牌化13.5 数据处置13.6 Kerberos认证13.6.1 用例1：Apache Spark在受保护的HDFS中访问数据13.6.2 用例2：扩展到自动身份验证13.6.3 用例3：从Spark连接到安全数据库13.7 安全生态13.7.1 Apache Sentry13.7.2 RecordService13.8 安全责任13.9 小结
第14章可扩展算法
14.1 基本原则14.2 Spark架构14.2.1 Spark的历史14.2.2 动态组件14.3 挑战14.3.1 算法复杂性14.3.2 数值异常14.3.3 洗牌14.3.4 数据模式14.4 规划你的路线迭代14.5 设计模式和技术14.5.1 Spark API14.5.2 摘要模式14.5.3 扩展并解决模式14.5.4 轻量级洗牌14.5.5 宽表模式14.5.6 广播变量模式14.5.7 组合器模式14.5.8 集群优化14.5.9 再分配模式14.5.10 加盐键模式14.5.11 二次排序模式14.5.12 过滤过度模式14.5.13 概率算法14.5.14 选择性缓存14.5.15 垃圾回收14.5.16 图遍历14.6 小结

Content preview from 精通Spark数据科学

第14章　可扩展算法

在本章中，我们将讨论在Spark上编写高效且可扩展的分析所面临的挑战。首先将向读者介绍分布式并行化和可扩展性的一般概念以及它们与Spark的关系。我们将回顾Spark的分布式体系架构，让读者了解其基本原理以及它如何支持并行处理范式。我们将了解可扩展分析的特性以及支持这些特性的Spark元素（例如RDD、combineByKey和GraphX）。

我们将了解为什么有时即使是在小规模数据下工作的基础算法，也会经常在大数据中工作失败。我们将看到在编写运行于海量数据集上的Spark作业时要如何避免出现问题，包括使用均值/方差的示例。读者将了解算法的结构以及如何编写可扩展到超过PB级数据的自定义数据科学分析。

我们将继续讨论Spark内存模型的一些局限性，如内存使用过多、传统数据模型（包括面向对象方法[OOP]和第三范式[3NF]）的缺陷、反规范化数据表示的好处、固定精度数字表示的危险等，以及它们与编写高效spark作业的关系。

本章最后介绍与性能相关的主要特性和模式，这些特性和模式有助于Spark中的高效运行时处理，并说明何时利用它们。我们将介绍并行化策略、缓存、洗牌策略、垃圾回收优化和概率模型等功能，并解释如何让这些功能帮助你充分利用Spark。

本章还强调了在分析创作时，对开发过程采用良好的整体方法的重要性。它介绍了专业人员的提示和技巧，这些将确保你的算法编写成功。

14.1　基本原则

在本书中，我们展示了许多数据科学技术，通过使用Spark的强大功能，这些技术可以扩展到处理PB级的数据。希望你已经发现这些技术非常有用，以至于想要开始在自己的分析中使用它们，事实上，你已经受到启发，去创建自己的数据科学管道吧！

编写自己的分析绝对是一项挑战！它有时会非常有趣，当它们工作得很好的时候，会很棒。但是有时候让它们大规模高效运行（甚至根本运行不起来）似乎是一项艰巨的任务。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836203858

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

精通Spark数据科学

by Posts & Telecom Press, Andrew Morgan, Antoine Amend, David George, Matthew Hallett

第14章　可扩展算法

14.1　基本原则

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.