book

精通Spark数据科学

Name: 精通Spark数据科学
ISBN: 9781836203858

by Posts & Telecom Press, Andrew Morgan, Antoine Amend, David George, Matthew Hallett

May 2024

Intermediate to advanced

457 pages

6h 33m

Chinese

Packt Publishing

Read now

Unlock full access

版权信息
版权
版权声明
内容提要
译者序
译者简介
原书序言
作者简介
审稿人简介
前言

资源与支持
第1章数据科学生态系统
1.1 大数据生态系统简介1.1.1 数据管理1.1.2 数据管理职责1.1.3 合适的工具1.2 数据架构1.2.1 数据采集1.2.2 数据湖1.2.3 数据科学平台1.2.4 数据访问1.3 数据处理技术Apache Spark的角色1.4 配套工具1.4.1 Apache HDFS1.4.2 亚马逊S31.4.3 Apache Kafka1.4.4 Apache Parquet1.4.5 Apache Avro1.4.6 Apache NiFi1.4.7 Apache YARN1.4.8 Apache Lucene1.4.9 Kibana1.4.10 Elasticsearch1.4.11 Accumulo1.5 小结
第2章数据获取
2.1 数据管道2.1.1 通用采集框架2.1.2 GDELT数据集简介2.2 内容登记2.2.1 选择和更多选择2.2.2 随流而行2.2.3 元数据模型2.2.4 Kibana仪表盘2.3 质量保证2.3.1 案例1——基本质量检查，无争用用户2.3.2 案例2——进阶质量检查，无争用用户2.3.3 案例3——基本质量检查，50%使用率争用用户2.4 小结
第3章输入格式与模式
3.1 结构化的生活是美好的生活3.2 GDELT维度建模GDELT模型3.3 加载数据3.3.1 模式敏捷性3.3.2 GKG ELT3.4 Avro3.4.1 Spark-Avro方法3.4.2 教学方法3.4.3 何时执行Avro转换3.5 Apache Parquet3.6 小结
第4章探索性数据分析
4.1 问题、原则与规划4.1.1 理解EDA问题4.1.2 设计原则4.1.3 探索的总计划4.2 准备工作4.2.1 基于掩码的数据剖析简介4.2.2 字符类掩码简介4.2.3 构建基于掩码的剖析器4.3 探索GDELT探索GKG V2.14.4 小结
第5章利用Spark进行地理分析
5.1 GDELT和石油5.1.1 GDELT事件5.1.2 GDELT GKG5.2 制订行动计划5.3 GeoMesa5.3.1 安装5.3.2 GDELT采集5.3.3 GeoMesa采集5.3.4 GeoHash5.3.5 GeoServer5.4 计量油价5.4.1 使用GeoMesa查询API5.4.2 数据准备5.4.3 机器学习5.4.4 朴素贝叶斯5.4.5 结果5.4.6 分析5.5 小结
第6章采集基于链接的外部数据
6.1 构建一个大规模的新闻扫描器6.1.1 访问Web内容6.1.2 与Spark集成6.1.3 创建可扩展的生产准备库6.2 命名实体识别6.2.1 Scala库6.2.2 NLP攻略6.2.3 构建可扩展代码6.3 GIS查询6.3.1 GeoNames数据集6.3.2 构建高效的连接6.3.3 内容除重6.4 名字除重6.4.1 用Scalaz进行函数式编程6.4.2 简单清洗6.4.3 DoubleMetaphone算法6.5 新闻索引仪表板6.6 小结
第7章构建社区
7.1 构建一个人物图谱7.1.1 联系链7.1.2 从Elasticsearch中提取数据7.2 使用Accumulo数据库7.2.1 设置Accumulo7.2.2 单元级安全7.2.3 迭代器7.2.4 从Elasticsearch到Accumulo7.2.5 从Accumulo读取7.2.6 AccumuloGraphxInputFormat和EdgeWritable7.2.7 构建图7.3 社区发现算法7.3.1 Louvain算法7.3.2 加权社区聚类7.4 GDELT数据集7.4.1 Bowie 效应7.4.2 较小的社区7.4.3 使用Accumulo单元级的安全性7.5 小结
第8章构建推荐系统
8.1 不同的方法8.1.1 协同过滤8.1.2 基于内容的过滤8.1.3 自定义的方法8.2 信息不完整的数据8.2.1 处理字节8.2.2 创建可扩展的代码8.2.3 从时域到频域8.3 构建歌曲分析器推销数据科学和推销纸杯蛋糕是一样的8.4 构建一个推荐系统8.4.1 PageRank算法8.4.2 构建个性化的播放列表8.5 扩大“蛋糕厂”规模8.5.1 构建播放列表服务8.5.2 应用Spark任务服务器8.5.3 用户界面8.6 小结
第9章新闻词典和实时标记系统
9.1 土耳其机器人9.1.1 人类智能任务9.1.2 引导分类模型9.1.3 懒惰、急躁、傲慢9.2 设计Spark Streaming应用9.2.1 两个架构的故事9.2.2 Lambda架构的价值9.2.3 Kappa架构的价值9.3 消费数据流9.3.1 创建GDELT数据流9.3.2 创建Twitter数据流9.4 处理Twitter数据9.4.1 提取URL和主题标签9.4.2 保存流行的主题标签9.4.3 扩展缩短的URL9.5 获取HTML内容9.6 使用Elasticsearch作为缓存层9.7 分类数据9.7.1 训练朴素贝叶斯模型9.7.2 确保线程安全9.7.3 预测GDELT数据9.8 Twitter土耳其机器人9.9 小结
第10章故事除重和变迁
10.1 检测近似重复10.1.1 从散列开始第一步10.1.2 站在“互联网巨人”的肩膀上10.1.3 检测GDELT中的近似重复10.1.4 索引GDELT数据库10.2 构建故事10.2.1 构建词频向量10.2.2 维度灾难，数据科学之痛10.2.3 优化KMeans10.3 故事变迁10.3.1 平衡态10.3.2 随时间追踪故事10.3.3 构建故事的关联10.4 小结
第11章情感分析中的异常检测
11.1 在Twitter上追踪美国大选11.1.1 流式获取数据11.1.2 成批获取数据11.2 情感分析11.2.1 格式化处理Twitter数据11.2.2 使用斯坦福NLP11.2.3 建立管道11.3 使用Timely作为时间序列数据库11.3.1 存储数据11.3.2 使用Grafana可视化情感11.4 Twitter与戈德温（Godwin）点11.4.1 学习环境11.4.2 对模型进行可视化11.4.3 Word2Graph和戈德温点11.5 进入检测讽刺的一小步11.5.1 构建特征11.5.2 检测异常11.6 小结
第12章趋势演算
12.1 研究趋势12.2 趋势演算算法12.2.1 趋势窗口12.2.2 简单趋势12.2.3 用户定义聚合函数12.2.4 简单趋势计算12.2.5 反转规则12.2.6 FHLS条状图介绍12.2.7 可视化数据12.3 实际应用12.3.1 算法特性12.3.2 潜在的用例12.4 小结
第13章数据保护
13.1 数据安全性13.1.1 存在的问题13.1.2 基本操作13.2 认证和授权13.3 访问13.4 加密13.4.1 数据处于静态时13.4.2 数据处于传输时13.4.3 混淆/匿名13.4.4 遮罩13.4.5 令牌化13.5 数据处置13.6 Kerberos认证13.6.1 用例1：Apache Spark在受保护的HDFS中访问数据13.6.2 用例2：扩展到自动身份验证13.6.3 用例3：从Spark连接到安全数据库13.7 安全生态13.7.1 Apache Sentry13.7.2 RecordService13.8 安全责任13.9 小结
第14章可扩展算法
14.1 基本原则14.2 Spark架构14.2.1 Spark的历史14.2.2 动态组件14.3 挑战14.3.1 算法复杂性14.3.2 数值异常14.3.3 洗牌14.3.4 数据模式14.4 规划你的路线迭代14.5 设计模式和技术14.5.1 Spark API14.5.2 摘要模式14.5.3 扩展并解决模式14.5.4 轻量级洗牌14.5.5 宽表模式14.5.6 广播变量模式14.5.7 组合器模式14.5.8 集群优化14.5.9 再分配模式14.5.10 加盐键模式14.5.11 二次排序模式14.5.12 过滤过度模式14.5.13 概率算法14.5.14 选择性缓存14.5.15 垃圾回收14.5.16 图遍历14.6 小结

Content preview from 精通Spark数据科学

第9章　新闻词典和实时标记系统

虽然分层数据仓库将数据存储在文件夹的文件中，但典型的基于Hadoop的系统依赖扁平架构来存储数据。如果没有适当的数据治理或对数据全部内容的清晰理解，那数据湖就将不可避免地变成沼泽，在沼泽中，像GDELT这样的有趣数据集只不过是一个包含大量非结构化文本文件的文件夹。因此，数据分类可能是大型组织中使用最广泛的机器学习技术之一，因为它允许用户正确分类和标记他们的数据，将这些类别作为其元数据解决方案的一部分发布，从而以最有效的方式访问特定信息。如果没有预先执行适当的标记机制，理论上在摄取时，查找有关特定主题的所有新闻文章将需要解析整个数据集以查找特定关键字。在本章中，我们将描述一种创新的方式，它使用Spark Streaming和1％Twitter firehost以非监督的方式近实时地标记传入的GDELT数据。

在这一章中，我们将探讨以下主题。

使用Stack Exchange数据引导朴素贝叶斯分类器。
用于实时流应用的Lambda与Kappa架构。
Spark Streaming应用中的Kafka和Twitter4J。
部署模型时的线程安全性。
使用Elasticsearch作为缓存层。

9.1　土耳其机器人

数据分类是一种监督学习技术，这意味着你只能预测从训练数据集中学习的标签和类别。因为训练数据集必须被恰当地标记，这将成为我们本章中讨论的主要挑战。

9.1.1　人类智能任务

在新闻文章的背景下，数据都没有得到适当的标记。严格来说，我们无法从中学到任何东西。数据科学家的常识是开始手工标记一些输入记录，这些记录将用作训练数据集。但是，类的数量可能相对较大，至少在我们的案例中可能有数百个标签，标记的数据量（数千篇文章）可能很大，需要付出巨大的努力。第一个解决方案是将这项繁重的任务外包给一个“土耳其机器人”（Mechanical ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781836203858

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

精通Spark数据科学

by Posts & Telecom Press, Andrew Morgan, Antoine Amend, David George, Matthew Hallett

第9章　新闻词典和实时标记系统