大数据项目管理:从规划到实现

Book description

许多公司会在大数据项目的实施细节上下很多功夫,例如研究分布式处理引擎和数据分析算法。这并没有错,但不要因为一棵树而错过整片森林。本书将为你打开更广阔的视野,展示如何从大数据项目的规划阶段开始,一步步走向成功。无论是首席信息官、首席技术官、项目经理,还是架构师和开发人员,都能通过本书得到 启迪。

  • 开始规划:思考大数据项目的主要类型
  • 评估和选择数据管理解决方案
  • 降低与技术、团队、需求相关的风险
  • 探索良好的接口设计模式
  • 为项目选择合适的分布式存储系统
  • 规划和实施元数据收集
  • 使用数据管道确保数据完整性
  • 根据并行处理引擎的特征评估处理框架

Table of contents

  1. 封面
  2. 扉页
  3. 版权
  4. 版权声明
  5. O’Reilly Media, Inc.介绍
  6. 目录
  7. 前言
    1. 读者对象
    2. 阅读方式
    3. 排版约定
    4. 使用代码示例
    5. O’Reilly Safari
    6. 联系我们
    7. 致谢
    8. 电子书
  8. 第1章 数据项目的主要类型及考虑因素
    1. 1.1 数据项目的主要类型
    2. 1.2 数据管道和数据暂存
      1. 1.2.1 主要考虑因素和风险管理 (1/2)
      2. 1.2.1 主要考虑因素和风险管理 (2/2)
      3. 1.2.2 数据管道和数据暂存团队的人员组成
    3. 1.3 数据的处理和分析
      1. 1.3.1 主要考虑因素和风险管理
      2. 1.3.2 数据处理和分析团队的人员组成
    4. 1.4 应用程序开发
      1. 1.4.1 主要考虑因素和风险管理
      2. 1.4.2 应用程序开发团队的人员组成
    5. 1.5 小结
  9. 第2章 评估和选择数据管理解决方案
    1. 2.1 开源项目的阶段
      1. 2.1.1 孵化阶段
      2. 2.1.2 发布阶段
      3. 2.1.3 “治愈癌症”阶段
      4. 2.1.4 打破承诺阶段
      5. 2.1.5 强化阶段
      6. 2.1.6 企业阶段
      7. 2.1.7 终结阶段
    2. 2.2 开源项目的常见生命周期
      1. 2.2.1 使产品起死回生
      2. 2.2.2 追随者
    3. 2.3 评估基准测试
    4. 2.4 技术选型的考虑因素
      1. 2.4.1 了解构建块
      2. 2.4.2 寻求建议
      3. 2.4.3 从分析师那里获得见解
      4. 2.4.4 研究市场趋势
    5. 2.5 小结
  10. 第3章 数据项目的风险管理
    1. 3.1 风险类型
      1. 3.1.1 技术风险
      2. 3.1.2 团队风险
      3. 3.1.3 需求风险
    2. 3.2 风险管理
      1. 3.2.1 对架构中的风险进行分类
      2. 3.2.2 技术风险
      3. 3.2.3 团队的优势
      4. 3.2.4 外部团队风险
      5. 3.2.5 需求风险
      6. 3.2.6 融会贯通
    3. 3.3 使用原型和PoC
      1. 3.3.1 找到两三种方法
      2. 3.3.2 进行PoC,然后丢弃
      3. 3.3.3 部署的注意事项
    4. 3.4 使用接口
    5. 3.5 尽早开始构建
    6. 3.6 频繁测试并保留记录
    7. 3.7 监控和警报
    8. 3.8 沟通风险
      1. 3.8.1 合作并获得信任
      2. 3.8.2 公开风险
    9. 3.9 将风险作为谈判工具
    10. 3.10 小结
  11. 第4章 接口设计
    1. 4.1 人体
      1. 4.1.1 人体与数据架构
      2. 4.1.2 解耦
      3. 4.1.3 解耦的注意事项
      4. 4.1.4 专门化
    2. 4.2 什么造就了好的接口设计
      1. 4.2.1 合约
      2. 4.2.2 抽象
      3. 4.2.3 版本控制
      4. 4.2.4 防御
      5. 4.2.5 接口的文档和命名
    3. 4.3 非功能性考虑因素
      1. 4.3.1 可用性
      2. 4.3.2 响应时间
      3. 4.3.3 负载容量
      4. 4.3.4 使用测试来确定SLA
    4. 4.4 通用接口示例
      1. 4.4.1 发布–订阅
      2. 4.4.2 异步请求–响应
      3. 4.4.3 同步请求–响应
    5. 4.5 小结
  12. 第5章 分布式存储系统
    1. 5.1 分布式存储系统的属性
      1. 5.1.1 谱系
      2. 5.1.2 分区
      3. 5.1.3 处理数据变更
      4. 5.1.4 读取路径
      5. 5.1.5 可用性与一致性
      6. 5.1.6 主要用例
    2. 5.2 存储系统细分
      1. 5.2.1 HDFS
      2. 5.2.2 S3和对象存储系统
      3. 5.2.3 Apache HBase
      4. 5.2.4 Apache Cassandra
      5. 5.2.5 Elasticsearch和Apache Solr
      6. 5.2.6 新进者:Apache Kudu和CockroachDB
      7. 5.2.7 内存存储系统
    3. 5.3 小结
  13. 第6章 企业元数据
    1. 6.1 为什么要关注元数据
      1. 6.1.1 数据可见性
      2. 6.1.2 数据之间的关系
      3. 6.1.3 数据监管
    2. 6.2 数据架构中的元数据类型
      1. 6.2.1 静态数据
      2. 6.2.2 动态数据
      3. 6.2.3 数据源的元数据
      4. 6.2.4 有关数据处理的元数据
      5. 6.2.5 报告和仪表盘
    3. 6.3 元数据收集
      1. 6.3.1 声明式元数据收集
      2. 6.3.2 发现式元数据收集
    4. 6.4 元数据管理实践
    5. 6.5 小结
  14. 第7章 确保数据完整性
    1. 7.1 构建数据管道
      1. 预定义数据管道
    2. 7.2 验证数据管道
      1. 7.2.1 行数
      2. 7.2.2 唯一计数
      3. 7.2.3 全字节比较
      4. 7.2.4 校验和比较
    3. 7.3 小结
  15. 第8章 数据处理
    1. 8.1 处理引擎的属性
      1. 8.1.1 DAG管理
      2. 8.1.2 计算隔离
      3. 8.1.3 性能
      4. 8.1.4 容错
      5. 8.1.5 交互模型
      6. 8.1.6 批处理和流处理
    2. 8.2 数据处理演变史
    3. 8.3 小结
  16. 关于作者
  17. 关于封面

Product information

  • Title: 大数据项目管理:从规划到实现
  • Author(s): Ted Malaska, Jonathan Seidman
  • Release date: January 2020
  • Publisher(s): Posts & Telecom Press
  • ISBN: 9787115457363

You might also like

book

Go程序设计语言

by 艾伦A. A.多诺万, 布莱恩W. 柯尼汉

本书由《C程序设计语言》的作者Kernighan和谷歌公司Go团队主管Alan Donovan联袂撰写,是学习Go语言程序设计的权威指南。本书共13章,主要内容包括:Go的基础知识、基本结构、基本数据类型、复合数据类型、函数、方法、接口、goroutine、通道、共享变量的并发性、包、go工具、测试、反射等。

book

金融人工智能:用Python实现AI量化交易

by Yves Hilpisch

人工智能和机器学习的广泛应用给当今的许多行业带来了根本性的变革。在金融领域,人工智能技术也已锋芒初露。通过阅读本书,你将了解如何利用神经网络和强化学习等方法,对金融市场的走势做出预测。 作者伊夫·希尔皮斯科博士基于多年开发、回测和部署人工智能算法交易策略的实战经验,展示了将人工智能算法应用于金融场景的实用方法。本书包含大量Python示例,有助于你边学边练,轻松复现书中的所有结果。 学习人工智能的主要概念和算法,并了解通用人工智能和超级智能 理解机器学习和数据驱动的金融学将如何改变金融理论和实践 运用神经网络和强化学习等方法,发掘金融市场的统计失效现象 学习向量化回测和算法交易,并掌握人工智能算法交易策略的执行与部署 展望金融人工智能的未来,涉及基于人工智能的竞争和金融奇点

book

精實企業|高績效組織如何達成創新規模化

by Jez Humble, Joanne Molesky, Barry O'Reilly

『…對於組織要如何規劃、安排、落實與衡量工作,本書注定是這個領域中經典而且權威的參考…任何企業領導者,只要是關注透過技術創造競爭優勢與建立創新文化的人,都需要閱讀本書。』 — Gene Kim 《The Phoenix Project: A Novel About IT, DevOps, and Helping Your Business …

book

数据科学中的实用统计学(第2版)

by Peter Bruce, Andrew Bruce, Peter Gedeck

统计方法是数据科学的重要组成部分,但鲜有数据科学从业人员接受过正规的统计学教育或培训,而关于统计学基础的课程和教材又很少从数据科学的角度讲解。本书以通俗易懂、分门别类的方式,专门从数据科学的角度系统地阐释重要且实用的统计学概念,侧重于介绍如何将各种统计方法应用于数据科学。 Python和R都是数据科学从业人员常用的语言。与第1版相比,本书第2版新增了更多Python示例。你将能够更全面地了解如何在数据科学项目中正确运用各种统计方法,系统梳理数据科学中的核心统计学概念,透彻理解哪些统计学概念重要、哪些不那么重要,以及为什么是这样。此外,本书还可以帮助你充分准备好应对数据科学面试。 通过本书,你将掌握以下知识。 为什么探索性数据分析是开启数据科学任务的关键一步 随机抽样如何降低偏差并提高数据集的质量 实验设计原则如何针对问题生成确定性答案 如何使用回归方法估计结果并检测异常 用于预测记录所属类别的主要分类方法 从数据中“学习”的统计机器学习方法 从未标记的数据中提取信息的无监督学习方法