Bad Data 技術手冊

Book description

什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。

從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。

本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算表轉換為可被使用的表格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機制
.使用NLP工具來揭露線上評論的真實情緒
.提出可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用系統性的方法來分析資料品質

 

Table of contents

  1. 書名頁
  2. 版權頁
  3. 目錄 (1/2)
  4. 目錄 (2/2)
  5. 關於作者
  6. 前言
  7. 第一章
  8. 第二章
  9. 瞭解資料結構
  10. 驗證欄位
  11. 驗證值
  12. 簡單的統計物理意義
  13. 視覺化
  14. 關鍵字PPC範例
  15. 搜尋參照範例
  16. 推薦分析
  17. 時間序列資料
  18. 結論
  19. 第三章
  20. 資料
  21. 問題:給人類使用的資料格式
  22. 資料的排列
  23. 分散在多個檔案的資料
  24. 答案:撰寫程式
  25. 從不好使用的格式中讀取資料
  26. 讀取跨數個檔案的資料 (1/2)
  27. 讀取跨數個檔案的資料 (2/2)
  28. 後記
  29. 其他格式
  30. 總結
  31. 第四章
  32. 純文字是用什麼編碼?
  33. 猜測文字編碼
  34. 正規化文字
  35. 問題:應用程式限定的字元洩漏至純文字檔案中
  36. 使用Python處理文字
  37. 習題
  38. 第五章
  39. 你能夠取得那個嗎?
  40. 一般工作流程範例
  41. robots.txt
  42. 辨識資料組成模式
  43. 儲存語法分析用的離線版本
  44. 從頁面抽取出資訊
  45. 真實狀況的困難
  46. 可以的話就下載原始內容
  47. 表單、對話框以及新視窗
  48. Flash
  49. 黑暗面
  50. 結論
  51. 第六章
  52. Weotta
  53. 取得評論
  54. 情緒分類
  55. 極端化的語言
  56. 建立語料庫
  57. 訓練分類器
  58. 驗證分類器
  59. 設計資料
  60. 學習到的事
  61. 總結
  62. 資源
  63. 第七章
  64. 範例1:製造業減少毀損
  65. 範例2:誰打來?
  66. 範例3:當「典型」不代表「平均」時
  67. 學習到的事
  68. 我需要這樣做嗎?
  69. 第八章
  70. 超宅的身體交換喜劇
  71. 化學家如何湊齊數據
  72. 你所有的資料庫都是屬於我們的
  73. 請確認
  74. 活得快,死得早,並且留下一個好看的原始碼容器屍體
  75. 化學家(以及其他濫用電子試算表的人)的勒戒所
  76. 太長了,直接end
  77. 第九章
  78. 是誰的股票?
  79. 分割,股息與價格重新計算
  80. 壞的現實
  81. 結論
  82. 第十章
  83. 推估偏頗:一般問題
  84. 回報錯誤:一般問題
  85. 偏頗的其他來源
  86. 超過上限/超過下限
  87. 接縫偏頗
  88. 代理回答
  89. 樣本選擇
  90. 結論
  91. 參照
  92. 第十一章
  93. 但首先,讓我們回想一下研究所…
  94. 前往專業世界
  95. 移到政府工作
  96. 政府資料是非常真實的
  97. 以服務電話資料當成套用的範例
  98. 向前邁進
  99. 學習到的東西與向前看
  100. 第十二章
  101. 歷史
  102. 建構我的工具組
  103. 路障:我的資料儲存
  104. 將檔案視為你的資料儲存
  105. 檔案很簡單!
  106. 檔案可以用在任何事物上
  107. 檔案能夠包含任意的資料型態
  108. 資料損毀是本地的
  109. 它們擁有很好的工具
  110. 不用安裝
  111. 檔案的概念
  112. 編碼
  113. 文字檔案
  114. 二進位資料
  115. 記憶體對應的檔案
  116. 檔案格式
  117. 分隔字元
  118. 以檔案為後端的網站框架
  119. 動機
  120. 實作
  121. 一些想法
  122. 第十三章
  123. 臥庫表,藏網路
  124. 關聯式成本分攤模型
  125. 組合爆炸的纖細聲音…
  126. 浮現隱藏網路
  127. 儲存圖形
  128. 使用Gremlin來瀏覽圖形
  129. 在網路性質中尋找值
  130. 以多資料模型的角度來思考,並且使用對的工具
  131. 致謝
  132. 第十四章
  133. 雲端簡介
  134. 「雲端」是什麼?
  135. 雲端以及巨量資料
  136. Fred的簡介
  137. 一開始一切都很好
  138. 他們將100%的基礎設施放入雲端
  139. 開始成長,剛開始很容易擴充
  140. 然後開始有些問題
  141. 他們需要增加效能
  142. 較高的IO變成重要的事
  143. 主要的區域停電造成很長的停機時間
  144. 較高的IO是有代價的
  145. 資料量增加
  146. 遠距備援變成優先
  147. 水平擴充並不如期望般簡單
  148. 成本大幅增加
  149. Fred的傻念頭
  150. 迷思1:雲端對所有的基礎設施元件來說都是個好的解決方案
  151. 這個迷思如何跟Fred的故事產生關聯?
  152. 迷思2:雲端會為我們省錢
  153. 這個迷思如何跟Fred的故事產生關聯?
  154. 迷思3:雲端IO效能能夠藉由軟體RAID來達到可被接受的層級
  155. 這個迷思如何跟Fred的故事產生關聯?
  156. 迷思4:雲端運算讓水平擴充變得簡單
  157. 這個迷思如何跟Fred的故事產生關聯?
  158. 結論與推薦
  159. 第十五章
  160. 避免這些陷阱
  161. 對你的資料一無所知
  162. 清理與組織資料中的不一致
  163. 假設資料是正確且完整的
  164. 時間區間資料的溢出
  165. 僅提供你的資料科學家單一的工具來執行所有的任務
  166. 使用產品環境來執行專案性分析
  167. 理想的資料科學環境
  168. 只為了分析而分析
  169. 區別知識而不分享
  170. 期待資料科學家是萬能的
  171. 資料科學家在組織中的定位為何?
  172. 最終想法
  173. 第十六章
  174. 要如何餵養以及照護你的機器學習專家
  175. 定義問題
  176. 在完成前先造假
  177. 建立一個訓練集合
  178. 選擇特徵值
  179. 將資料編碼
  180. 拆成訓練集合、測試集合以及答案集合
  181. 描述問題
  182. 回應問題
  183. 整合解決方案
  184. 結論
  185. 第十七章
  186. 為什麼?
  187. 個人經驗
  188. 快照(Snapshotting)
  189. 儲存來源
  190. 來源權重
  191. 捨棄資料
  192. 隔開每個階段(並且保持單純)
  193. 辨識根本原因
  194. 找出改進的區域
  195. 不變性:從函數程式語言借用概念
  196. 範例
  197. 爬蟲
  198. 變更
  199. 群聚
  200. 人氣
  201. 結論
  202. 第十八章
  203. 社群媒體:可抹除式墨水?
  204. 社群媒體:這到底是誰的資料?
  205. 控制
  206. 商業重新組織
  207. 對溝通與表達的期望
  208. 新終端使用者期望的技術性蘊涵
  209. 產業做了什麼?
  210. 驗證API
  211. 更新通知API
  212. 終端使用者應該要做什麼?
  213. 我們要如何一起工作?
  214. 第十九章
  215. 框架簡介:資料品質分析的4C
  216. 完整(Complete)
  217. 前後連貫(Coherent)
  218. 正確(Correct)
  219. 負責任(aCcountable)
  220. 結論
  221. 索引 (1/2)
  222. 索引 (2/2)
  223. 關於作者
  224. 出版記事

Product information

  • Title: Bad Data 技術手冊
  • Author(s): Q. Ethan McCallum
  • Release date: September 2013
  • Publisher(s): GoTop Information, Inc.
  • ISBN: None

You might also like

book

ADOBE® FLEX® 3: ADVANCED DATA VISUALIZATION DEVELOPER GUIDE

by Adobe Systems

Describes how to use Advanced DataGrid, OLAP DataGrid, Advanced charting, and automation agents.

book

RxJava反应式编程

by Tomasz Nurkiewicz, Ben Christensen

如今,移动App驱动着我们的生活,程序的异步性和响应式至关重要。反应式编程技术能够帮助我们编写易于扩展、性能良好且可靠性强的代码。在这本注重实战的图书中,Java开发人员首先将会学习如何以反应式的方式看待问题,然后再借助这一令人兴奋的编程范式的优秀特性构建程序。 本书包含了一些使用RxJava的具体样例,用来解决Android设备和服务器端的实际性能问题。你将会学到RxJava如何借助并行和并发解决当前的问题。本书还特别收录了2.0版本的基本情况。 编写对多个异步源输入进行响应的程序,避免陷入“回调地狱” 理解如何以反应式的方式解决问题 处理Observable生产数据太快的问题 探索调试和测试反应式程序的策略 在程序中高效利用并行和并发 学习如何迁移至RxJava 2.0版本

book

DB2® SQL PL: Essential Guide for DB2® UDB on Linux™, UNIX®, Windows®, i5/OS™, and z/OS®, Second Edition

by Zamil Janmohamed, Clara Liu, Drew Bradstock, Raul Chong, Michael Gao, Fraser McArthur, Paul Yip

IBM's definitive guide to writing DB2 SQL PL stored procedures, triggers, UDFs, and dynamic compound SQL …

book

Java性能优化实践:JVM调优策略、工具与技巧

by Benjamin J. Evans, James Gough, Chris Newland

在当前的互联网开发模式下,系统访问量日增、代码臃肿,各种性能问题纷至沓来。性能优化作为一个常谈常新的话题,受到越来越多开发者的关注。而Java是一门使用广泛的语言,社区生态中积攒了大量宝贵的性能优化经验。 作为一本性能调优方面的实用指南,本书从实验科学的角度将JVM调优的技术原理与方法论相结合,并在此基础上提供了可选择的工具。通过对各方面的深入研究,本书能让使用复杂技术栈的中高级Java技术专家以量化和可验证的方法优化Java应用程序性能。 了解Java的原则和技术如何充分利用现代硬件和操作系统 探究一些性能测试以及困扰团队的常见反模式 理解测量Java性能数据的陷阱以及微基准测试的缺点 深入研究JVM垃圾收集日志、监控、调优和工具 探究JIT编译和Java语言性能技术 学习Java集合类API与性能有关的方面,从整体上理解Java并发