Bad Data 技術手冊

Book description

什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。

從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。

本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算表轉換為可被使用的表格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機制
.使用NLP工具來揭露線上評論的真實情緒
.提出可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用系統性的方法來分析資料品質

 

Table of contents

  1. 書名頁
  2. 版權頁
  3. 目錄 (1/2)
  4. 目錄 (2/2)
  5. 關於作者
  6. 前言
  7. 第一章
  8. 第二章
  9. 瞭解資料結構
  10. 驗證欄位
  11. 驗證值
  12. 簡單的統計物理意義
  13. 視覺化
  14. 關鍵字PPC範例
  15. 搜尋參照範例
  16. 推薦分析
  17. 時間序列資料
  18. 結論
  19. 第三章
  20. 資料
  21. 問題:給人類使用的資料格式
  22. 資料的排列
  23. 分散在多個檔案的資料
  24. 答案:撰寫程式
  25. 從不好使用的格式中讀取資料
  26. 讀取跨數個檔案的資料 (1/2)
  27. 讀取跨數個檔案的資料 (2/2)
  28. 後記
  29. 其他格式
  30. 總結
  31. 第四章
  32. 純文字是用什麼編碼?
  33. 猜測文字編碼
  34. 正規化文字
  35. 問題:應用程式限定的字元洩漏至純文字檔案中
  36. 使用Python處理文字
  37. 習題
  38. 第五章
  39. 你能夠取得那個嗎?
  40. 一般工作流程範例
  41. robots.txt
  42. 辨識資料組成模式
  43. 儲存語法分析用的離線版本
  44. 從頁面抽取出資訊
  45. 真實狀況的困難
  46. 可以的話就下載原始內容
  47. 表單、對話框以及新視窗
  48. Flash
  49. 黑暗面
  50. 結論
  51. 第六章
  52. Weotta
  53. 取得評論
  54. 情緒分類
  55. 極端化的語言
  56. 建立語料庫
  57. 訓練分類器
  58. 驗證分類器
  59. 設計資料
  60. 學習到的事
  61. 總結
  62. 資源
  63. 第七章
  64. 範例1:製造業減少毀損
  65. 範例2:誰打來?
  66. 範例3:當「典型」不代表「平均」時
  67. 學習到的事
  68. 我需要這樣做嗎?
  69. 第八章
  70. 超宅的身體交換喜劇
  71. 化學家如何湊齊數據
  72. 你所有的資料庫都是屬於我們的
  73. 請確認
  74. 活得快,死得早,並且留下一個好看的原始碼容器屍體
  75. 化學家(以及其他濫用電子試算表的人)的勒戒所
  76. 太長了,直接end
  77. 第九章
  78. 是誰的股票?
  79. 分割,股息與價格重新計算
  80. 壞的現實
  81. 結論
  82. 第十章
  83. 推估偏頗:一般問題
  84. 回報錯誤:一般問題
  85. 偏頗的其他來源
  86. 超過上限/超過下限
  87. 接縫偏頗
  88. 代理回答
  89. 樣本選擇
  90. 結論
  91. 參照
  92. 第十一章
  93. 但首先,讓我們回想一下研究所…
  94. 前往專業世界
  95. 移到政府工作
  96. 政府資料是非常真實的
  97. 以服務電話資料當成套用的範例
  98. 向前邁進
  99. 學習到的東西與向前看
  100. 第十二章
  101. 歷史
  102. 建構我的工具組
  103. 路障:我的資料儲存
  104. 將檔案視為你的資料儲存
  105. 檔案很簡單!
  106. 檔案可以用在任何事物上
  107. 檔案能夠包含任意的資料型態
  108. 資料損毀是本地的
  109. 它們擁有很好的工具
  110. 不用安裝
  111. 檔案的概念
  112. 編碼
  113. 文字檔案
  114. 二進位資料
  115. 記憶體對應的檔案
  116. 檔案格式
  117. 分隔字元
  118. 以檔案為後端的網站框架
  119. 動機
  120. 實作
  121. 一些想法
  122. 第十三章
  123. 臥庫表,藏網路
  124. 關聯式成本分攤模型
  125. 組合爆炸的纖細聲音…
  126. 浮現隱藏網路
  127. 儲存圖形
  128. 使用Gremlin來瀏覽圖形
  129. 在網路性質中尋找值
  130. 以多資料模型的角度來思考,並且使用對的工具
  131. 致謝
  132. 第十四章
  133. 雲端簡介
  134. 「雲端」是什麼?
  135. 雲端以及巨量資料
  136. Fred的簡介
  137. 一開始一切都很好
  138. 他們將100%的基礎設施放入雲端
  139. 開始成長,剛開始很容易擴充
  140. 然後開始有些問題
  141. 他們需要增加效能
  142. 較高的IO變成重要的事
  143. 主要的區域停電造成很長的停機時間
  144. 較高的IO是有代價的
  145. 資料量增加
  146. 遠距備援變成優先
  147. 水平擴充並不如期望般簡單
  148. 成本大幅增加
  149. Fred的傻念頭
  150. 迷思1:雲端對所有的基礎設施元件來說都是個好的解決方案
  151. 這個迷思如何跟Fred的故事產生關聯?
  152. 迷思2:雲端會為我們省錢
  153. 這個迷思如何跟Fred的故事產生關聯?
  154. 迷思3:雲端IO效能能夠藉由軟體RAID來達到可被接受的層級
  155. 這個迷思如何跟Fred的故事產生關聯?
  156. 迷思4:雲端運算讓水平擴充變得簡單
  157. 這個迷思如何跟Fred的故事產生關聯?
  158. 結論與推薦
  159. 第十五章
  160. 避免這些陷阱
  161. 對你的資料一無所知
  162. 清理與組織資料中的不一致
  163. 假設資料是正確且完整的
  164. 時間區間資料的溢出
  165. 僅提供你的資料科學家單一的工具來執行所有的任務
  166. 使用產品環境來執行專案性分析
  167. 理想的資料科學環境
  168. 只為了分析而分析
  169. 區別知識而不分享
  170. 期待資料科學家是萬能的
  171. 資料科學家在組織中的定位為何?
  172. 最終想法
  173. 第十六章
  174. 要如何餵養以及照護你的機器學習專家
  175. 定義問題
  176. 在完成前先造假
  177. 建立一個訓練集合
  178. 選擇特徵值
  179. 將資料編碼
  180. 拆成訓練集合、測試集合以及答案集合
  181. 描述問題
  182. 回應問題
  183. 整合解決方案
  184. 結論
  185. 第十七章
  186. 為什麼?
  187. 個人經驗
  188. 快照(Snapshotting)
  189. 儲存來源
  190. 來源權重
  191. 捨棄資料
  192. 隔開每個階段(並且保持單純)
  193. 辨識根本原因
  194. 找出改進的區域
  195. 不變性:從函數程式語言借用概念
  196. 範例
  197. 爬蟲
  198. 變更
  199. 群聚
  200. 人氣
  201. 結論
  202. 第十八章
  203. 社群媒體:可抹除式墨水?
  204. 社群媒體:這到底是誰的資料?
  205. 控制
  206. 商業重新組織
  207. 對溝通與表達的期望
  208. 新終端使用者期望的技術性蘊涵
  209. 產業做了什麼?
  210. 驗證API
  211. 更新通知API
  212. 終端使用者應該要做什麼?
  213. 我們要如何一起工作?
  214. 第十九章
  215. 框架簡介:資料品質分析的4C
  216. 完整(Complete)
  217. 前後連貫(Coherent)
  218. 正確(Correct)
  219. 負責任(aCcountable)
  220. 結論
  221. 索引 (1/2)
  222. 索引 (2/2)
  223. 關於作者
  224. 出版記事

Product information

  • Title: Bad Data 技術手冊
  • Author(s): Q. Ethan McCallum
  • Release date: September 2013
  • Publisher(s): GoTop Information, Inc.
  • ISBN: None