Book description
什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不只如此。資料專家Q. Ethan McCallum邀請了資料領域中,具有不同身分,包含公司執行長、政府官員、科學家、大學教授、程式設計師的19位專家,分享他們處理壞資料問題的方法與心得。
從有問題的儲存、貧乏的表述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。
本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算表轉換為可被使用的表格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機制
.使用NLP工具來揭露線上評論的真實情緒
.提出可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用系統性的方法來分析資料品質
Table of contents
- 書名頁
- 版權頁
- 目錄 (1/2)
- 目錄 (2/2)
- 關於作者
- 前言
- 第一章
- 第二章
- 瞭解資料結構
- 驗證欄位
- 驗證值
- 簡單的統計物理意義
- 視覺化
- 關鍵字PPC範例
- 搜尋參照範例
- 推薦分析
- 時間序列資料
- 結論
- 第三章
- 資料
- 問題:給人類使用的資料格式
- 資料的排列
- 分散在多個檔案的資料
- 答案:撰寫程式
- 從不好使用的格式中讀取資料
- 讀取跨數個檔案的資料 (1/2)
- 讀取跨數個檔案的資料 (2/2)
- 後記
- 其他格式
- 總結
- 第四章
- 純文字是用什麼編碼?
- 猜測文字編碼
- 正規化文字
- 問題:應用程式限定的字元洩漏至純文字檔案中
- 使用Python處理文字
- 習題
- 第五章
- 你能夠取得那個嗎?
- 一般工作流程範例
- robots.txt
- 辨識資料組成模式
- 儲存語法分析用的離線版本
- 從頁面抽取出資訊
- 真實狀況的困難
- 可以的話就下載原始內容
- 表單、對話框以及新視窗
- Flash
- 黑暗面
- 結論
- 第六章
- Weotta
- 取得評論
- 情緒分類
- 極端化的語言
- 建立語料庫
- 訓練分類器
- 驗證分類器
- 設計資料
- 學習到的事
- 總結
- 資源
- 第七章
- 範例1:製造業減少毀損
- 範例2:誰打來?
- 範例3:當「典型」不代表「平均」時
- 學習到的事
- 我需要這樣做嗎?
- 第八章
- 超宅的身體交換喜劇
- 化學家如何湊齊數據
- 你所有的資料庫都是屬於我們的
- 請確認
- 活得快,死得早,並且留下一個好看的原始碼容器屍體
- 化學家(以及其他濫用電子試算表的人)的勒戒所
- 太長了,直接end
- 第九章
- 是誰的股票?
- 分割,股息與價格重新計算
- 壞的現實
- 結論
- 第十章
- 推估偏頗:一般問題
- 回報錯誤:一般問題
- 偏頗的其他來源
- 超過上限/超過下限
- 接縫偏頗
- 代理回答
- 樣本選擇
- 結論
- 參照
- 第十一章
- 但首先,讓我們回想一下研究所…
- 前往專業世界
- 移到政府工作
- 政府資料是非常真實的
- 以服務電話資料當成套用的範例
- 向前邁進
- 學習到的東西與向前看
- 第十二章
- 歷史
- 建構我的工具組
- 路障:我的資料儲存
- 將檔案視為你的資料儲存
- 檔案很簡單!
- 檔案可以用在任何事物上
- 檔案能夠包含任意的資料型態
- 資料損毀是本地的
- 它們擁有很好的工具
- 不用安裝
- 檔案的概念
- 編碼
- 文字檔案
- 二進位資料
- 記憶體對應的檔案
- 檔案格式
- 分隔字元
- 以檔案為後端的網站框架
- 動機
- 實作
- 一些想法
- 第十三章
- 臥庫表,藏網路
- 關聯式成本分攤模型
- 組合爆炸的纖細聲音…
- 浮現隱藏網路
- 儲存圖形
- 使用Gremlin來瀏覽圖形
- 在網路性質中尋找值
- 以多資料模型的角度來思考,並且使用對的工具
- 致謝
- 第十四章
- 雲端簡介
- 「雲端」是什麼?
- 雲端以及巨量資料
- Fred的簡介
- 一開始一切都很好
- 他們將100%的基礎設施放入雲端
- 開始成長,剛開始很容易擴充
- 然後開始有些問題
- 他們需要增加效能
- 較高的IO變成重要的事
- 主要的區域停電造成很長的停機時間
- 較高的IO是有代價的
- 資料量增加
- 遠距備援變成優先
- 水平擴充並不如期望般簡單
- 成本大幅增加
- Fred的傻念頭
- 迷思1:雲端對所有的基礎設施元件來說都是個好的解決方案
- 這個迷思如何跟Fred的故事產生關聯?
- 迷思2:雲端會為我們省錢
- 這個迷思如何跟Fred的故事產生關聯?
- 迷思3:雲端IO效能能夠藉由軟體RAID來達到可被接受的層級
- 這個迷思如何跟Fred的故事產生關聯?
- 迷思4:雲端運算讓水平擴充變得簡單
- 這個迷思如何跟Fred的故事產生關聯?
- 結論與推薦
- 第十五章
- 避免這些陷阱
- 對你的資料一無所知
- 清理與組織資料中的不一致
- 假設資料是正確且完整的
- 時間區間資料的溢出
- 僅提供你的資料科學家單一的工具來執行所有的任務
- 使用產品環境來執行專案性分析
- 理想的資料科學環境
- 只為了分析而分析
- 區別知識而不分享
- 期待資料科學家是萬能的
- 資料科學家在組織中的定位為何?
- 最終想法
- 第十六章
- 要如何餵養以及照護你的機器學習專家
- 定義問題
- 在完成前先造假
- 建立一個訓練集合
- 選擇特徵值
- 將資料編碼
- 拆成訓練集合、測試集合以及答案集合
- 描述問題
- 回應問題
- 整合解決方案
- 結論
- 第十七章
- 為什麼?
- 個人經驗
- 快照(Snapshotting)
- 儲存來源
- 來源權重
- 捨棄資料
- 隔開每個階段(並且保持單純)
- 辨識根本原因
- 找出改進的區域
- 不變性:從函數程式語言借用概念
- 範例
- 爬蟲
- 變更
- 群聚
- 人氣
- 結論
- 第十八章
- 社群媒體:可抹除式墨水?
- 社群媒體:這到底是誰的資料?
- 控制
- 商業重新組織
- 對溝通與表達的期望
- 新終端使用者期望的技術性蘊涵
- 產業做了什麼?
- 驗證API
- 更新通知API
- 終端使用者應該要做什麼?
- 我們要如何一起工作?
- 第十九章
- 框架簡介:資料品質分析的4C
- 完整(Complete)
- 前後連貫(Coherent)
- 正確(Correct)
- 負責任(aCcountable)
- 結論
- 索引 (1/2)
- 索引 (2/2)
- 關於作者
- 出版記事
Product information
- Title: Bad Data 技術手冊
- Author(s):
- Release date: September 2013
- Publisher(s): GoTop Information, Inc.
- ISBN: None
You might also like
audiobook
Nudge (Revised Edition)
Every day, we make decisions on topics ranging from personal investments to schools for our children …
audiobook
Algorithms
Digital technology runs on algorithms, sets of instructions that describe how to do something efficiently. Application …
audiobook
Fall in Love with the Problem, Not the Solution
Unicorns-companies that reach a valuation of more than $1 billion-are rare. Uri Levine has built two. …
book
Designing Data-Intensive Applications
Data is at the center of many challenges in system design today. Difficult issues need to …