機器學習駭客秘笈

Book description

「本書提供許多絕佳的機器學習實用案例。有別於工具書或理論證明,本書著重於實際問題處理,因此具備程式設計背景及對機器學習有興趣的讀者們均可輕鬆入門。」
- Max Shron, OkCupid

如果你是平時喜歡上網蒐集各種資料的程式設計師,想尋找並學習資料分析的方法與工具,本書將會是您了解機器學習最好的起點。在Machine Learning領域中,包含各種分析問題的工具與方法,可以讓我們很方便地架構出一套自動分析資料系統,使電腦可以自動分析。不過這些方法的背後,通常都蘊含著艱澀、難懂的數學理論,因而提高了學習門檻。有鑑於此,本書作者Drew Conway和John Myles準備了許多實用案例。在本書中,他們將以生動活潑的方式,使用案例導向方式,透過生活實例,帶領我們一起學習這些Machine Learning工具和統計工具的實際應用。經由這些過程學習機器學習領域的核心與價值,而非傳統數學導向的介紹方式。

本書採用實例導向、問題導向的介紹方式,在每一個章節中,透過實際問題,介紹機器學習典型問題與解決方法。其中包含:分類問題、預測問題、最佳化問題、推薦系統建置問題...等,在書中都會一一介紹。本書所有程式均以R語言撰寫,於每個章節中將學到:如何以R語言分析資料,並撰寫簡易機器學習演算法。《機器學習駭客秘笈》本書,是專為機器學習領域的初學者所寫的,無論是商業、政府機關或學術界...等都適用。

在本書中,您將學到:
● 建立單純貝氏分類器(Naive Bayesian Classifier)對電子郵件內容進行垃圾信件判別
● 以線性回歸,預測網站的瀏覽人次
● 以最佳化技術破解簡易字母密碼
● 運用記名投票紀錄,以統計方式對美國參議員進行分類
● 以推特社群資料建立「潛在關注對象」推薦系統

 

Table of contents

  1. 封面
  2. 書名頁
  3. 英文版權頁
  4. 前言 (1/2)
  5. 前言 (2/2)
  6. 目錄
  7. 第一章 使用R語言
  8. R語言與機器學習
  9. 下載與安裝
  10. 整合開發環境與文字編輯器
  11. R語言套件載入與安裝
  12. R語言基本介紹 (1/3)
  13. R語言基本介紹 (2/3)
  14. R語言基本介紹 (3/3)
  15. R語言延伸閱讀
  16. 第二章 資料探索
  17. 資料探索與資料驗證
  18. 何謂資料?
  19. 猜測資料欄位的型態
  20. 推斷資料涵義
  21. 數值總結
  22. 平均數、中位數與眾數
  23. 分位數
  24. 標準差與變異數
  25. 視覺化資料探索 (1/4)
  26. 視覺化資料探索 (2/4)
  27. 視覺化資料探索 (3/4)
  28. 視覺化資料探索 (4/4)
  29. 視覺化呈現資料欄位關聯性 (1/3)
  30. 視覺化呈現資料欄位關聯性 (2/3)
  31. 視覺化呈現資料欄位關聯性 (3/3)
  32. 第三章 文本分類:垃圾郵件判斷
  33. 非此即彼:二分法
  34. 條件機率
  35. 嘗試撰寫貝氏垃圾郵件分類器 (1/2)
  36. 嘗試撰寫貝氏垃圾郵件分類器 (2/2)
  37. 建立分類器並測試難判別正常郵件
  38. 測試各種郵件型態
  39. 改善結果
  40. 第四章 項目排序:優先收件匣
  41. 如何在未知順序的情況下進行排序?
  42. 以優先性對電子郵件進行排序
  43. 電子郵件優先性
  44. 撰寫優先收件匣
  45. 擷取郵件屬性的指令 (1/2)
  46. 擷取郵件屬性的指令 (2/2)
  47. 設計權重計算策略以進行排序 (1/2)
  48. 設計權重計算策略以進行排序 (2/2)
  49. 以信件群組活躍度定義權重
  50. 訓練並測試郵件排序演算法 (1/2)
  51. 訓練並測試郵件排序演算法 (2/2)
  52. 第五章 回歸分析:預測網頁瀏覽人次
  53. 回歸分析簡介
  54. 模型根據
  55. 以虛變數進行回歸
  56. 淺談線性回歸 (1/2)
  57. 淺談線性回歸 (2/2)
  58. 預測網頁流量 (1/3)
  59. 預測網頁流量 (2/3)
  60. 預測網頁流量 (3/3)
  61. 定義相關性
  62. 第六章 正則化:文本回歸
  63. 欄位之間的非線性關聯性
  64. 多項式回歸簡介 (1/2)
  65. 多項式回歸簡介 (2/2)
  66. 過度擬合的避免方法
  67. 以正則化避免過度擬合
  68. 文本回歸
  69. 邏輯回歸前來解救
  70. 第七章 最佳化:破解密碼
  71. 最佳化導論
  72. 山脊型回歸(Ridge Regression)
  73. 將破解密碼視為最佳化問題 (1/3)
  74. 將破解密碼視為最佳化問題 (2/3)
  75. 將破解密碼視為最佳化問題 (3/3)
  76. 第八章 PCA:建立股價指數
  77. 非監督式學習
  78. 第九章 MDS:視覺化呈現美國參議員相似度
  79. 根據相似度進行分群(Clustering)
  80. 距離測度與MDS的簡介
  81. 美國參議員如何分群?
  82. 分析參議員唱名表決資料(第101至111屆國會) (1/2)
  83. 分析參議員唱名表決資料(第101至111屆國會) (2/2)
  84. 第十章 kNN:推薦系統
  85. 最近相鄰演算法(k-Nearest Neighbors Algorithm)
  86. R套件安裝資料
  87. 第十一章 分析社群關係圖
  88. 社群網路分析
  89. 圖式思考
  90. 駭入Twitter社群資料
  91. 使用Google SocialGraph API
  92. Twitter網路圖分析
  93. 區域社群結構
  94. 使用Gephi對Twitter網路圖的分群結果繪圖 (1/2)
  95. 使用Gephi對Twitter網路圖的分群結果繪圖 (2/2)
  96. 建立「可能想關注的對象」推薦系統 (1/2)
  97. 建立「可能想關注的對象」推薦系統 (2/2)
  98. 第十二章 模型比較
  99. SVM:支援向量機
  100. 演算法比較 (1/2)
  101. 演算法比較 (2/2)
  102. 參考文獻
  103. 索引 (1/2)
  104. 索引 (2/2)
  105. 關於作者
  106. 出版記事

Product information

  • Title: 機器學習駭客秘笈
  • Author(s): Drew Conway, John Myles White
  • Release date: May 2015
  • Publisher(s): GoTop Information, Inc.
  • ISBN: None