機器學習駭客秘笈

Book description

「本書提供許多絕佳的機器學習實用案例。有別於工具書或理論證明,本書著重於實際問題處理,因此具備程式設計背景及對機器學習有興趣的讀者們均可輕鬆入門。」
- Max Shron, OkCupid

如果你是平時喜歡上網蒐集各種資料的程式設計師,想尋找並學習資料分析的方法與工具,本書將會是您了解機器學習最好的起點。在Machine Learning領域中,包含各種分析問題的工具與方法,可以讓我們很方便地架構出一套自動分析資料系統,使電腦可以自動分析。不過這些方法的背後,通常都蘊含著艱澀、難懂的數學理論,因而提高了學習門檻。有鑑於此,本書作者Drew Conway和John Myles準備了許多實用案例。在本書中,他們將以生動活潑的方式,使用案例導向方式,透過生活實例,帶領我們一起學習這些Machine Learning工具和統計工具的實際應用。經由這些過程學習機器學習領域的核心與價值,而非傳統數學導向的介紹方式。

本書採用實例導向、問題導向的介紹方式,在每一個章節中,透過實際問題,介紹機器學習典型問題與解決方法。其中包含:分類問題、預測問題、最佳化問題、推薦系統建置問題...等,在書中都會一一介紹。本書所有程式均以R語言撰寫,於每個章節中將學到:如何以R語言分析資料,並撰寫簡易機器學習演算法。《機器學習駭客秘笈》本書,是專為機器學習領域的初學者所寫的,無論是商業、政府機關或學術界...等都適用。

在本書中,您將學到:
● 建立單純貝氏分類器(Naive Bayesian Classifier)對電子郵件內容進行垃圾信件判別
● 以線性回歸,預測網站的瀏覽人次
● 以最佳化技術破解簡易字母密碼
● 運用記名投票紀錄,以統計方式對美國參議員進行分類
● 以推特社群資料建立「潛在關注對象」推薦系統

 

Table of contents

  1. 封面
  2. 書名頁
  3. 英文版權頁
  4. 前言 (1/2)
  5. 前言 (2/2)
  6. 目錄
  7. 第一章 使用R語言
  8. R語言與機器學習
  9. 下載與安裝
  10. 整合開發環境與文字編輯器
  11. R語言套件載入與安裝
  12. R語言基本介紹 (1/3)
  13. R語言基本介紹 (2/3)
  14. R語言基本介紹 (3/3)
  15. R語言延伸閱讀
  16. 第二章 資料探索
  17. 資料探索與資料驗證
  18. 何謂資料?
  19. 猜測資料欄位的型態
  20. 推斷資料涵義
  21. 數值總結
  22. 平均數、中位數與眾數
  23. 分位數
  24. 標準差與變異數
  25. 視覺化資料探索 (1/4)
  26. 視覺化資料探索 (2/4)
  27. 視覺化資料探索 (3/4)
  28. 視覺化資料探索 (4/4)
  29. 視覺化呈現資料欄位關聯性 (1/3)
  30. 視覺化呈現資料欄位關聯性 (2/3)
  31. 視覺化呈現資料欄位關聯性 (3/3)
  32. 第三章 文本分類:垃圾郵件判斷
  33. 非此即彼:二分法
  34. 條件機率
  35. 嘗試撰寫貝氏垃圾郵件分類器 (1/2)
  36. 嘗試撰寫貝氏垃圾郵件分類器 (2/2)
  37. 建立分類器並測試難判別正常郵件
  38. 測試各種郵件型態
  39. 改善結果
  40. 第四章 項目排序:優先收件匣
  41. 如何在未知順序的情況下進行排序?
  42. 以優先性對電子郵件進行排序
  43. 電子郵件優先性
  44. 撰寫優先收件匣
  45. 擷取郵件屬性的指令 (1/2)
  46. 擷取郵件屬性的指令 (2/2)
  47. 設計權重計算策略以進行排序 (1/2)
  48. 設計權重計算策略以進行排序 (2/2)
  49. 以信件群組活躍度定義權重
  50. 訓練並測試郵件排序演算法 (1/2)
  51. 訓練並測試郵件排序演算法 (2/2)
  52. 第五章 回歸分析:預測網頁瀏覽人次
  53. 回歸分析簡介
  54. 模型根據
  55. 以虛變數進行回歸
  56. 淺談線性回歸 (1/2)
  57. 淺談線性回歸 (2/2)
  58. 預測網頁流量 (1/3)
  59. 預測網頁流量 (2/3)
  60. 預測網頁流量 (3/3)
  61. 定義相關性
  62. 第六章 正則化:文本回歸
  63. 欄位之間的非線性關聯性
  64. 多項式回歸簡介 (1/2)
  65. 多項式回歸簡介 (2/2)
  66. 過度擬合的避免方法
  67. 以正則化避免過度擬合
  68. 文本回歸
  69. 邏輯回歸前來解救
  70. 第七章 最佳化:破解密碼
  71. 最佳化導論
  72. 山脊型回歸(Ridge Regression)
  73. 將破解密碼視為最佳化問題 (1/3)
  74. 將破解密碼視為最佳化問題 (2/3)
  75. 將破解密碼視為最佳化問題 (3/3)
  76. 第八章 PCA:建立股價指數
  77. 非監督式學習
  78. 第九章 MDS:視覺化呈現美國參議員相似度
  79. 根據相似度進行分群(Clustering)
  80. 距離測度與MDS的簡介
  81. 美國參議員如何分群?
  82. 分析參議員唱名表決資料(第101至111屆國會) (1/2)
  83. 分析參議員唱名表決資料(第101至111屆國會) (2/2)
  84. 第十章 kNN:推薦系統
  85. 最近相鄰演算法(k-Nearest Neighbors Algorithm)
  86. R套件安裝資料
  87. 第十一章 分析社群關係圖
  88. 社群網路分析
  89. 圖式思考
  90. 駭入Twitter社群資料
  91. 使用Google SocialGraph API
  92. Twitter網路圖分析
  93. 區域社群結構
  94. 使用Gephi對Twitter網路圖的分群結果繪圖 (1/2)
  95. 使用Gephi對Twitter網路圖的分群結果繪圖 (2/2)
  96. 建立「可能想關注的對象」推薦系統 (1/2)
  97. 建立「可能想關注的對象」推薦系統 (2/2)
  98. 第十二章 模型比較
  99. SVM:支援向量機
  100. 演算法比較 (1/2)
  101. 演算法比較 (2/2)
  102. 參考文獻
  103. 索引 (1/2)
  104. 索引 (2/2)
  105. 關於作者
  106. 出版記事

Product information

  • Title: 機器學習駭客秘笈
  • Author(s): Drew Conway, John Myles White
  • Release date: May 2015
  • Publisher(s): GoTop Information, Inc.
  • ISBN: None

You might also like

book

軟體專案開發實務|別只當編程猴

by Gregory T. Brown

身為軟體開發者,編程只是工作中最簡單的那一部份。這本實務書讓您探索其他的90%,涵蓋需求評估與快速雛型開發到商業分析與可維護性的設計。開發過程中,開發者會遭遇到許多問題,作者透過詳細的範例,將這些問題呈現出來,並且分享他解決問題的思考過程。 他以特別又有趣的方式,引領您走過這趟旅程,您就是每一個章節故事的主角。隨著情勢的發展,遭遇的問題會愈發複雜,您所承擔的責任也更形沈重。整體而言,這些故事將帶您進入不斷質疑並淬鍊思考的旅程,不斷前進,完成軟體專案。 您可以在這趟獨特的旅程中體驗到: ‧透過雛型來探索專案的意旨 ‧在不斷調整的過程中,找出隱藏的相依性。 ‧找出整合服務的痛點 ‧開發出嚴謹的問題解決方法 ‧由下而上設計軟體 ‧現實世界中的資料塑模 ‧進行和緩的改良避免承諾過頭 ‧軟體開發的未來

book

精實企業|高績效組織如何達成創新規模化

by Jez Humble, Joanne Molesky, Barry O'Reilly

『…對於組織要如何規劃、安排、落實與衡量工作,本書注定是這個領域中經典而且權威的參考…任何企業領導者,只要是關注透過技術創造競爭優勢與建立創新文化的人,都需要閱讀本書。』 — Gene Kim 《The Phoenix Project: A Novel About IT, DevOps, and Helping Your Business …

book

深度學習|內行人的做法

by Josh Patterson, Adam Gibson

雖然人們對機器學習展現了高度的興趣,但過高的期望往往無法讓專案走得太遠。機器學習(尤其是深度神經網路)在您的組織中,究竟能發揮什麼樣真正的作用呢?這本實戰指南不僅提供此主題相關的最實用資訊,還可協助您開始構建高效的深度學習網路。 本書提供了許多關於深度學習調整、平行化、向量化與構建流程的基礎知識。雖然本書是引用開源Deeplearning4j(DL4J)函式庫來開發生產級工作流程,但裡頭所介紹的基礎知識,適用於任何函式庫。透過真實世界中的範例,您將學習到如何運用DL4J訓練深度網路架構,以及在Spark與Hadoop上運行深度學習工作流程的方法與策略。 .了解神經網路進化到深度網路的歷程 .探索一些主要的深度網路架構,包括卷積網路(CNN)與遞廻網路(RNN) .學習如何針對特定的問題,找出正確對應的深度網路架構 .針對一般神經網路與特定的深度網路架構,完整介紹調整相關的基礎知識 .透過DL4J的工作流程工具DataVec,把向量化技術運用到不同的資料型態上 .了解如何在Spark與Hadoop上,以原生方式使用DL4J 名人推薦 「本書涵蓋在現實世界中從事深度學習時,開發者必須知道的所有事情。」 —— Grant Ingersoll, Lucidworks首席技術長

book

初探深度學習|使用TensorFlow

by Reza Zadeh, Bharath Ramsundar

從線性迴歸到強化學習 “對想要進入深度學習這個令人興奮的領域的機器學習從業者來說,這是一本很棒的書。由於本書涵蓋廣泛的主題,當你想要進一步提升技術時,也會將它當成參考書來重新閱讀。” —Marvin Bertin Freenome機器學習研究工程師 TensorFlow是革命性的Google深度學習程式庫,本書將教你如何用它來解決具挑戰性的機器學習問題。只要你具備一些基本線性代數與微積分的背景知識,就可以在這本實用的書籍學到如何設計能夠檢查圖像物體、瞭解文字以及預測潛在藥物特性的系統,瞭解機器學習的基礎知識。 透過實際的案例傳授觀念,協助你從根本開始建立深厚的深度學習基礎知識。本書非常適合具備軟體系統設計經驗的實務開發者,或已熟悉腳本語言但不知道如何設計學習演算法的專家。 ‧學習TensorFlow的基本知識,包括如何執行基本的計算 ‧藉由建立簡單的學習系統瞭解相關數學基礎 ‧深入瞭解已被上千種app使用的全連結深度網路 ‧藉由超參數優化將原型轉換成高品質的模型 ‧用摺積神經網路處理圖像 ‧用遞迴神經網路處理神經語言資料集 ‧使用強化學習玩遊戲,例如井字遊戲 ‧用GPU與張量處理單元等硬體訓練深度網路