
|
1
第一章:緒論
第一章
緒論
在過去幾年中,在資料儲存、管理與處理各方面都發生了根本的轉變。企業如今需要
儲存比以前更多的資料,且來源更廣、格式也更加多元。這不單只是關於當個「資料
林鼠(
data packrat
,譯註:源於
2010
年
forbes
的文章)」,更關乎建構產品、功能與
智能以滿足想更了解這個世界的前提(這裡所指的世界包括用戶、搜尋、機器日誌或
各種與組織相關的資料)。組織正在尋找新的方法,來運用過去被認為沒有價值或太
昂貴而無法保留的資料,以便提供客戶更好的服務。採集並儲存資料是其中一半的方
程式。將資料(
data
)轉變成
資訊
(
information
)的處理過程,如今是每一個現代企
業日常營運的基礎。
然而,資料儲存與處理並不是個新的問題。過去數十年來,應用在電子商務與金融領
域的詐騙偵測、作業系統的異常偵測、廣告的人口分析以及其他應用都需要處理這些
問題。現在的情況是資料的數量(
volume
)、增加率(
velocity
)與多樣性(
variety
)
都已經改變(譯註:也就是巨量資料
Big Data
定義的
3
個
V
),而在某些情境下,更
有著戲劇化的改變。這很有道理,就像許多演算法受益於存取更多資料。以電子商務
網站該如何推薦商品給到訪者為例。您可以很簡單地針對不同的到訪者,輪替顯示可
購買的商品清單,並期待剛好顯示了他們想買的那一個。這或許不是個明智的決定,
但至少是個開始。問題是該怎麼做才能將正確的產品顯示給正確的到訪者看呢?也許
您可以基於他們過去看過哪些產品來猜測他們喜歡什麼。知道他們已擁有什麼,對於 ...