Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
基于
K
均值聚类的网络流量异常检测
87
kaggle.com/
)类似。
1999
KDD Cup
竞赛的主题是网络入侵(
http://www.kdd.org/kdd-
cup/view/kdd-cup-1999/Tasks
),今天我们仍然可以拿到当时的数据集(
http://kdd.ics.uci.edu/
databases/kddcup99/kddcup99.html
)。本章将基于
KDD Cup 1999
数据集,利用
Spark
构造
一个网络流量异常检测系统。
请切记不要基于
KDD Cup 1999
数据集建立生产系统!该数据集并不一定反
映当时网络流量的真实情况,而且即便如此,它反映的网络流量规律也是
17
年前的了。
幸运的是,举办方已经对原始网络流量包进行了加工,数据转换成了每个网络连接的统计信
息。数据集大小约为
708 MB
,包含
490
万个连接。数据量比较大但也不算特别大,刚好满
足本章论述的需要。数据集中每个连接的信息包括发送的字节数、登录次数、
TCP
错误数
等。数据集为
CSV
格式,每个连接占一行,包含
38
个特征,下面是其中一个连接的样例:
0,tcp,http,SF,215,45076,
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,
0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00,
0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.
以上代表一个
TCP
连接,它访问
HTTP
服务,发送了数据 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525