
基于
K
均值聚类的网络流量异常检测
|
87
kaggle.com/
)类似。
1999
年
KDD Cup
竞赛的主题是网络入侵(
http://www.kdd.org/kdd-
cup/view/kdd-cup-1999/Tasks
),今天我们仍然可以拿到当时的数据集(
http://kdd.ics.uci.edu/
databases/kddcup99/kddcup99.html
)。本章将基于
KDD Cup 1999
数据集,利用
Spark
构造
一个网络流量异常检测系统。
请切记不要基于
KDD Cup 1999
数据集建立生产系统!该数据集并不一定反
映当时网络流量的真实情况,而且即便如此,它反映的网络流量规律也是
17
年前的了。
幸运的是,举办方已经对原始网络流量包进行了加工,数据转换成了每个网络连接的统计信
息。数据集大小约为
708 MB
,包含
490
万个连接。数据量比较大但也不算特别大,刚好满
足本章论述的需要。数据集中每个连接的信息包括发送的字节数、登录次数、
TCP
错误数
等。数据集为
CSV
格式,每个连接占一行,包含
38
个特征,下面是其中一个连接的样例:
0,tcp,http,SF,215,45076,
0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,
0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00,
0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.
以上代表一个
TCP
连接,它访问
HTTP
服务,发送了数据 ...