付録A練習問題の解答
A.1 1章 情報セキュリティエンジニアのための機械学習入門
この章に練習問題はない。
A.2 2章 フィッシングサイトと迷惑メールの検出
この章の練習問題のサンプルコードは以下から入手できる。
https://github.com/oreilly-japan/ml-security-jp/blob/master/ch02/Chapter2_Practice.ipynb
- 2-1データセットをhttp://www.aueb.gr/users/ion/data/lingspam_public.tar.gzからダウンロードして解凍しなさい。
!
wget
http
:
//
www
.
aueb
.
gr
/
users
/
ion
/
data
/
lingspam_public
.
tar
.
gz
!
tar
-
zxf
./
lingspam_public
.
tar
.
gz
- 2-2解凍先のディレクトリ
/lingspam_public/bare/
配下にはpart?
というサブディレクトリが10個存在している。このサブディレクトリ内に存在する、ファイル名がspmsga*.txt
のファイルは迷惑メールである。その他のファイルはすべて正当なメールである。個々のファイルを読み込み、本文データをコピーしたリストと、迷惑メールか、そうでないかのラベルのリストを作成しなさい。
import
os
import
glob
import
pandas
as
pd
path
=
"./lingspam_public/bare/"
text
=
[]
label
=
[]
# part?ディレクトリ配下にあるメールデータを読み込み、
# 迷惑メールとそうでないものを分別してラベルを追加
for
part
in
Get セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.