付録A練習問題の解答

A.1 1章 情報セキュリティエンジニアのための機械学習入門

この章に練習問題はない。

A.2 2章 フィッシングサイトと迷惑メールの検出

この章の練習問題のサンプルコードは以下から入手できる。

https://github.com/oreilly-japan/ml-security-jp/blob/master/ch02/Chapter2_Practice.ipynb

!wget http://www.aueb.gr/users/ion/data/lingspam_public.tar.gz
!tar -zxf ./lingspam_public.tar.gz
  • 2-2解凍先のディレクトリ/lingspam_public/bare/配下にはpart?というサブディレクトリが10個存在している。このサブディレクトリ内に存在する、ファイル名がspmsga*.txtのファイルは迷惑メールである。その他のファイルはすべて正当なメールである。個々のファイルを読み込み、本文データをコピーしたリストと、迷惑メールか、そうでないかのラベルのリストを作成しなさい。
import os
import glob
import pandas as pd

path = "./lingspam_public/bare/"

text = []
label = []

# part?ディレクトリ配下にあるメールデータを読み込み、
# 迷惑メールとそうでないものを分別してラベルを追加
for part in 

Get セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.