5章データセットの作成
本章は日本語版オリジナルの記事である。これまで既存のデータセットを使用することで、さまざまな情報セキュリティ領域に役立つ分類器などを開発する手法について紹介してきた。一方で、ある仮説を立証するためにデータセットが必要な場合は、その仮説に応じたデータセットを1から作り上げる必要がある。ほかにも、企業の中にだけに存在するデータを機械学習を使用して解決したり、その組織固有の問題を解決するならば、そうしたデータをデータセットに仕立て上げなくてはならない。そこで、本章ではデータセットの作成方法について紹介していく。本章で紹介する内容は次のとおりである。
- サイバー脅威インテリジェンスとその自動化
- Twitterのスクレイピング
- PigeonXTを使ったラベリング
5.1 サイバー脅威インテリジェンスとは
サイバー脅威インテリジェンス(Cyber Threat Intelligence)とは、一般にサイバー空間における有害事象を緩和する目的のために役立つ、脅威自体、あるいは脅威行為者(Attribution)に関する情報を指す。今般、こうしたサイバー脅威インテリジェンスをサービスとして提供している組織や企業が存在している。企業などはこれらのサイバー脅威インテリジェンスサービスを購入することで情報を入手し、情報セキュリティ対策に役立てられるようになっている。それらの情報の、より具体的な内容はたとえば次のようなものだ。
- 脆弱性に関する情報。CVSS(Common Vulnerability Scoring System)や脆弱性の悪用を可能にするPoC(Proof-of-Concept)コードを含むツール
- IoC(Indicators of Compromise)情報。特定の攻撃者の使用していたIPアドレスやマルウェアのファイル名・ハッシュ値、通信先URLなど ...
Get セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.