book

セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門

Name: セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門
ISBN: 9784873119076

by Chiheb Chebbi, 新井悠, 一瀬小夜, 黒米祐馬

November 2021

Beginner to intermediate

312 pages

4h 3m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

　大扉
　原書大扉
　クレジット
　献辞
　訳者まえがき
　まえがき
　1章　情報セキュリティエンジニアのための機械学習入門
　　1.1　なぜ情報セキュリティエンジニアに機械学習の知識が必要なのか　　1.2　本書のコードサンプルの実行環境　　　1.2.1　Google Colaboratory入門　　　1.2.2　GPU/TPUランタイムへの変更　　　1.2.3　OSコマンドの実行とパッケージの追加　　　1.2.4　GitHub上のサンプルコードの実行方法　　　1.2.5　Google Colaboratoryの制限事項　　1.3　機械学習によるモデル開発の進め方　　1.4　まとめ　　1.5　練習問題
　2章　フィッシングサイトと迷惑メールの検出
　　2.1　ソーシャルエンジニアリングの概要　　2.2　フィッシングサイト検出器の開発　　　2.2.1　ロジスティック回帰を使用したフィッシングサイト検出　　　　2.2.1.1　ハイパーパラメータのチューニング　　　2.2.2　決定木を使用したフィッシングサイト検出　　　　2.2.2.1　ハイパーパラメータのチューニング　　2.3　迷惑メール検出器の開発　　　2.3.1　NLP概論　　　2.3.2　tf-idfを使用した迷惑メール検出　　　　2.3.2.1　ハイパーパラメータのチューニング　　2.4　まとめ　　2.5　練習問題
　3章　ファイルのメタデータを特徴量にしたマルウェア検出
　　3.1　マルウェアの概要　　　3.1.1　マルウェア解析　　　　3.1.1.1　表層解析　　　　3.1.1.2　動的解析　　　　3.1.1.3　メモリ解析　　　3.1.2　検出回避の手段　　3.2　PEヘッダを使った機械学習によるマルウェア検出　　　3.2.1　PEファイルの構造　　　3.2.2　マルウェアのデータセット　　　3.2.3　ランダムフォレストのハイパーパラメータチューニング　　　3.2.4　勾配ブースティングのハイパーパラメータチューニング　　　3.2.5　AdaBoostのハイパーパラメータチューニング　　3.3　Androidマルウェアのデータセットを使った検出器の開発　　　3.3.1　SVMのハイパーパラメータチューニング　　3.4　まとめ　　3.5　練習問題
　4章　ディープラーニングによるマルウェア検出
　　4.1　脳とニューロン　　4.2　パーセプトロン　　4.3　ニューラルネットワーク　　　4.3.1　活性化関数　　　　4.3.1.1　ステップ関数　　　　4.3.1.2　シグモイド関数　　　　4.3.1.3　ReLU関数　　4.4　PEヘッダを使用したディープラーニングによるマルウェア検出器の開発　　　4.4.1　マルウェアのデータセット　　　　4.4.1.1　データセットのサイズの調整　　　4.4.2　特徴量の標準化　　　　4.4.2.1　訓練データの可視化による標準化の必要性の確認　　　　4.4.2.2　StandardScalerによる標準化　　　　　Google ColaboratoryにGoogle Driveをマウントする　　　4.4.3　ハイパーパラメータのチューニング　　　4.4.4　マルウェア検出のテスト　　4.5　畳み込みニューラルネットワークとマルウェアの画像化を使用した分類　　　4.5.1　畳み込みニューラルネットワーク（CNN）　　　4.5.2　リカレントニューラルネットワーク（RNN）　　4.6　マルウェア検知とCNN　　4.7　ディープラーニングをマルウェア検出に適用する手法への期待と課題　　4.8　まとめ　　4.9　練習問題

　5章　データセットの作成
　　5.1　サイバー脅威インテリジェンスとは　　5.2　Twitterを通じた脆弱性情報データセットの作成　　　5.2.1　開発者アカウントの登録　　　5.2.2　Twitterのスクレイピング　　　5.2.3　ラベリング　　　5.2.4　PigeonXT　　5.3　まとめ　　5.4　練習問題
　6章　異常検知
　　6.1　異常検知技術の概要　　6.2　SIEMとUEBA　　6.3　Windowsログの基礎　　　6.3.1　イベントの構成要素と種類　　　6.3.2　イベントの発生傾向と辞書攻撃との相関性　　6.4　時系列分析による異常値検出　　　6.4.1　データセットと前処理　　　6.4.2　時系列データの分解　　　6.4.3　Prophetによる異常検知　　　6.4.4　msticpyによる異常検知　　6.5　まとめ　　6.6　練習問題
　7章　SQLインジェクションの検出
　　7.1　SQLインジェクションの概要　　7.2　データセット　　7.3　特徴量の追加　　　7.3.1　エントロピー　　　7.3.2　SQLインジェクションに特徴的な文字　　　7.3.3　特徴量の追加　　7.4　SQLインジェクション検出器の開発　　7.5　N-gramによる特徴量の再抽出　　7.6　まとめ　　7.7　練習問題
　8章　機械学習システムへの攻撃
　　8.1　機械学習システムの脅威モデル　　8.2　攻撃に利用できるライブラリ　　　8.2.1　ARTによる攻撃の流れ　　8.3　転移攻撃　　　8.3.1　Copycat CNN　　8.4　回避攻撃　　　8.4.1　FGSM　　　8.4.2　Carlini & Wagner Attack　　　8.4.3　ZOO Attack　　　8.4.4　Adversarial Training　　　8.4.5　Randomized Smoothing　　8.5　汚染攻撃　　　8.5.1　BadNets　　　8.5.2　Activation Clustering　　8.6　まとめ　　8.7　練習問題
　9章　深層強化学習によるマルウェア検知器の回避
　　9.1　実世界のアンチウイルス製品に存在した問題　　9.2　機械学習を用いるマルウェア検知器MalConv　　9.3　Machine Learning Static Evasion Competition　　9.4　PEファイルフォーマットの基礎知識　　9.5　pefileを用いたPEファイルの改変　　9.6　マルウェア検知を機械学習によって回避するには　　9.7　深層強化学習の基礎知識　　　9.7.1　問題設定　　　9.7.2　Q学習　　　9.7.3　Deep Q-Network　　9.8　OpenAI GymとKeras-RLを用いたMalConvの回避　　9.9　まとめ　　9.10　練習問題
　10章　機械学習のヒント
　　10.1　どの機械学習アルゴリズムを使ったらよいのか問題　　10.2　精度や指標についてどう考えたらよいのか問題　　10.3　まとめ
　付録A　練習問題の解答
　　A.1　1章　情報セキュリティエンジニアのための機械学習入門　　A.2　2章　フィッシングサイトと迷惑メールの検出　　A.3　3章　ファイルのメタデータを特徴量にしたマルウェア検出　　A.4　4章　ディープラーニングによるマルウェア検出　　A.5　5章　データセットの作成　　A.6　6章　異常検知　　A.7　7章　SQLインジェクションの検出　　A.8　8章　機械学習システムへの攻撃　　A.9　9章　深層強化学習によるマルウェア検知器の回避　　A.10　10章　機械学習のヒント
　参考文献
　　　　1章　情報セキュリティエンジニアのための機械学習入門　　　　2章　フィッシングサイトと迷惑メールの検出　　　　3章　ファイルのメタデータを特徴量にしたマルウェア検出　　　　4章　ディープラーニングによるマルウェア検出　　　　5章　データセットの作成　　　　6章　異常検知　　　　7章　SQLインジェクションの検出　　　　8章　機械学習システムへの攻撃　　　　9章　深層強化学習によるマルウェア検知器の回避　　　　10章　機械学習のヒント
　著者紹介
　奥付

Content preview from セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門

10章機械学習のヒント

これまでに、機械学習の基礎と、素晴らしいオープンソースのPythonパッケージを使ったさまざまなシステムの構築方法を学んだ。そして、機械学習モデルを迂回する方法にも触れた。

最終章では、よりよいモデルを構築するためのヒントを紹介する。

10.1　どの機械学習アルゴリズムを使ったらよいのか問題

本書のレビューを行っているときに、とあるレビュアーから「この課題の解決に、この機械学習アルゴリズムを選択した根拠なり理由が知りたい」という質問をいただいた。曰く、「複数のアルゴリズムの中でどれを選べばよいのかというのは結構重要なところだと思っていて、なぜここではたとえばSVMを使わないのか、逆にマルウェアの検知のためにAPI呼び出しを使った特徴量に対して勾配ブースティング等を使わないのか理由があるならぜひとも知りたい。結局機械学習って、どのアルゴリズムを選ぶかが一番悩むところじゃないかと・・。もしくは、全部試してみてTPなりFNなりを比較するしかないなら、その一言だけでもあると嬉しい。」ということであった。

素朴な質問ではあるが、確かにこうした類似の質問への回答はあまりなされていないように思われるし、機械学習の初学者が最初に思い浮かべる疑問としてもっともなものだと考えられる。このため、ここでこの質問に対する回答をしていきたい。

広範な範囲でのコンセンサスはとれてはいないと思うが、機械学習アルゴリズムを用いる問題解決の過程においては、データセットの内容によって次のような選択がなされていると思われる。

データセットに欠損値がある→LightGBMなどの決定木
データセットは連続値→線形回帰
データセットが画像→CNN

これは表10-1のようなアルゴリズムごとの得手・不得手、向き・不向きがあるために選択される結果と考えられる。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119076Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

セキュリティエンジニアのための機械学習 ―AI技術によるサイバーセキュリティ対策入門

by Chiheb Chebbi, 新井悠, 一瀬小夜, 黒米祐馬

10章機械学習のヒント

10.1　どの機械学習アルゴリズムを使ったらよいのか問題

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.