第2章. 分類とクラスタリング
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
この章では、セキュリティアプリケーションに最も有用な機械学習テクニックについて述べる。機械学習の基本原理をいくつか取り上げた後、セキュリティ問題に取り組む際に選択できる機械学習アルゴリズ ムのツールボックスを提供する。各テクニックについて、いつ、どのように使うべきかを知ることができるように、十分な詳しさを盛り込むように努めたが、アルゴリズムのニュアンスや複雑さをすべて網羅しようとはしていない。
この章は、本書の他の部分よりも数学的な詳細が多い。詳細を飛ばしてテクニックを試したい場合は、「実践におけるマシン学習」のセクションを読むことをお勧めする:実践例 "と"分類における実践的考察 "のセクションを読んでから、最も一般的な教師あり・教師なしのアルゴリズムである、ロジスティック回帰、決定木と フォレスト、k-meansクラスタリングを見ることをお勧めする。
マシンラーニング問題とアプローチ
あなたが会社のコンピューター・セキュリティを担当しているとしよう。ファイアウォールを設置し、フィッシング・トレーニングを実施し、安全なコーディングの実践を保証する。しかし、一日の終わりにCEOが気にするのは、情報漏えいを起こさないことだけだ。そこであなたは、あらゆる攻撃対象への悪質なトラフィックを検知しブロックできるシステムを構築することにした。最終的に、これらのシステムは以下を決定しなければならない:
-
ネットワークを通じて送信されるすべてのファイルにマルウェアが含まれているか?
-
ログインを試みるたびに、誰かのパスワードが漏洩していないか?
-
受信したすべてのEメールについて、それはフィッシングの試みなのだろうか?
-
サーバへのすべてのリクエストに対して、それはサービス拒否(DoS)攻撃なのだろうか?
-
ネットワークからのアウトバウンドリクエストごとに、ボットがコマンド&コントロールサーバを呼び出していないか?
これらのタスクはすべて分類タスクであり、観測された事象の性質に関する二項対立的な決定である。
したがって、あなたの仕事は次のように言い換えることができる:
- ネットワーク上のすべてのイベントを悪意あるものか正当なものかに分類する。
このような言い方をされると、ほとんど絶望的な仕事に思える。しかし恐れることはない!データという秘密兵器があるのだ。
具体的には、バイナリファイル、ログイン試行、受信メール、受信リクエスト、送信リクエストの履歴ログがある。場合によっては、過去の攻撃を知っていて、その攻撃とログの対応するイベントを関連付けることができるかもしれない。さて、問題を解決するために、過去のデータから悪意のある攻撃を示すと思われるパターンを探す。例えば、1つのIPアドレスが5分間に1秒間に20回以上サーバにリクエストしている場合、それはおそらくDoS攻撃であることを観察する。(過去にそのような負荷でサーバがダウンしたのかもしれない)。
つまり、分類しようとしているものに関するデータを入力として受け取り、バイナリ・レスポンスを出力する関数である:「悪意がある "か "正当な "かである。この例では、このアルゴリズムは非常に単純である:1リクエスト前の5分間におけるIPアドレスからのリクエスト数を入力とし、その数が6,000未満であれば "正当"、6,000以上であれば "悪意ある ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access