目次
セキュリティ・ビッグデータ・アナリティクス(またはサイバー・セキュリティ・アナリティクス)は、セキュリティ・アナリストやツール・ベンダーがログやイベント・データをより多く活用できるようにするために台頭してきている。かつてのSIEMは、相関ルールを手動で定義することに制限されており、そのルールはもろく、保守が困難で、多くの誤検出を引き起こしていました。
新しい機械学習技術は、事前の定義やルール、攻撃シグネチャーがなくても、セキュリティ・システムがパターンや脅威を識別し、より高い精度で識別するのに役立つ。しかし、機械学習を効果的に行うには、非常に大きなデータが必要である。課題は、かつてないほど多くのデータを保存し、それをタイムリーに分析し、新たな洞察を引き出すことである。
このコンテンツは、SIEM (Security Information and Event Management)に関するシリーズの一部です。
セキュリティ・ビッグデータ分析でサイバー脅威に対抗するには?
従来、セキュリティ・テクノロジーは、セキュリティ・インシデントを検知するために、主に2つの分析技術を使用していた:
- 相関ルール- セキュリティの脅威、脆弱性、またはアクティブなセキュリティ・インシデントを示す可能性のある異常を示す一連のイベントを指定する、手動で定義されたルール。
- ネットワークの脆弱性とリスク評価 -既知の攻撃パターンや、オープンポートや安全でないプロトコルなどの既知の脆弱性についてネットワークをスキャンします。
これらの古い技術に共通するのは、既知の悪行を検出するのに長けているということだ。しかし、これらには2つの重要な欠点がある:
- 誤検知 -あらかじめ定義された厳格なルールとシグネチャに基づいているため、誤検知が多く、アラート疲れにつながる。
- 予期せぬ出来事 -誰もルールを作成していない新しいタイプの攻撃が試みられたらどうなるか?未知のマルウェアがシステムに感染したらどうなるか?相関ルールに基づく従来のシステムでは、未知の脅威を検出することは困難です。
このような分析を実現するためには、新しい分析手法が必要であり、これまで以上に大きなデータへのアクセスも必要である。

データサイエンス、機械学習、サイバーセキュリティ
データサイエンスとは何か?
データサイエンスは、データセットの科学的・数学的分析と人間の理解や探求を活用し、ビッグデータからビジネス上の洞察を導き出す新しい学問分野である。
セキュリティの文脈では、データ・サイエンスは、セキュリティ・アナリストやセキュリティ・ツールがセキュリティ・データをより有効に活用し、隠れたパターンを発見し、システムの動作をよりよく理解するのに役立っている。
サイバーセキュリティにおける機械学習とは?
機械学習は、人工知能(AI)の一般的な分野の一部である。機械学習は、機械が明示的にプログラムされることなく学習することを可能にする統計的手法を使用する。
セキュリティの文脈では、機械学習は相関ルールにとどまらず、未知のパターンを調べ、予測、分類、洞察の生成にアルゴリズムを使用する。
人工知能(AI)は、多くのセキュリティ分析ソリューションの一部であると主張されています。ベンダーの主張を鵜呑みにせず、「AI」という用語に具体的に何が含まれているのかを確認してください。ベンダーはどのようにモデルを構築しているのか。どのアルゴリズムが使用されているのか?具体的に何が提供されているのかを理解するために、フードの下を見てください。
教師あり学習と機械学習

教師あり学習では、機械は入力と既知の出力を含むデータセットから学習する。新しい未知の出力に対して、出力変数がどうなるかを予測できる関数またはモデルが構築される。
セキュリティの文脈では - セキュリティ・ツールは、新しい行動を分析し、それが以前の既知の良い行動や既知の悪い行動に「似ている」かどうかを判断することを学ぶ。
教師あり学習と機械学習

教師なし学習では、システムは入力変数だけを含むデータセットから学習する。正解がない代わりに、アルゴリズムはデータから新しいパターンを発見するよう促される。
セキュリティの文脈では、セキュリティ・ツールは教師なし学習を使って異常な振る舞いを検出し、それに対処する(それを分類したり、それが良いか悪いかを理解したりすることなく)。
サイバーセキュリティにおけるディープラーニングとは?
ディープラーニング技術は、デジタル「ニューロン」のネットワークを作成し、それらを使用して小さなデータの断片を処理し、より大きな画像を組み立てることによって、人間の脳をシミュレートする。ディープラーニングは、構造化されていないデータに最も一般的に適用され、データ成果物の重要な特徴を自動的に学習することができる。ディープラーニングの最新のアプリケーションのほとんどは、教師あり学習を利用している。
セキュリティの文脈では、ディープラーニングは主にパケットストリームやマルウェアのバイナリ解析に使用され、トラフィックパターンやソフトウェアプログラムの特徴を発見し、悪意のある活動を特定する。
サイバーセキュリティにおけるデータマイニングとは?
データマイニングとは、大量のデータから隠れた洞察を発見するために、主にディープラーニング(深層学習)などの分析技術を使用することである。例えば、データマイニングは、エンティティ間の隠れた関係を明らかにし、予測を支援するためにイベントの頻繁なシーケンスを発見し、有用なカテゴリにエンティティをグループ化するのに役立つ分類モデルを発見することができる。
セキュリティの文脈では、データマイニング技術は、非常に大規模なデータセットにおける異常検知、インシデントやネットワークイベントの分類、過去のデータに基づく将来の攻撃の予測などのタスクを実行するために、セキュリティツールによって使用される。
User Entity行動分析(UEBA)とは?
UEBAソリューションは、ベースライン化と呼ばれる概念に基づいている。IT環境におけるユーザー、ホスト、デバイス(エンティティと呼ばれる)の標準的な振る舞いをモデル化したプロファイルを構築する。主に機械学習技術を使用して、確立されたベースラインと比較して異常なアクティビティを特定し、セキュリティ・インシデントを検出します。
従来のセキュリティ・ソリューションに対するUEBAの主な利点は、ゼロデイ攻撃や内部脅威のような未知の脅威やとらえどころのない脅威を検知できることである。さらに、UEBAは、現在のコンテキストに関連しない可能性のある事前に設定されたルールに依存するのではなく、実際のシステム動作を適応して学習するため、誤検知の数を減らすことができます。
エキスパートからのアドバイス

スティーブ・ムーアは、Exabeamのバイスプレジデント兼チーフ・セキュリティ・ストラテジストで、脅威検知のためのソリューションの推進を支援し、セキュリティ・プログラムの推進や侵害対応について顧客にアドバイスを行っています。The New CISO Podcast」のホストであり、Forbes Tech Councilのメンバー、ExabeamのTEN18の共同創設者でもあります。
私の経験から、セキュリティ・ビッグデータ・アナリティクスと次世代SIEMの機能を効果的に活用するための実用的なヒントを紹介しよう:
次元削減を活用して、より迅速な洞察を得る
主成分分析(PCA)、または同様のテクニックを使用してノイズを減らし、影響の大きい変数に焦点を当てる。例えば、資産の重要性や機密データへの近接性に基づいて異常の優先順位を決定します。
スケールの前にデータ品質に注目
ビッグデータの価値は、その正確さにあります。アナリティクス・システムに投入する前に、ログ・ソースの一貫性、タイムスタンプの同期、メタデータ(ユーザーIDやアセット・タグなど)の充実を確認する。
教師ありモデルと教師なしモデルを組み合わせる
既知の脅威やコンプライアンス上のニーズには教師あり学習を使用し、新しい脅威の検出にはクラスタリングやIsolation Forestのような教師なしモデルに依存します。このハイブリッド・アプローチにより、全体的なカバレッジが向上します。
アナリティクスのためのデータ保持戦略の最適化
認証の試行や権限の変更など、重要なデータのサブセットをより高性能なストレージ層に保持します。これらは、履歴分析とリアルタイムの異常検知の両方に最も有効です。
エンドポイントとネットワーク分析の相関
エンドポイントデータ(ファイルの実行やメモリの使用状況など)のディープラーニングとネットワーク挙動(トラフィックの異常など)を組み合わせることで、横方向の動きや高度な持続的脅威(APT)のような高度な攻撃を検出します。
外れ値と異常値を検出するアルゴリズム
ランダムフォレスト
ランダムフォレストは、古典的な決定木アルゴリズムの欠点に対処する強力な教師あり学習アルゴリズムである。決定木は、既知のパラメータを持つ階層的な木に行動を当てはめようとする。
例えば、下のツリーでは、顧客満足度は2つの変数、製品の色と顧客の年齢に従って分布している。決定木アルゴリズムは、異なる色またはわずかに異なる年齢が満足度の良い予測因子であると不正確に予測する。これはオーバーフィットと呼ばれ、モデルは新しいデータで予測を行うために不十分または不正確なデータを使用します。

ランダムフォレストは、決定木を自動的に多数のサブツリーまたはスタンプに分割する。各サブツリーは、分析対象の母集団に関する異なる情報を強調する。その後、各サブツリーの結果を取得し、最終結果を得るためにすべてのサブツリーの多数決を取る(バギングと呼ばれる手法)。
すべてのサブツリーを組み合わせることで、ランダムフォレストは個々のツリーの誤差を相殺し、モデルのフィッティングを劇的に改善することができる。

セキュリティの文脈では、ランダムフォレストは、基礎となるデータが不十分であったり、不適切に構造化されていたりする場合でも、連続するイベント経路を分析し、新しいイベントに関する予測を改善するのに役立つ。
寸法削減
次元削減とは、重要な情報を失うことなく、多くの次元(またはデータを記述するパラメータ)を持つデータセットを、より少ない次元のデータセットに変換するプロセスである。
例えば、データに物体の長さをセンチメートルで表す次元と、インチで表す次元がある場合、これらの次元の1つは冗長であり、高い相関関係からわかるように、実際には何の情報も追加していない。これらの次元の1つを削除することで、データが説明しやすくなります。
一般的に言って、次元削減アルゴリズムは、どの次元が関連情報を追加しないかを決定し、n次元のデータセットをk<nのk次元に削減することができる。
相関分析以外に、冗長な次元を除去する他の方法として、欠損値の分析、データセット全体の分散が低い変数、決定木を使用して最も重要でない変数を自動的に選択し、それらの木をランダムフォレストで補強する、因子分析、後方特徴除去(BFE)、主成分分析(PCA)などがある。
セキュリティの文脈では-セキュリティ・データは、通常、ITシステム内のイベントに関する多数のデータ・ポイントを含むログから構成される。次元削減は、目の前の質問に答えるために必要でない次元を削除するために使用することができ、セキュリティツールがより正確に異常を識別するのに役立ちます。

隔離林
孤立林は、異常値や外れ値を検出するための比較的新しい手法である。データの特徴をランダムに選択し、その特徴の最大値と最小値の間の値をランダムに選択することでデータ点を分離する。このプロセスは、その特徴がデータセットの残りの部分と大きく異なることが判明するまで繰り返される。
システムは多数の特徴に対してこのプロセスを繰り返し、各特徴に対してランダムな決定木を構築する。そして各特徴について、以下の仮定に基づいて異常スコアが計算される:
- 本当に異常である特徴は、データセットの残りの部分から大きく外れるために、わずかな数の分離ステップしか必要としない。
- アノマリーでない特徴は、データセットから大きく外れるために何度も分離ステップを踏む。
閾値が定義され、完全に分離されるまでに比較的長い決定木を必要とする特徴が "正常 "と判定され、残りは "異常 "と判定される。
セキュリティの文脈では、孤立の森は、UEBAや他の次世代セキュリティ・ツールが、周囲のデータと比較して異常なデータ・ポイントを特定するために使用できるテクニックである。
SIEMとビッグデータ分析
セキュリティ情報・イベント管理(SIEM)システムは、大規模なセキュリティ組織の中核をなすコンポーネントです。SIEMは、組織全体のセキュリティ・ツールからログ・データとアラートを収集、整理、分析します。従来、SIEMの相関ルールは、セキュリティ・インシデントを自動的に特定し、アラートを発するために使用されていました。
SIEMは、組織全体の事実上すべてのITシステムにおいて、ユーザー、デバイス、イベントに関するコンテキストを提供するため、高度なアナリティクス技術のための絶好の場を提供します。今日のSIEMは、UEBAのような高度なアナリティクス・プラットフォームと統合するか、自社製品の不可欠な部分としてこれらの機能を提供しています。
次世代SIEMは、機械学習、ディープラーニング、UEBAを活用することで、相関ルールの枠を超え、それを提供することができる:
- 複雑な脅威の特定 - 現代の攻撃は多くの場合、複数のタイプのイベントで構成されており、それぞれが単独では無害に見えるかもしれません。高度なデータ分析では、過去のタイムライン上の複数のイベントのデータを調べ、疑わしい活動を捕捉することができます。
- エンティティ動作分析 - SIEMは、サーバー、医療機器、産業機械などの重要な資産の通常の基本動作を学習し、脅威を示唆する異常を自動的に発見することができます。
- 横移動検出組織に侵入した攻撃者は通常、ネットワーク内を移動し、さまざまなマシンにアクセスしたり、認証情報を切り替えたりして、機密データへのアクセスを拡大します。SIEM は、ネットワーク全体と複数のシステム・リソースのデータを分析し、機械学習を使用して横方向の動きを検出することができます。
- 内部脅威 -SIEM は、個人またはシステムリソースが異常な動作をしていることを特定できます。挙動不審なユーザー・アカウントと他のデータ・ポイントとの「点と点を結ぶ」ことで、悪意のある内部関係者、または内部関係者アカウントの侵害を発見することができます。
- 新しいタイプの攻撃の検出 -高度な分析を活用することで、SIEMはゼロデイ攻撃や既知のバイナリパターンに一致しないマルウェアを捕捉し、警告することができます。
Exabeamは次世代SIEMの一例で、複雑な脅威の識別、自動イベントタイムライン、類似ユーザーやエンティティの動的ピアグループ化、横移動の検出、資産所有の自動検出など、高度な分析機能が組み込まれています。
その他のSIEM解説
Exabeamについてもっと知る
ホワイトペーパー、ポッドキャスト、ウェビナーなどのリソースで、Exabeamについて学び、情報セキュリティに関する知識を深めてください。