ニュースレター登録
資料ダウンロード
お問い合わせ

SECURITY 595

Applied Data Science and Machine Learning for Cybersecurity Professionals
※本コースは中止となりました。次回開催をお待ちください。

Data Science and Machine Learning

English
日程

2023年2月27日(月)~3月4日(土)

期間
6日間
講義時間

1日目:9:00-17:30
2日目~6日目:9:30-17:30

受講スタイル
Live Online
会場

オンライン

GIAC認定資格
-
講師
言語
英語 英語教材・同時通訳
定員
40名
CPEポイント
36 point
受講料

【為替差益還元キャンペーン※】1,080,000 円(税込み 1,188,000円)

※キャンペーン価格のため、他の割引の重複適用はできません。ご了承ください。

申込締切日
2023年2月17日(金)
オプション
  • OnDemand  135,000円(税込み 148,500円)
  • NetWars Continuous  235,000円(税込み 258,500円)

※オプションの価格は、コース本体と同時にお申し込みいただく場合のみ有効です。

受講に必要なPC環境

演習で使用するノートPCをご準備下さい。受講に必要なPC環境についてご確認ください。

SEC595 PC設定詳細

重要! この説明書に従って設定されたご自身のシステムをお持ちください。

このコースに完全に参加するためには、正しく設定されたシステムが必要です。この説明書をよく読み、それに従わない場合、このコースに不可欠な実習に参加できないため、満足のいく授業が受けられない可能性が高くなります。したがって、コースで指定されたすべての要件を満たすシステムで参加されることを強くお勧めします。

また、重要なデータを保存しているシステムを持ち込まないことを強くお勧めします。

  • 64ビット Intel i5/i7 2.0+ GHz プロセッサー
  • Intel-VT 有効
  • 16 GB RAM (最小8 GB)
  • 60 GBのハードディスク空き容量
  • Windows 10macOS 11.x以降、またはLinuxの最新バージョンで、後述のVMware仮想化製品をインストールし、実行することが可能なもの。注:SANSは、現時点ではMac M1ベースのシステムをサポートすることができません。
  • VMware Workstation Pro 16.xVMware Player 16.xFusion 12.xのいずれか(またはそれ以上のバージョン)。
  • ローカル管理者権限を持つアカウント

講義で使用するメディアは、ダウンロードで配信されます。講義で使用するメディアファイルは50GB以上と容量が大きいです。ダウンロードが完了するまでには、十分な時間が必要です。インターネット接続や速度は、様々な要因によって大きく異なります。そのため、教材のダウンロードにかかる時間の目安をお伝えすることはできません。リンクを入手したら、コースメディアのダウンロードを開始してください。講義初日には、コースメディアがすぐに必要になります。講義開始の前夜にダウンロードを開始した場合は、失敗する可能性が高くなります。

SANSでは、PDF形式の印刷物の提供を開始しました。さらに、一部のクラスでは、PDFに加え、電子ワークブックを使用しています。電子ワークブックを使用するクラスは、今後急速に増加すると思われます。この新しい環境では、セカンドモニターやタブレット端末があると、講師の講義中やラボの演習中に授業資料を見ることができ、便利です。

SEC595コース概要

データサイエンス、人工知能、機械学習は、現在の流行語だけでなく、情報セキュリティの主要ツールの1つに急速になりつつあります。問題は、数学やデータサイエンスの学位を持っていない限り、ベンダーの言いなりになってしまう可能性が高いということです。このコースでは、機械学習とデータサイエンスについて完全に解明しています。授業時間の70%以上は、機械学習とデータサイエンスの問題について話すだけでなく、実際に解決することに費やされます。

この分野の他のコースとは異なり、このコースは情報セキュリティの問題を解決することに正面から取り組んでいます。他のコースでは、ほとんどすべての理論を教えるか、実世界に通用しないつまらない問題を解くか、両極端になりがちですが、このコースではバランスをとっています。このコースでは、絶対に知っておかなければならない理論と数学の基礎だけを取り上げ、それが実践的な技術に応用できる範囲に限定しています。コースでは、様々な統計学的、確率論的、あるいは数学的なツール(応用的なもの)を段階的に紹介、適用し、それらのツールを使えるようにします。このコースで扱う実践的なプロジェクトは、独自の機械学習ソリューションを構築するための幅広いベースを提供するために選択されました。

主なトピックは以下の通りです。

  • SQLNoSQLドキュメントストア、Webスクレイピング、その他の一般的なソースからのデータ取得
  • データの探索と可視化
  • 記述統計学
  • 推論統計と確率
  • ベイズ推論
  • 教師なし学習とクラスタリング
  • 深層学習ニューラルネットワーク
  • オートエンコーダ
  • 損失関数
  • 畳み込みネットワーク
  • 埋め込みレイヤー

 

ビジネス上の学び

このコースはあなたの組織を支援します。

  • 有用な可視化ダッシュボードを作成する
  • ニューラルネットワークを使用して問題を解決する
  • サイバーセキュリティ対策の有効性、効率性、および成功率を向上させる
  • 組織固有のニーズに対応したカスタム機械学習ソリューションの構築

できるようになること

  • 統計モデルを実世界の問題に有意義に適用する
  • データを可視化する
  • ネットワーク上で数学に基づく脅威の探索を実行する
  • 教師なし学習/クラスタリング手法を理解し適用する
  • ディープラーニングニューラルネットワークを構築する
  • 畳み込みニューラルネットワークを構築し,理解する
  • 遺伝的探索アルゴリズムの理解と構築

得られること

  • サポートする仮想マシン
  • すべてのラボと完全なソリューションのJupyterノートブック

学べること

  • AI異常検知ツールの構築
  • 情報セキュリティの問題を有用な方法でモデル化する
  • 有用な可視化ダッシュボードの構築
  • ニューラルネットを使用して問題を解決する

その他のリソース

  • Anaconda
  • TensorFlow (およびサポートライブラリ)
  • Matplotlib
  • VMWareWorkstation/Player/Fusion

受講対象者

  • 機械学習を理解したい情報セキュリティ専門家
  • データサイエンスの原理を実世界の問題に適用したいと考えているプロフェッショナル
  • 基本を学ぼうとしたが、自分の問題を機械学習で解決できるものに変換する方法が分からない方
  • ブルーチームやSOCのメンバーで、異常の特定やカスタム脅威ハンティングを行いたい方

NICEフレームワークの業務

  • データアナリスト(OPM 422)

コース開発者より

AIや機械学習はどこにでもある。ベンダーのソリューションはどうなっているのか?これは本当に黒魔術なのだろうか?私は、この分野の膨大な知識のギャップを埋めるために、このコースを書きました。私は、ツールを使うなら、そのツールがどのように機能するかを理解すべきであると考えています。そうでなければ、結果が何を意味するのか、なぜそのような結果を得ることができるのか、本当のところはわからないのです。このコースでは、統計学、数学、Python、機械学習について、ゼロから...「ヒーローになる」と約束するのは気が引けますが...クラッシュコースを提供します。今日から現実の問題を解決できる有能な人物とでも言いましょうか!
- David Hoelzer

講義内容

  • Day1
  • Day2
  • Day3
  • Day4
  • Day5
  • Day6

Day1:Data Acquisition, Cleaning, and Manipulation

概要

ここでは、データサイエンスや機械学習の分野における用語の紹介に加え、データソースとして利用されている技術の数々を紹介します。データサイエンスや機械学習のプロジェクトでは、まずデータを取得することが重要であるため、この日の授業では、これらの作業に備えるための実践的な演習に重点を置いています。

まず必要なスキルは、このコースで選択した言語であるPythonの使用です。Pythonの基礎的な理解があることが唯一の受講条件です。Python1行でも書いたことがある人なら、おそらく十分な知識があるはずです。リスト、配列、タプル、ディクショナリ、内包、そしてnumpyの変種を紹介します。

Pythonの復習の後、いくつかの理論を学び、その後すぐに実践的な演習を行い、SQLMongoDBWebスクレイピングについて、実際に仕事をするのに必要な知識を身に付けます。

演習

  • Pythonリフレッシャー
  • SQLデータへのアクセス、操作、取得
  • NoSQLデータへのアクセス、操作、検索 MongoDB
  • ウェブスクレイピングによるデータ取得

トピックス

  • データサイエンス
  • Python
  • SQL
  • NoSQL
  • ウェブスクレイピング

Day2:Data Exploration and Statistics

概要

データサイエンスと機械学習にとって重要な統計学の基礎から始めます。この導入と、実世界のデータに対するこれらの技術の実用的な使用を提供するハンズオン演習に続いて、コースは確率論に移行します。

確率論はそれ自体が広範な分野である。このコースでは、いくつかの基礎知識を紹介した後、ベイズの定理の導出に直接取り組みます。この導入部分をベースに、学生はベイズ分析の有用なツールを構築する実習を行い、コース後半でそれを基に改良を加える。

本節の残りの部分は、得られた統計的知識を信号解析の分野に応用することである。フーリエ級数、高速フーリエ変換、離散フーリエ変換の導出と応用に関する議論の後、学生はこれらのツールを実際の脅威探索活動で使用する。

演習

  • 統計学の基礎 中央値と平均値
  • 統計学の基礎 分散、偏差、ロバスト測度
  • 統計学の応用:データ同定
  • 確率、ベイズ、フィッシング
  • シグナル分析による脅威の追跡

トピックス

  • 統計学
  • ロバスト測定
  • 確率
  • ベイズの定理と推論
  • フーリエ級数とその導出

Day3:Essentials of Machine Learning

概要

このコースの残りの18時間強は、様々な機械学習モデルについて学び、すぐに適用することに費やされる。各トピックの紹介と議論の後、学生は直感的な理解を深め、実際の問題にその手法を適用するために長時間の実習に取り組む。

このセクションでは、様々なクラスタリングアプローチと教師なし機械学習から始まります。サポートベクター分類器、カーネル関数、サポートベクターマシンから探究を始める。この議論と演習に続いて、K-MeansKNNのアプローチを検討し、クラスタリングのテーマを継続する。2次元または3次元の例を扱った後、理想的なクラスタ数を決定する方法に注目する。そして、最後に高次元のアプリケーションと主成分分析による次元の削減を探求する。DBSCANアルゴリズムについては、脅威の探索や大規模データの効率的なSOC分析に応用することで、より深く掘り下げていきます。

このセクションの残りの時間は、決定木について説明します。実際に手を動かし、決定木の限界について議論した後、ランダムフォレストについて説明し、ほとんどの場合において、ランダムフォレストがより良い推論を提供することを実際に体験していただきます。最後に、ネットワーク上のユーザ活動の異常を発見するためのクラスタベースのアプローチについて説明します。

演習

  • K-MeansKNN
  • エルボー関数とPCA
  • DNSCANによるクラスタリング
  • サポートベクター分類器
  • サポートベクターマシン
  • 決定木
  • ランダムフォレスト

トピックス

  • サポートベクトルクラシファイア
  • サポートベクターマシン
  • カーネル関数
  • 主成分分析
  • DBSCAN
  • K-Means(ケイマン
  • KNN
  • エルボー関数
  • 決定木
  • ランダムフォレスト
  • 異常検知

Day4Vulnerability Validation, Triage, and Mass Data Management

概要

このセクションでは、情報セキュリティ分野における教師あり学習アプローチの理論、開発、および使用に焦点を当てます。セクション2で扱った数学と統計学をベースに、線形回帰から始まり、リアルタイムのネットワークデータを含むマルチクラス分類問題への深層学習ニューラルネットワークの適用で終わります。

教材は、教師ありの機械学習と数学を使用して予測モデルを作成することに重点を置いています。最初の議論と演習は、異常検出のための予測と傾向分析が中心です。その後、分類問題に焦点が当てられる。

セクション2で使用したベイズアプローチを基に、より正確なフィッシング検出ネットワークの開発を通じて、深層学習ニューラルネットワークと完全連結密なネットワークを紹介します。続いて、ニューラルネットワークの学習性能の可視化と測定について探求し、さらにオーバーフィット、過学習、そしてそれらを識別(そして回避!)する方法について議論します。

このセクションの次の部分は、カテゴリカルな問題に目を向け、リアルタイムネットワークプロトコル分類システムを構築します。さらに重要なことは、この分類システムにおいて、通常教師なしアプローチに留保されるタスクである異常検知を実装することです。

演習

  • ポリフィット回帰
  • ハロー、ワールド センチメント分析
  • ディープラーニングによるハムとスパムの比較
  • プロトコルの特定
  • プロトコルの異常検知

トピックス

  • 回帰とフィッティング
  • 損失関数とエラー関数
  • ベクトル、マトリックス、テンソル
  • パーセプトロンの基礎
  • 高密度ネットワーク

Day5:Essentials of Machine Learning

概要

このセクションでは、ディープラーニングソリューションの知識を広げることに特化しています。前半は、畳み込みネットワーク(CNN)に全面的に焦点を当てます。このクラスでは、テキスト分類問題へのCNNの応用だけでなく、ゼロデイマルウェアの予測的識別への応用も探求します。

後半は、オートエンコーダーに焦点を当てます。オートエンコーダーが何をするのか、なぜ機能するのか、潜在的な表現をどのように選択するのか、再構成損失関数がどのように機能するのか、について検討する。そして、この知識を応用して、シグネチャや人手を介さない自動ログ異常検知ソリューションを作成し、異常の特定を行います。さらに、ネットワーク上の脅威を検知するための大規模なアンサンブル・オートエンコーダの構成要素についても学びます。

演習

  • マルウェアの予測識別 - ゼロデイを発見する
  • CNNスタイルによるハム対スパムの比較
  • CNNによるマルチクラステキスト分類
  • オートエンコーダーを使ったログ異常検出
  • リアルタイムのネットワーク異常

トピックス

  • 畳み込みニューラルネットワーク
  • レイヤーの埋め込み
  • テキスト問題へのCNNの適用
  • オートエンコーダ
  • 再構成損失の測定
  • アンサンブルオートエンコーダの作成

Day6:Essentials of Machine Learning

概要

このコースの最終セクションでは、畳み込みニューラルネットワークと、回帰問題を解くためのCNNと完全連結ネットワークの応用について引き続き説明します。このセクションでは、TensorFlowの関数パターンを使用して、CAPTCHAの品質をテストし、解決するためのディープニューラルネットワークを作成することに重点を置いています。赤、青、紫のどのチームであっても、コンピュータビジョンの問題に相当するものを解決するために、機械学習を使って考え抜き、95%以上の精度で解決する方法を学ぶことができます! その後、より少ない学習時間でより高い精度を達成するための、別の問題解決方法を探ります。

最後に、機械学習の問題に適用可能な遺伝的アルゴリズムについて説明します。

演習

  • CAPTCHAを解く:POC
  • CAPTCHAを解く:機能的なAPI
  • CAPTCHAを解く:スプリットモデル
  • 遺伝的アルゴリズム

トピックス

  • 畳み込みニューラルネットワーク
  • ニューラルネットワークの機能的定義
  • 複数の出力を持つ深層学習ネットワーク
  • 機械学習問題の考え方
  • 遺伝的アルゴリズム

NRIセキュアではNews BitesやOUCH! を日本語に翻訳して皆さまにお届けしています。
購読制を採っておりますので、
ご希望の方は、ニュースレター登録からお申し込みください。