ニュースレター登録
資料ダウンロード
お問い合わせ

SECURITY 595

Applied Data Science and AI/Machine Learning for Cybersecurity Professionals

Data Science and Machine Learning

English
日程

2025年6月23日(月)~2025年6月28日(土)

期間
6日間
講義時間

1日目:9:00-17:30
2日目~6日目:9:30-17:30

受講スタイル
Live Online
会場

◆LiveOnline形式
 オンライン

GIAC認定資格
GMLE
講師
言語
英語 英語教材・同時通訳
定員
40名
CPEポイント
36 Points
受講料

早期割引価格:1,300,000円(税込み 1,430,000円)
※キャンペーン価格のため、他の割引の重複適用はできません。ご了承ください。

通常価格:1,420,000円(税込み 1,562,000円)

申込締切日
早期割引価格:2025年5月9日(金)
通常価格:2025年6月13日(金)
オプション
  • GIAC試験 価格:170,000円(税込み 187,000円)
  • OnDemand 価格:170,000円(税込み 187,000円)
  • Skills Quest by NetWars 価格:90,000円(税込み 99,000円)

※オプションの価格は、コース本体とセットでお申込みいただく場合のみ有効です。
※コース本体のお申込み後にGIAC試験オプションを追加される場合は、事務手数料10,000円(税込11,000円)を申し受けます。
※お申込み締切後はオプションの追加のお申込みを承ることができませんのでご了承ください。
※お申込み締切後にGIAC試験を追加する場合は、こちらのページ(英語)をご参照のうえ、GIACへ直接お申込みください。なお、コース本体とセットでお申込みいただいた場合は特典として模擬試験2回分が付きますが、GIACへ直接お申込みの場合は模擬試験2回分の特典はございません(別途購入可能)

「お申し込み」を押すと、NRIセキュアのお申し込みサイトに遷移します。

受講に必要なPC環境

演習で使用するノートPCをご準備下さい。受講に必要なPC環境についてご確認ください。

SEC595 PC設定詳細

重要! この説明書に従って設定されたご自身のシステムをお持ちください。

このコースに完全に参加するためには、正しく設定されたシステムが必要です。この説明書をよく読み、それに従わない場合、このコースに不可欠な実習に参加できないため、満足のいく授業が受けられない可能性が高くなります。したがって、コースで指定されたすべての要件を満たすシステムで参加されることを強くお勧めします。授業前にシステムをバックアップしておくことが重要です。また、重要なデータを保存しているシステムを持ち込まないことを強くお勧めします。

  • Linux(Ubuntuまたは類似のものを推奨、Linuxカーネルバージョン6以上)、Windows 10以降、またはMacOS 11.x以降が動作する最新の64ビットプロセッサー(ARM/AMD/Intel)
  • 16GB以上のRAM
  • 80 GBのハードディスク空き容量
  • アカウントは Anaconda をインストールするのに必要な権限を持っているか、Anaconda がプリインストールされている必要があります。

講義で使用するメディアは、ダウンロードで配信されます。講義で使用するメディアファイルは50GB以上と容量が大きいです。ダウンロードが完了するまでには、十分な時間が必要です。インターネット接続や速度は、様々な要因によって大きく異なります。そのため、教材のダウンロードにかかる時間の目安をお伝えすることはできません。リンクを入手したら、コースメディアのダウンロードを開始してください。講義初日には、コースメディアがすぐに必要になります。講義開始の前夜にダウンロードを開始した場合は、失敗する可能性が高くなります。

SANSでは、PDF形式の印刷物の提供を開始しました。さらに、一部のクラスでは、PDFに加え、電子ワークブックを使用しています。電子ワークブックを使用するクラスは、今後急速に増加すると思われます。この新しい環境では、セカンドモニターやタブレット端末があると、講師の講義中やラボの演習中に授業資料を見ることができ、便利です。

ノートパソコンの仕様についてご質問がある場合は、laptop_prep@sans.org までご連絡ください。

SEC595コース概要

データサイエンスとAIを活用した高度なサイバーセキュリティ脅威ハンティングソリューション

データサイエンス、人工知能、機械学習は、現在の流行語だけでなく、情報セキュリティの主要ツールの1つに急速になりつつあります。問題は、数学やデータサイエンスの学位を持っていない限り、ベンダーの言いなりになってしまう可能性が高いということです。このコースでは、機械学習とデータサイエンスについて完全に解明しています。授業時間の70%以上は、機械学習とデータサイエンスの問題について話すだけでなく、実際に解決することに費やされます。このクラスでは、これらのツールやテクニックがどのように機能するかを理解するだけでなく、自分のデータについてどのように考え、機械学習やAIのテクニックを適用できるものにするかを理解します。

この分野の他のコースとは異なり、このコースは情報セキュリティの問題を解決することに正面から取り組んでいます。他のコースでは、ほとんどすべての理論を教えるか、実世界に通用しないつまらない問題を解くか、両極端になりがちですが、このコースではバランスをとっています。このコースでは、絶対に知っておかなければならない理論と数学の基礎だけを取り上げ、それが実践的な技術に応用できる範囲に限定しています。コースでは、様々な統計学的、確率論的、あるいは数学的なツール(応用的なもの)を段階的に紹介、適用し、それらのツールを使えるようにします。このコースで扱う実践的なプロジェクトは、独自の機械学習ソリューションを構築するための幅広いベースを提供するために選択されました。ChatGPTは、機械学習とAIを使用して実際のサイバーセキュリティ問題を解決するための効果的なソリューションを構築する方法を知ることに加えて、あなたの組織での潜在的な使用方法についてインテリジェントに議論できるように、本当に機能します。コース内容の詳細については、下記のコース説明をご覧ください。また、上記の「コースデモ」ボタンをクリックすると、無料デモをご覧いただけます!

注意:このコースのすべてのコンセプトは、Pythonの例を使って説明されています。Python言語の中級程度の理解が必要です!Pythonのエキスパートである必要はありません。少なくとも一握りのPythonスクリプトを書いたことがあれば、Pythonの知識は十分でしょう。コースの最初のセクションで、Pythonの主要なデータ構造を復習します。Pythonの知識が十分かどうかを判断するのにサポートが必要な場合は、お問い合わせください。

このコースは、機械学習、データサイエンス、人工知能のスキルをレパートリーに加えたいと考えているサイバーセキュリティの専門家のためのコースです。このコースは、脅威ハンティング、異常検知、モニタリングのために有意義な方法でサイバーセキュリティデータを使用する方法を理解しようとしているデータサイエンスの背景を持つ個人にとっても非常に有用です。中級のPythonが流暢であることが重要です。微積分前の数学スキルは重要ですが、必須ではありません。
「コース内容の設計は素晴らしいと思う。Pythonを使った多様なソースからのデータ抽出の基礎から始まり、統計学の基礎に飛び込んでいきます。そこからMLモデルやDNNへと掘り下げていきます。この進行の背後にある思慮深さに感謝している。」 -タレス社、ヴィスワナス・チルラヴリ氏

機械学習とは何か?

機械学習は人工知能の一分野であり、システムが明示的にプログラムされることなく、経験から学習し改善することを可能にする。データに基づいて分析し、予測や決定を下すことができるアルゴリズムの開発が含まれる。このテクノロジーは、時間の経過とともに適応し、より正確になるアプリケーションを作成するための基本であり、複雑なタスクを自動化し、データから新たな洞察を引き出すことによって業界に革命をもたらします。

ビジネス上の利点

  • このコースは、あなたの組織を支援します:
  • 有用な可視化ダッシュボードの作成
  • ニューラルネットワークによる問題解決
  • サイバーセキュリティ・イニシアチブの有効性、効率性、成功の向上
  • 組織固有のニーズに合わせたカスタム機械学習ソリューションの構築
  • このコースはGMLE認定資格の取得を目指します。

習得スキル

  • 統計モデルを実世界の問題に有意義な方法で適用する
  • データの可視化
  • ネットワーク上で数学ベースの脅威ハンティングを実行する
  • ML/AI技術を適用できる表現にデータを変換する
  • 教師なし学習/クラスタリング手法を理解し適用する
  • ディープラーニング・ニューラルネットワークの構築
  • 畳み込みニューラルネットワークの構築と理解
  • 代表的な合成データの構築方法を理解する
  • 遺伝的探索アルゴリズムを理解し構築する
  • コンテナ型デプロイの基礎を理解する

主なトピック

  • SQL、NoSQLドキュメントストア、Webスクレイピング、その他の一般的なソースからのデータ取得
  • データの探索と可視化
  • 記述統計
  • 推測統計と確率
  • ベイズ推論
  • 教師なし学習とクラスタリング
  • ディープラーニング・ニューラルネットワーク
  • オートエンコーダ
  • ニューラルネットワークによる異常検知
  • 損失関数
  • 畳み込みネットワーク
  • レイヤーの埋め込み
  • 実践的なコンテナ展開

ハンズオン機械学習トレーニング

SEC595のハンズオンは、データサイエンスのバックグラウンドを持ち、脅威の発見、異常検知、モニタリングのためにサイバーセキュリティデータを有意義に利用する方法を理解しようとしている学生に特に適しています。このコースには30の実習が含まれ、授業の70%以上が機械学習とデータサイエンスの問題を実習で解くことに費やされます。

  • セクション1: Python Refresher; SQLデータへのアクセス、操作、取得; NoSQLデータへのアクセス、操作、取得: MongoDB;データ取得のためのWebスクレイピング
  • セクション2:統計の基礎: 統計の基礎:中央値と平均値;統計の基礎: 統計学の基礎:メディアンと平均、統計学の基礎:分散、偏差、ロバスト測定、データ識別への統計学の応用、確率、バイズ、フィッシング、シグナル分析による脅威のハンティング
  • セクション3: K平均/KNN; エルボー関数とPCA; クラスタリングのためのDNSCAN; サポートベクトル分類器; サポートベクターマシン; 決定木; ランダムフォレスト
  • セクション4: ポリフィット回帰; Hello, World!センチメント分析;ディープラーニングによるハム対スパム;プロトコルの識別;プロトコル異常検出
  • セクション5: マルウェアの予測識別 -- ゼロデイを見つける; CNNスタイルによるハム対スパム; CNNによるマルチクラステキスト分類; オートエンコーダを使ったログ異常検知; リアルタイムネットワーク異常検知
  • セクション6:CAPTCHAの解決: POC;CAPTCHAの解決: 機能的API; 解くアルゴリズム

「ラボと演習はとても役に立ちました。2回目の復習をすることで、今週学んだことがより強化され、より良い文脈で理解できるようになりました。- ブレイク・ヒクソン
「ラボでは、トレーニング中に教わった理論を使い、実践的な経験を積むことができました。- ヴァシリキ・ポリトプールー
「SANS SEC595は実践的で、参加者がPythonスクリプトやツールを使って情報セキュリティのさまざまな側面を自動化できるようにすることを重視しています。このアプローチにより、受講者は学んだことを即座に業務に生かすことができます。」 - ルイス・バレンシア、米国政府

シラバス概要

  • セクション1:データの取得、クリーニング、操作
  • セクション2:データの探索と統計
  • セクション3:機械学習の要点: ツリー、フォレスト、K-Means
  • セクション4:機械学習の要点 ディープラーニング
  • セクション5:機械学習のエッセンス オートエンコーダ
  • セクション6:機械学習のエッセンス 機能モデルと配置

受講対象者

  • 機械学習を理解したい情報セキュリティ専門家
  • データサイエンスの原理を実世界の問題に適用したいと考えているプロフェッショナル
  • 基本を学ぼうとしたが、自分の問題を機械学習で解決できるものに変換する方法が分からない方
  • ブルーチームやSOCのメンバーで、異常の特定やカスタム脅威ハンティングを行いたい方

NICEフレームワークの業務

  • データアナリスト(OPM 422)

※SEC595は、GIAC(GMLE)認定試験対象コースです。

GIAC Machine Learning Engineer

GMLE認定資格は、実践的なデータサイエンス、統計、確率、および機械学習の知識を有することを証明するものです。GMLE認定者は、機械学習を使用して実世界のサイバーセキュリティ問題を解決する資格があることを証明します。

  • 異常検知と最適化
  • 畳み込みニューラルネットワーク
  • データ取得
  • データ探索と可視化
  • データ操作と分析
  • ディープラーニング・ニューラルネットワーク
  • 推測統計と確率
  • 損失関数
  • 確率と推論
  • Pythonスクリプト
  • 教師あり学習と教師なし学習

コース開発者より

AIや機械学習はどこにでもある。ベンダーのソリューションはどうなっているのか?これは本当に黒魔術なのだろうか?私は、この分野の膨大な知識のギャップを埋めるために、このコースを書きました。私は、ツールを使うなら、そのツールがどのように機能するかを理解すべきであると考えています。そうでなければ、結果が何を意味するのか、なぜそのような結果を得ることができるのか、本当のところはわからないのです。このコースでは、統計学、数学、Python、機械学習について、ゼロから...「ヒーローになる」と約束するのは気が引けますが...クラッシュコースを提供します。今日から現実の問題を解決できる有能な人物とでも言いましょうか!

- David Hoelzer

これほどうまく説明できる人は他にいない。彼の技術に対する深い理解と、熟練者でなくても理解できるように説明する能力は素晴らしかった。

 - Thomas L, US Military

講義内容

  • Day1
  • Day2
  • Day3
  • Day4
  • Day5
  • Day6

Day1:Data Acquisition, Cleaning, and Manipulation

概要

ここでは、データサイエンスや機械学習の分野における用語の紹介に加え、データソースとして利用されている技術の数々を紹介します。データサイエンスや機械学習のプロジェクトでは、まずデータを取得することが重要であるため、この日の授業では、これらの作業に備えるための実践的な演習に重点を置いています。

まず必要なスキルは、このコースで選択した言語であるPythonの使用です。Pythonの基礎的な理解があることが唯一の受講条件です。Python1行でも書いたことがある人なら、おそらく十分な知識があるはずです。リスト、配列、タプル、ディクショナリ、内包、そしてnumpyの変種を紹介します。

Pythonの復習の後、いくつかの理論を学び、その後すぐに実践的な演習を行い、SQLMongoDBWebスクレイピングについて、実際に仕事をするのに必要な知識を身に付けます。

演習

  • Pythonリフレッシャー
  • SQLデータへのアクセス、操作、取得
  • NoSQLデータへのアクセス、操作、検索 MongoDB
  • ウェブスクレイピングによるデータ取得

トピックス

  • データサイエンス
  • Python
  • SQL
  • NoSQL
  • ウェブスクレイピング

Day2:Data Exploration and Statistics

概要

データサイエンスと機械学習にとって重要な統計学の基礎から始めます。この導入と、実世界のデータに対するこれらの技術の実用的な使用を提供するハンズオン演習に続いて、コースは確率論に移行します。

確率論はそれ自体が広範な分野である。このコースでは、いくつかの基礎知識を紹介した後、ベイズの定理の導出に直接取り組みます。この導入部分をベースに、学生はベイズ分析の有用なツールを構築する実習を行い、コース後半でそれを基に改良を加える。

本節の残りの部分は、得られた統計的知識を信号解析の分野に応用することである。フーリエ級数、高速フーリエ変換、離散フーリエ変換の導出と応用に関する議論の後、学生はこれらのツールを実際の脅威探索活動で使用します。

演習

  • 統計学の基礎 中央値と平均値
  • 統計学の基礎 分散、偏差、ロバスト測度
  • 統計学の応用:データ同定
  • 確率、ベイズ、フィッシング
  • シグナル分析による脅威の追跡

トピックス

  • 統計学
  • ロバスト測定
  • 確率
  • ベイズの定理と推論
  • フーリエ級数とその導出

Day3:Essentials of Machine Learning: Trees, Forests, & K-Means

概要

このコースの残りの18時間強は、様々な機械学習モデルについて学び、すぐに適用することに費やされる。各トピックの紹介と議論の後、学生は直感的な理解を深め、実際の問題にその手法を適用するために長時間の実習に取組みます。

このセクションでは、様々なクラスタリングアプローチと教師なし機械学習から始まります。サポートベクター分類器、カーネル関数、サポートベクターマシンから探究を始める。この議論と演習に続いて、K-MeansKNNのアプローチを検討し、クラスタリングのテーマを継続する。2次元または3次元の例を扱った後、理想的なクラスタ数を決定する方法に注目する。そして、最後に高次元のアプリケーションと主成分分析による次元の削減を探求する。DBSCANアルゴリズムについては、脅威の探索や大規模データの効率的なSOC分析に応用することで、より深く掘り下げていきます。

このセクションの残りの時間は、決定木について説明します。実際に手を動かし、決定木の限界について議論した後、ランダムフォレストについて説明し、ほとんどの場合において、ランダムフォレストがより良い推論を提供することを実際に体験していただきます。最後に、ネットワーク上のユーザ活動の異常を発見するためのクラスタベースのアプローチについて説明します。

演習

  • K-MeansKNN
  • エルボー関数とPCA
  • DNSCANによるクラスタリング
  • サポートベクター分類器
  • サポートベクターマシン
  • 決定木
  • ランダムフォレスト

トピックス

  • サポートベクトルクラシファイア
  • サポートベクターマシン
  • カーネル関数
  • 主成分分析
  • DBSCAN
  • K-Means
  • KNN
  • エルボー関数
  • 決定木
  • ランダムフォレスト
  • 異常検知

Day4:Essentials of Machine Learning: Deep Learning

概要

このセクションでは、情報セキュリティ分野における教師あり学習アプローチの理論、開発、および使用に焦点を当てます。セクション2で扱った数学と統計学をベースに、線形回帰から始まり、リアルタイムのネットワークデータを含むマルチクラス分類問題への深層学習ニューラルネットワークの適用で終わります。

教材は、教師ありの機械学習と数学を使用して予測モデルを作成することに重点を置いています。最初の議論と演習は、異常検出のための予測と傾向分析が中心です。その後、分類問題に焦点を当てています。

セクション2で使用したベイズアプローチを基に、より正確なフィッシング検出ネットワークの開発を通じて、深層学習ニューラルネットワークと完全連結密なネットワークを紹介します。続いて、ニューラルネットワークの学習性能の可視化と測定について探求し、さらにオーバーフィット、過学習、そしてそれらを識別(そして回避!)する方法について議論します。

このセクションの次の部分は、カテゴリカルな問題に目を向け、リアルタイムネットワークプロトコル分類システムを構築します。さらに重要なことは、この分類システムにおいて、通常教師なしアプローチに留保されるタスクである異常検知を実装することです。

演習

  • ポリフィット回帰
  • ハロー、ワールド センチメント分析
  • ディープラーニングによるハムとスパムの比較
  • プロトコルの特定
  • プロトコルの異常検知

トピックス

  • 回帰とフィッティング
  • 損失関数とエラー関数
  • ベクトル、マトリックス、テンソル
  • パーセプトロンの基礎
  • 高密度ネットワーク

Day5:Essentials of Machine Learning: Autoencoders

概要

このセクションでは、ディープラーニングソリューションの知識を広げることに特化しています。前半は、畳み込みネットワーク(CNN)に全面的に焦点を当てます。このクラスでは、テキスト分類問題へのCNNの応用だけでなく、ゼロデイマルウェアの予測的識別への応用も探求します。

後半は、オートエンコーダーに焦点を当てます。オートエンコーダーが何をするのか、なぜ機能するのか、潜在的な表現をどのように選択するのか、再構成損失関数がどのように機能するのか、について検討する。そして、この知識を応用して、シグネチャや人手を介さない自動ログ異常検知ソリューションを作成し、異常の特定を行います。さらに、ネットワーク上の脅威を検知するための大規模なアンサンブル・オートエンコーダの構成要素についても学びます。

演習

  • マルウェアの予測識別 - ゼロデイを発見する
  • CNNスタイルによるハム対スパムの比較
  • CNNによるマルチクラステキスト分類
  • オートエンコーダーを使ったログ異常検出
  • リアルタイムのネットワーク異常

トピックス

  • 畳み込みニューラルネットワーク
  • レイヤーの埋め込み
  • テキスト問題へのCNNの適用
  • オートエンコーダ
  • 再構成損失の測定
  • アンサンブルオートエンコーダの作成

Day6:Essentials of Machine Learning: Functional Models and Deployment

概要

このコースの最終セクションでは、畳み込みニューラルネットワークと、回帰問題を解くためのCNNと完全連結ネットワークの応用について引き続き説明します。このセクションの主な焦点は、TensorFlowの関数パターンを使用したディープニューラルネットワークの作成であり、複雑な構造、複数の入力、複数の出力を持つネットワークを構築することができます。これらのテクニックを学ぶために使用される主なタスクは、CAPTCHAの品質テストと解決の両方にニューラルネットワークを使用することです。赤、青、紫のどのチームであっても、コンピュータ・ビジョンの問題を95%以上の精度で解くために、機械学習をどのように考え、使用するかを学びます!その過程で、代表的な合成データの作成の背後にある重要な概念、ジェネレータを使った合成データの作成方法、そして物事がどのようにうまくいかないかについても学びます。また、データ補強レイヤーの活用法も学びます。

このプロジェクトに続いて、授業ではハイパーパラメータ最適化のための遺伝的手法の使用について学ぶ。受講生には、授業終了後に各自で使用できるように、遺伝的最適化の出発点が提供されます。

コースの最後のディスカッションとデモンストレーションでは、リアルタイムでクリティカルなアプリケーションのためのスタンドアロンデプロイメントや、それほどクリティカルでないアプリケーションのための、Docker、Rancher、Kubernetesで使用できる、より一般的なコンテナ化アプローチなど、実践的なデプロイメントアプローチを取り上げます。

演習

  • CAPTCHAを解く: POC
  • CAPTCHAを解く: 機能的API
  • CAPTCHAを解く: 分割モデル

トピックス

  • ニューラルネットワークの機能的定義
  • 複数の出力を持つ深層学習ネットワーク
  • 機械学習問題を考える
  • 遺伝的アルゴリズム
  • コンテナを使ったデプロイメント

NRIセキュアではNews BitesやOUCH! を日本語に翻訳して皆さまにお届けしています。
購読制を採っておりますので、
ご希望の方は、ニュースレター登録からお申し込みください。