[ MWS2008 ( Japanese | English ) | MWS2009 ( Japanese | English ) ]
マルウェア対策研究人材育成ワークショップ 2010 (MWS 2010) は、サイバークリーンセンターで収集しているボット観測データを 「研究用データセット」 として活用するワークショップです。 MWS 2010 では新たな試みとして、研究者コミュニティから提供されたデータも「研究用データセット」として活用します。
「研究用データセット」を活用した研究として3つの分野を想定しています。
@検体解析技術の研究
A感染手法の検知ならびに解析技術の研究
Bボットの活動傾向把握技術の研究
インターネットのセキュリティインシデント全般が見えにくくなっています。背景のひとつに、活動を見えにくくするためのマルウェア機能の高度化や運用が挙げられます。
このような状況下で、セキュリティインシデントの発生に迅速に対処するためには、先端的な研究者だけではなく、企業のネットワーク技術ならびにセキュリティ技術を開発する実務者もマルウェアに関する専門知識を備えていく必要があると考えています。
本ワークショップは、研究用データセットの提供、研究成果の共有ならびに切磋琢磨する環境の提供を通して、マルウェアに関する専門知識を備えた研究者/実務者を育成していくことを目的としています。
マルウェア対策研究人材育成ワークショップ 2010 では、サイバークリーンセンター (https://www.ccc.go.jp/) で収集しているボット観測データ CCC DATAset 2010 や、研究者コミュニティから提供されたMARS for MWS 2010 (マルウェア検体の動作記録データ)やD3M 2010(Web感染型マルウェアデータ)を「研究用データセット」 として活用します。
また、「研究成果の共有」「切磋琢磨する環境」の場として、情報処理学会で開催するシンポジウム CSS2010 (http://www.iwsec.org/css/2010/) を活用します。
研究用データセット
研究用データセットの代表例として、1999年に米カリフォルニア大学により提供されたデータマイニング用の "KDD Cup 1999 Data"があります。このような研究用データセットは、評価するために精査されたデータ群ではありませんが、同じ研究用データセットを用いるため、研究者間で研究成果を共有することができます。
研究用標準データ
研究用標準データの代表例として、1999年に米リンカーン研究所が開発した "1999 DARPA Intrusion Detection
Evaluation Data Set"があります。このデータは、侵入検知システムの有効性を確認するためのトラフィック評価データで、侵入検知技術の客観的な評価を行なうための評価データとしても活用されています。このような評価データは、技術の有効性や効果を客観的に確認するためのデータとして必要とされています。
CCC DATAset 2010 は、マルウェア検体、攻撃通信データ、攻撃元データの3つから構成されたボット観測データ群です。
マルウェア検体 ⇒ @検体解析技術の研究
研究用データセットを提供するための観測装置(一般的に、おとりPC、ハニーポットと呼ばれている)で取得したマルウェアのハッシュ値
※解析結果を照合できる検体、関連性をもって解析ができる複数の検体、特徴的な機能を有するなど技術的に目を通しておきたい検体として選定
攻撃通信データ ⇒ A感染手法の検知ならびに解析技術の研究
研究用データセットを提供するための観測装置で取得した通信のフルキャプチャデータ
攻撃元データ ⇒ Bボットの活動傾向把握技術の研究
研究用データセットを提供するための観測装置で取得したマルウェア取得時のログデータ(マルウェア検体の取得時刻、送信元IPアドレス、送信元ポート番号、宛先IPアドレス、宛先ポート番号、TCPまたはUDP、マルウェア検体のハッシュ値(SHA1)、ウイルス名称、ファイル名)
※送信元IPアドレスまたは宛先IPアドレスに相当するハニーポットのIPアドレスは各ハニーポットに対応するIDに置換
項目 | CCC DATAset 2008 | CCC DATAset 2009 | CCC DATAset 2010 | |
マルウェア検体 | 検体数 | 1 | 10 | 50 |
選定条件 | 多機能,解読困難 | 解析結果あり,関連性のある複数検体,特徴的な機能 | 解析結果あり,特徴的な機能,2010年1月から3月までに収集した未知検体 | |
攻撃通信データ | ハニーポット | honey001, honey002 | honey003, honey004 | honey001, honey002 |
収集日 | 2008 年4 月28 日,29 日 | 2009 年3月13 日,14 日 | 2010 年3月5 日〜11 日 | |
攻撃元データ | ハニーポット数 | 112 台 | 94 台 | 92 台 |
ハニーポットID | なし | あり | あり | |
収集期間 | 2007 年11 月1 日〜 2008 年4 月30 日 |
2008 年5 月1 日〜 2009 年4 月30 日 |
2009 年5 月1 日〜 2010 年4 月30 日 |
研究用データセット MARS (Malware Analysis Result Set) は、NICT(独立行政法人 情報通信研究機構)が所有する小規模攻撃再現テストベッドによる CCC DATAset のマルウェア検体の動作記録です。MARS for MWS2010 は MWS 2010 用に提供している CCC DATAset 2010 のマルウェア検体(50検体分)の動作記録データです。動作記録データはマルウェア検体実行時の環境構成情報、clamscanの結果、動作時のPCAP(パケットキャプチャ)データ、メモリダンプ、strings、volatilityの結果等を含みます。
また、参考情報として CCC DATAset 2008、CCC DATAset 2009 のマルウェア検体の動作記録データである MARS for MWS 2008、MARS for MWS 2009 も提供される。
D3M 2010 (Drive-by-Download Data by Marionette 2010)は、NTT情報流通プラットフォーム研究所の高対話型のWebクライアントハニーポット(Marionette)で収集したマルウェア検体、攻撃通信データの2つを収録したWeb感染型マルウェアの観測データ群です。
マルウェア検体 ⇒ @検体解析技術の研究
クライアントハニーポットで収集した”Gumblar.8080系”のマルウェア検体のハッシュ値(3体分)
攻撃通信データ ⇒ A感染手法の検知ならびに解析技術の研究
公開ブラックリストに登録されているURLをクライアントハニーポットへ入力して巡回を行った通信のフルキャプチャデータ