mws2011 logo

MWSについて

マルウェア対策研究人材育成ワークショップ 2011 (MWS 2011) は、サイバークリーンセンターで収集しているボット観測データを 「研究用データセット」 として活用するワークショップです。 MWS 2010 からは新たな試みとして、研究者コミュニティから提供されたデータも「研究用データセット」として活用しています。 「研究用データセット」を活用した研究として3つの分野を想定しています。

(1) 検体解析技術の研究
(2) 感染手法の検知ならびに解析技術の研究
(3) ボットの活動傾向把握技術の研究

開催の目的

インターネットのセキュリティインシデント全般が見えにくくなっています。背景のひとつに、活動を見えにくくするためのマルウェア機能の高度化や運用が挙げられます。 このような状況下で、セキュリティインシデントの発生に迅速に対処するためには、先端的な研究者だけではなく、企業のネットワーク技術ならびにセキュリティ技術を開発する実務者もマルウェアに関する専門知識を備えていく必要があると考えています。
本ワークショップは、研究用データセットの提供、研究成果の共有ならびに切磋琢磨する環境の提供を通して、マルウェアに関する専門知識を備えた研究者/実務者を育成していくことを目的としています。

研究用データセットの提供

トラヒック分析技術やマルウェア分析技術を研究/評価するための適切な素材を準備し、研究者(学生、ネットワーク技術ならびにセキュリティ技術を開発する実務者)に提供することで、以下の二点を実現します。

研究成果の共有

同じ研究用データセットを用いて行った研究成果を本ワークショップで発表し、研究者間で共有することで、より具体的な成果の水平展開を図り、セキュリティ研究人材育成につなげます。

切磋琢磨する環境の提供

同じ研究用データセットに基づく研究内容を共有することで、具体的なスキルアップ目標や、先進的な研究テーマの発見など、研究者の評価育成の場を形成します。

さらに、ワークショップ開催を研究用標準データを対象とした研究の立ち上げトリガにしたいと考えています。

研究用データセットの提供
〜研究成果の共有〜切磋琢磨する環境の提供

マルウェア対策研究人材育成ワークショップ 2011 では、サイバークリーンセンター (https://www.ccc.go.jp/) で収集しているボット観測データ CCC DATAset 2011、研究者コミュニティから提供された D3M 2011 (Web感染型マルウェアデータ)を「研究用データセット」 として活用します。 また、「研究成果の共有」「切磋琢磨する環境」の場として、情報処理学会で開催するシンポジウム CSS2011 (http://www.iwsec.org/css/2011/) を活用します。
研究用データセットの提供〜研究成果の共有〜切磋琢磨する環境の提供

研究用データセット

研究用データセットの代表例として、1999年に米カリフォルニア大学により提供されたデータマイニング用の "KDD Cup 1999 Data"があります。このような研究用データセットは、評価するために精査されたデータ群ではありませんが、同じ研究用データセットを用いるため、研究者間で研究成果を共有することができます。

研究用標準データ

研究用標準データの代表例として、1999年に米リンカーン研究所が開発した "1999 DARPA Intrusion Detection Evaluation Data Set"があります。このデータは、侵入検知システムの有効性を確認するためのトラフィック評価データで、侵入検知技術の客観的な評価を行なうための評価データとしても活用されています。このような評価データは、技術の有効性や効果を客観的に確認するためのデータとして必要とされています。

研究用データセット MWS 2011 Datasetsについて

マルウェア対策研究人材育成ワークショップ 2011 で使用する研究用データセット MWS 2011 Datasets は、CCC DATAset 2011、D3M 2011の 2 つから構成されたデータ群です。

研究用データセット(CCC DATAset 2011 and D3M 2011)

CCC DATAset 2011

CCC DATAset 2011 は、マルウェア検体、攻撃通信データ、攻撃元データの3つから構成されたボット観測データ群です。

マルウェア検体 >> (1) 検体解析技術の研究
研究用データセットを提供するための観測装置(一般的に、おとりPC、ハニーポットと呼ばれている)で取得したマルウェアのハッシュ値
※解析結果を照合できる検体、関連性をもって解析ができる複数の検体、特徴的な機能を有するなど技術的に目を通しておきたい検体として選定

攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
研究用データセットを提供するための観測装置で取得した通信のフルキャプチャデータ

攻撃元データ >> (3) ボットの活動傾向把握技術の研究
研究用データセットを提供するための観測装置で取得したマルウェア取得時のログデータ(マルウェア検体の取得時刻、送信元IPアドレス、送信元ポート番号、宛先IPアドレス、宛先ポート番号、TCPまたはUDP、マルウェア検体のハッシュ値(SHA1)、ウイルス名称、ファイル名)
※送信元IPアドレスまたは宛先IPアドレスに相当するハニーポットのIPアドレスは各ハニーポットに対応するIDに置換

研究用データセット(CCC DATAset 2011)

項目 CCC DATAset
2008 2009 2010 2011
マルウェア検体 検体数 1 10 50 50
選定条件 多機能,解読困難 解析結果あり,関連性のある複数検体,特徴的な機能 解析結果あり,特徴的な機能,2010年1月から3月までに収集した未知検体 解析結果あり,特徴的な機能,2011年1月に収集した未知検体
攻撃通信データ ハニーポット honey001, honey002 honey003, honey004 honey001, honey002 honey001, honey002
収集日 2008年4月28日, 29日 2009年3月13日, 14日 2010年3月5日〜11日 2010年8月18日〜8月31日,
2011年1月18日〜1月31日
攻撃元データ ハニーポット数 112 台 94 台 92 台 72 台
ハニーポットID なし あり あり あり
収集期間 2007 年11 月1 日〜
2008 年4 月30 日
2008 年5 月1 日〜
2009 年4 月30 日
2009 年5 月1 日〜
2010 年4 月30 日
2010 年5 月1 日〜
2011 年1 月31 日

D3M 2011

D3M 2011 (Drive-by-Download Data by Marionette 2011)は、NTT情報流通プラットフォーム研究所の高対話型のWebクライアントハニーポット(Marionette)で収集したマルウェア検体、攻撃通信データの2つを収録したWeb感染型マルウェアの観測データ群です。

マルウェア検体 >> (1) 検体解析技術の研究
Webクライアントハニーポットで収集したWeb感染型マルウェアのハッシュ値 (34検体分)

攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
公開ブラックリストに登録されているURLをクライアントハニーポットへ入力して巡回を行った通信のフルキャプチャデータ

また、過去との傾向の違いを分析する等の目的で、参考情報として CCC DATAset 2008CCC DATAset 2009MWS 2010 Dadasets、MARS for MWS 2008〜2010 も提供しています。

研究用データセット MARS (Malware Analysis Result Set) は、NICT(独立行政法人 情報通信研究機構)が所有する小規模攻撃再現テストベッドによる CCC DATAset のマルウェア検体の動作記録です。MARS for MWS2010 は MWS 2010 用に提供している CCC DATAset 2010 のマルウェア検体(50検体分)の動作記録データです。動作記録データはマルウェア検体実行時の環境構成情報、clamscanの結果、動作時の PCAP(パケットキャプチャ)データ、メモリダンプ、strings、volatilityの結果等を含みます。

  MWS Datasets
2008 2009 2010 2011
CCC DATAset on on on on
MARS for MWS on on on
D3M on on

[参考文献]

MWS Cupについて

MWS Cup は、研究用データセットの活用によるマルウェア対策研究の成果を活用して、一定時間で課題に取り組み、解析結果を競います。技術的な解析の正確性(技術点)と、解析方法の発表(芸術点)により判定を行い、合計点が最も高いチームが総合賞、技術点が最も高いチームが技術賞、審査委員によって採点される芸術点が最も高いチームが芸術賞を獲得します。MWS Cup 2011 では、3つの課題に取り組みます。

  1. drive-by-download攻撃解析
    クライアント型ハニーポットの通信データ(pcap)をもとに、攻撃コードの有無、攻撃コードが置かれているWebサイトへ誘導(転送)するWebサイトのURL、攻撃コードが置かれているWebサイトのURL、マルウェアを配布するURLを解析し解答する課題[記述式]
  2. ボット感染解析
    ボットに感染した仮想マシンと感染前後の通信データ(pcap)をもとに、侵入に利用された脆弱性、バックドアポート番号、ボットをダウンロードし実行した方法、ボットの起動プロセス名、ボットのファイルバスを解析し解答する課題[選択式、記述式]
  3. Androidマルウェア解析
    5個のAndroidアプリをもとに、正常、情報漏えい型、root権限奪取型など特徴を解析し解答する課題[選択式]

MWS Cup 2011 には6チームが参加します。
・Team GOTO Love
・24Droid
・Retry=1
・優勝したらプレスリリース打ちます。IIJセキュリティ情報統括室
・Revenger
・東京電機大学ISL