[ MWS2008 ( Japanese | English ) | MWS2009 ( Japanese | English ) ]


MWSについて

マルウェア対策研究人材育成ワークショップ 2010 (MWS 2010) は、サイバークリーンセンターで収集しているボット観測データを 「研究用データセット」 として活用するワークショップです。 MWS 2010 では新たな試みとして、研究者コミュニティから提供されたデータも「研究用データセット」として活用します。 「研究用データセット」を活用した研究として3つの分野を想定しています。

@検体解析技術の研究
A感染手法の検知ならびに解析技術の研究
Bボットの活動傾向把握技術の研究


開催の目的

インターネットのセキュリティインシデント全般が見えにくくなっています。背景のひとつに、活動を見えにくくするためのマルウェア機能の高度化や運用が挙げられます。 このような状況下で、セキュリティインシデントの発生に迅速に対処するためには、先端的な研究者だけではなく、企業のネットワーク技術ならびにセキュリティ技術を開発する実務者もマルウェアに関する専門知識を備えていく必要があると考えています。
本ワークショップは、研究用データセットの提供、研究成果の共有ならびに切磋琢磨する環境の提供を通して、マルウェアに関する専門知識を備えた研究者/実務者を育成していくことを目的としています。

  1. 研究用データセットの提供
    トラヒック分析技術やマルウェア分析技術を研究/評価するための適切な素材を準備し、研究者(学生、ネットワーク技術ならびにセキュリティ技術を開発する実務者)に提供することで、以下の二点を実現します。
  2. 研究成果の共有
    同じ研究用データセットを用いて行った研究成果を本ワークショップで発表し、研究者間で共有することで、より具体的な成果の水平展開を図り、セキュリティ研究人材育成につなげます。
  3. 切磋琢磨する環境の提供
    同じ研究用データセットに基づく研究内容を共有することで、具体的なスキルアップ目標や、先進的な研究テーマの発見など、研究者の評価育成の場を形成します。
さらに、ワークショップ開催を研究用標準データを対象とした研究の立ち上げトリガにしたいと考えています。


研究用データセットの提供〜研究成果の共有〜切磋琢磨する環境の提供

マルウェア対策研究人材育成ワークショップ 2010 では、サイバークリーンセンター (https://www.ccc.go.jp/) で収集しているボット観測データ CCC DATAset 2010 や、研究者コミュニティから提供されたMARS for MWS 2010 (マルウェア検体の動作記録データ)やD3M 2010(Web感染型マルウェアデータ)を「研究用データセット」 として活用します。 また、「研究成果の共有」「切磋琢磨する環境」の場として、情報処理学会で開催するシンポジウム CSS2010 (http://www.iwsec.org/css/2010/) を活用します。
研究用データセットの提供〜研究成果の共有〜切磋琢磨する環境の提供

研究用データセット
研究用データセットの代表例として、1999年に米カリフォルニア大学により提供されたデータマイニング用の "KDD Cup 1999 Data"があります。このような研究用データセットは、評価するために精査されたデータ群ではありませんが、同じ研究用データセットを用いるため、研究者間で研究成果を共有することができます。

研究用標準データ
研究用標準データの代表例として、1999年に米リンカーン研究所が開発した "1999 DARPA Intrusion Detection Evaluation Data Set"があります。このデータは、侵入検知システムの有効性を確認するためのトラフィック評価データで、侵入検知技術の客観的な評価を行なうための評価データとしても活用されています。このような評価データは、技術の有効性や効果を客観的に確認するためのデータとして必要とされています。


研究用データセット MWS 2010 Datasets

マルウェア対策研究人材育成ワークショップ 2010 で使用する研究用データセット MWS 2010 Datasets は、CCC DATAset 2010、MARS for MWS 2010、D3M 2010の3つから構成されたデータ群です。
  1. CCC DATAset 2010

    CCC DATAset 2010 は、マルウェア検体、攻撃通信データ、攻撃元データの3つから構成されたボット観測データ群です。

    マルウェア検体 ⇒ @検体解析技術の研究
    研究用データセットを提供するための観測装置(一般的に、おとりPC、ハニーポットと呼ばれている)で取得したマルウェアのハッシュ値
    ※解析結果を照合できる検体、関連性をもって解析ができる複数の検体、特徴的な機能を有するなど技術的に目を通しておきたい検体として選定

    攻撃通信データ ⇒ A感染手法の検知ならびに解析技術の研究
    研究用データセットを提供するための観測装置で取得した通信のフルキャプチャデータ

    攻撃元データ ⇒ Bボットの活動傾向把握技術の研究
    研究用データセットを提供するための観測装置で取得したマルウェア取得時のログデータ(マルウェア検体の取得時刻、送信元IPアドレス、送信元ポート番号、宛先IPアドレス、宛先ポート番号、TCPまたはUDP、マルウェア検体のハッシュ値(SHA1)、ウイルス名称、ファイル名)
    ※送信元IPアドレスまたは宛先IPアドレスに相当するハニーポットのIPアドレスは各ハニーポットに対応するIDに置換

    研究用データセット(CCC DATAset 2010)

    また、過去との傾向の違いを分析する等の目的で、参考情報として CCC DATAset 2008CCC DATAset 2009 も提供される。
    項目 CCC DATAset 2008 CCC DATAset 2009 CCC DATAset 2010
    マルウェア検体 検体数 1 10 50
    選定条件 多機能,解読困難 解析結果あり,関連性のある複数検体,特徴的な機能 解析結果あり,特徴的な機能,2010年1月から3月までに収集した未知検体
    攻撃通信データ ハニーポット honey001, honey002 honey003, honey004 honey001, honey002
    収集日 2008 年4 月28 日,29 日 2009 年3月13 日,14 日 2010 年3月5 日〜11 日
    攻撃元データ ハニーポット数 112 台 94 台 92 台
    ハニーポットID なし あり あり
    収集期間 2007 年11 月1 日〜
    2008 年4 月30 日
    2008 年5 月1 日〜
    2009 年4 月30 日
    2009 年5 月1 日〜
    2010 年4 月30 日

  2. MARS for MWS 2010 ⇒ @検体解析技術の研究

    研究用データセット MARS (Malware Analysis Result Set) は、NICT(独立行政法人 情報通信研究機構)が所有する小規模攻撃再現テストベッドによる CCC DATAset のマルウェア検体の動作記録です。MARS for MWS2010 は MWS 2010 用に提供している CCC DATAset 2010 のマルウェア検体(50検体分)の動作記録データです。動作記録データはマルウェア検体実行時の環境構成情報、clamscanの結果、動作時のPCAP(パケットキャプチャ)データ、メモリダンプ、strings、volatilityの結果等を含みます。

    また、参考情報として CCC DATAset 2008、CCC DATAset 2009 のマルウェア検体の動作記録データである MARS for MWS 2008、MARS for MWS 2009 も提供される。

  3. D3M 2010

    D3M 2010 (Drive-by-Download Data by Marionette 2010)は、NTT情報流通プラットフォーム研究所の高対話型のWebクライアントハニーポット(Marionette)で収集したマルウェア検体、攻撃通信データの2つを収録したWeb感染型マルウェアの観測データ群です。

    マルウェア検体 ⇒ @検体解析技術の研究
    クライアントハニーポットで収集した”Gumblar.8080系”のマルウェア検体のハッシュ値(3体分)

    攻撃通信データ ⇒ A感染手法の検知ならびに解析技術の研究
    公開ブラックリストに登録されているURLをクライアントハニーポットへ入力して巡回を行った通信のフルキャプチャデータ

      [参考文献]
    • Mitsuaki Akiyama, Kazufumi Aoki, Yuhei Kawakoya, Makoto Iwamura, and Mitsuataka Itoh, Design and Implementation of High Interaction Client Honeypot for Drive-by-download Attacks, IEICE Transactions on Communication, Vol.E93-B No.5 pp.1131-1139, May. 2010.