MWSについて

マルウェア対策研究人材育成ワークショップ 2012 (MWS 2012) は、 サイバークリーンセンター ハニーポット※1で収集しているボット観測データ、 研究者コミュニティから提供されたデータを「研究用データセット」として活用するワークショップです。 研究者コミュニティから提供されたデータは、MWS 2010 から新たな試みとして開始しました。

「研究用データセット」を活用した研究として3つの分野を想定しています。

  1. 検体解析技術の研究
  2. 感染手法の検知ならびに解析技術の研究
  3. ボットの活動傾向把握技術の研究

※1「サイバークリーンセンター ハニーポット」はサイバークリーンセンター(CCC)の後継として、CCC運営連絡会が引き続き運用しているハニーポットです。CCC運営連絡会は、CCCの活動を民間主導で引き継ぐために設立された連絡会で、次の3組織から構成されています。

開催の目的

インターネットのセキュリティインシデント全般が見えにくくなっています。背景のひとつに、活動を見えにくくするためのマルウェア機能の高度化や運用が挙げられます。 このような状況下で、セキュリティインシデントの発生に迅速に対処するためには、先端的な研究者だけではなく、企業のネットワーク技術ならびにセキュリティ技術を開発する実務者もマルウェアに関する専門知識を備えていく必要があると考えています。
本ワークショップは、研究用データセットの提供、研究成果の共有ならびに切磋琢磨する環境の提供を通して、マルウェアに関する専門知識を備えた研究者/実務者を育成していくことを目的としています。

研究用データセットの提供

トラヒック分析技術やマルウェア分析技術を研究/評価するための適切な素材を準備し、研究者(学生、ネットワーク技術ならびにセキュリティ技術を開発する実務者)に提供することで、以下の二点を実現します。

研究成果の共有

同じ研究用データセットを用いて行った研究成果を本ワークショップで発表し、研究者間で共有することで、より具体的な成果の水平展開を図り、セキュリティ研究人材育成につなげます。

切磋琢磨する環境の提供

同じ研究用データセットに基づく研究内容を共有することで、具体的なスキルアップ目標や、先進的な研究テーマの発見など、研究者の評価育成の場を形成します。

さらに、ワークショップ開催を研究用標準データを対象とした研究の立ち上げトリガにしたいと考えています。

研究用データセットの提供~研究成果の共有~切磋琢磨する環境の提供

マルウェア対策研究人材育成ワークショップ 2012 では、 サイバークリーンセンター (https://www.ccc.go.jp/) で収集しているボット観測データ CCC DATAset 2012、 研究者コミュニティから提供された D3M 2012 (Web感染型マルウェアデータ)、 MARS (マルウェア検体の動作記録)、 IIJ MITF DATAset 2012 (攻撃元データ) を「研究用データセット」 として活用します。 また、「研究成果の共有」「切磋琢磨する環境」の場として、情報処理学会で開催するシンポジウム CSS2012 (http://www.iwsec.org/css/2012/) を活用します。
研究用データセットの提供?研究成果の共有?切磋琢磨する環境の提供

研究用データセット

研究用データセットの代表例として、1999年に米カリフォルニア大学により提供されたデータマイニング用の "KDD Cup 1999 Data"があります。このような研究用データセットは、評価するために精査されたデータ群ではありませんが、同じ研究用データセットを用いるため、研究者間で研究成果を共有することができます。

研究用標準データ

研究用標準データの代表例として、1999年に米リンカーン研究所が開発した "1999 DARPA Intrusion Detection Evaluation Data Set"があります。このデータは、侵入検知システムの有効性を確認するためのトラフィック評価データで、侵入検知技術の客観的な評価を行なうための評価データとしても活用されています。このような評価データは、技術の有効性や効果を客観的に確認するためのデータとして必要とされています。

研究用データセット MWS 2012 Datasetsについて

マルウェア対策研究人材育成ワークショップ 2012 で使用する研究用データセット MWS 2012 Datasets は、 CCC DATAset 2012、 MARS、 D3M 2012、 IIJ MITF DATAset 2012の 4 つから構成されたデータ群です。

研究用データセット(CCC DATAset 2012 and D3M 2012)

CCC DATAset 2012

CCC DATAset 2012 は、マルウェア検体を収録したボット観測データ群であり、CCC運営連絡会が運用するサイバークリーンセンター ハニーポットで収集したマルウェア検体とウイルス対策ソフト6製品での検知名をリスト化したデータです。過去の CCC DATAset 2008CCC DATAset 2009CCC DATAset 2010CCC DADAset 2011 はマルウェア検体、攻撃通信データ、攻撃元データの3つから構成されたボット観測データ群も、参考情報として提供しています。

マルウェア検体 >> (1) 検体解析技術の研究
研究用データセットを提供するための観測装置(一般的に、おとりPC、ハニーポットと呼ばれている)で取得したマルウェアのハッシュ値
※解析結果を照合できる検体、関連性をもって解析ができる複数の検体、特徴的な機能を有するなど技術的に目を通しておきたい検体として選定

攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
研究用データセットを提供するための観測装置で取得した通信のフルキャプチャデータ

攻撃元データ >> (3) ボットの活動傾向把握技術の研究
研究用データセットを提供するための観測装置で取得したマルウェア取得時のログデータ(マルウェア検体の取得時刻、送信元IPアドレス、送信元ポート番号、宛先IPアドレス、宛先ポート番号、TCPまたはUDP、マルウェア検体のハッシュ値(SHA1)、ウイルス名称、ファイル名)
※送信元IPアドレスまたは宛先IPアドレスに相当するハニーポットのIPアドレスは各ハニーポットに対応するIDに置換

研究用データセット(CCC DATAset 2012)

項目 CCC DATAset
2008 2009 2010 2011 2012
マルウェア検体 検体数 1 10 50 50 10,538
選定条件 多機能,解読困難 解析結果あり,関連性のある複数検体,特徴的な機能 解析結果あり,特徴的な機能,2010年1月から3月までに収集した未知検体 解析結果あり,特徴的な機能,2011年1月に収集した未知検体 2012年1月1日~2012年1月31日の期間、ハニーポット12台分で得られたデータ
攻撃通信データ ハニーポット honey001, honey002 honey003, honey004 honey001, honey002 honey001, honey002 攻撃通信データは含まれません
収集日 2008年4月28日, 29日 2009年3月13日, 14日 2010年3月5日?11日 2010年8月18日?8月31日,
2011年1月18日~1月31日
--
攻撃元データ ハニーポット数 112 台 94 台 92 台 72 台 攻撃元データは含まれません
ハニーポットID なし あり あり あり --
収集期間 2007年11月1日~
2008年4月30日
2008年5月1日~
2009年4月30日
2009年5月1日~
2010年4月30日
2010年5月1日~
2011年1月31日
--


D3M 2012

D3M 2012 (Drive-by-Download Data by Marionette 2012) は、NTTセキュアプラットフォーム研究所の高対話型のWebクライアントハニーポット(Marionette)で収集したマルウェア検体、攻撃通信データの2つを収録したWeb感染型マルウェアの観測データ群です。 過去との傾向の違いを分析する等の目的で、参考情報として、 D3M 2010D3M 2011 も提供しています。

マルウェア検体 >> (1) 検体解析技術の研究
Webクライアントハニーポットで収集したWeb感染型マルウェアのハッシュ値 (34検体分)

攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
公開ブラックリストに登録されているURLをクライアントハニーポットへ入力して巡回を行った通信のフルキャプチャデータ

マルウェア通信データ >> (3) マルウェアの活動傾向把握技術の研究
上記 (1) のWeb感染型マルウェアを動的解析器で解析した時の通信のフルキャプチャデータ

MARS

研究用データセット MARS (Malware Analysis Result Set) は、NICT(独立行政法人 情報通信研究機構)が所有する小規模攻撃再現テストベッドによる CCC DATAset のマルウェア検体の動作記録です。 MARS は、 CCC DATAset 2008(1検体分)、 CCC DATAset 2009 (10検体分)、 CCC DATAset 2010 (50検体分) のマルウェア検体の動作記録データです。動作記録データはマルウェア検体実行時の環境構成情報、clamscanの結果、動作時の PCAP (パケットキャプチャ) データ、メモリダンプ、strings、volatilityの結果等を含みます。

IIJ MITF DATAset 2012

IIJ MITF (Malware Investigation Task Force) DATAset 2012 は、インターネットイニシアティブ (IIJ) が運用するdionaeaベースのローインタラクション型ハニーポットで収集したマルウェア検体、攻撃通信データの2つを収録したbot観測データ群です。詳細はこちらを参照下さい。 CCC DATAset 2012と同様、以下の研究目的に利用することができます。

攻撃元データ >> (3) ボットの活動傾向把握技術の研究

  IIJ MITF DATAset
2012
期間 2011年7月1日から2012年4月30日
環境条件 WindowsXP SP2エミュレーション
ハニーポット 100台


DATAsetのまとめ


  MWS Datasets
2008 2009 2010 2011 2012
CCC DATAset on on on on on
MARS for MWS on on on
D3M on on on
IIJ MITF DATAset on



[参考文献]

MWS Cupについて

MWS Cup は、研究用データセットの活用によるマルウェア対策研究の成果を活用して、規定時間内で課題に取り組、解析結果を競います。技術的な解析の正確性(技術点)と、解析方法の発表(芸術点)により判定を行い、合計点が最も高いチームが総合賞、技術点が最も高いチームが技術賞、審査委員によって採点される芸術点が最も高いチームが芸術賞を獲得します。MWS Cup2012の課題の大枠を以下に示します。詳細は、各課題作成が完成次第、展開致します。 なお、課題1「インシデントレスポンス」に関しましては、解き方のヒントを以下に公開します。

  • インシデントレスポンス(VMwareイメージを解析)
    • ある組織の端末がマルウェアに感染した際のインシデントをフォレンジックやコード解析で詳細解析し、解答する課題
  • drive-by-download攻撃解析(Pcapデータを解析)
    • クライアント型ハニーポットの通信データ(pcap)をもとに攻撃コードなどを解析し、解答する課題
  • 検体解析(PDFタイプの検体を解析)
    • 実際の検体を静的解析し、解答する課題
  • Androidマルウェア解析(apkファイルを解析)
    • 2個(想定)のAndroidマルウェアを解析し、解答する課題
MWS Cup 2012 には11チーム、70名の参加予定です。
  • 「Team GOTO Love」
  • 「IT Keys若手の会@NAIST」
  • 「TDU-ISL」
  • 「mochigoma」
  • 「Retry=++1」
  • 「頑張ります」
  • 「Mr.Ng」
  • 「Zlab 2012」
  • 「NWU12」
  • 「人海戦術チーム」
  • 「24Droid」

  • 特別参加「tessy」

過去の課題

MWS Cup 2011

共同開催 CSS2012

過去開催情報

MWS2011 MWS2010 MWS2009 MWS2008

研究用データセット
協力組織

CCC DATAset
   独立行政法人情報処理推進機構

   JPCERTコーディネーションセンター

   財団法人日本データ通信協会 Telecom-ISAC Japan


MARS
独立行政法人情報通信研究機構


D3M
日本電信電話株式会社


エヌ・ティ・ティ・コミュニケーションズ株式会社


IIJ MITF
   株式会社インターネットイニシアティブ

協賛企業

トレンドマイクロ株式会社

  Hitachi Incident Response Team

  株式会社コムワース

  株式会社インターネットイニシアティブ

  デジタルアーツ株式会社

株式会社フォティーンフォティ技術研究所

マカフィー株式会社

ページのトップへ戻る