※1「サイバークリーンセンター ハニーポット」はサイバークリーンセンター(CCC)の後継として、CCC運営連絡会が引き続き運用しているハニーポットです。CCC運営連絡会は、CCCの活動を民間主導で引き継ぐために設立された連絡会で、次の3組織から構成されています。
マルウェア対策研究人材育成ワークショップ 2012 (MWS 2012) は、
サイバークリーンセンター ハニーポット※1で収集しているボット観測データ、
研究者コミュニティから提供されたデータを「研究用データセット」として活用するワークショップです。
研究者コミュニティから提供されたデータは、MWS 2010 から新たな試みとして開始しました。
「研究用データセット」を活用した研究として3つの分野を想定しています。
※1「サイバークリーンセンター ハニーポット」はサイバークリーンセンター(CCC)の後継として、CCC運営連絡会が引き続き運用しているハニーポットです。CCC運営連絡会は、CCCの活動を民間主導で引き継ぐために設立された連絡会で、次の3組織から構成されています。
インターネットのセキュリティインシデント全般が見えにくくなっています。背景のひとつに、活動を見えにくくするためのマルウェア機能の高度化や運用が挙げられます。
このような状況下で、セキュリティインシデントの発生に迅速に対処するためには、先端的な研究者だけではなく、企業のネットワーク技術ならびにセキュリティ技術を開発する実務者もマルウェアに関する専門知識を備えていく必要があると考えています。
本ワークショップは、研究用データセットの提供、研究成果の共有ならびに切磋琢磨する環境の提供を通して、マルウェアに関する専門知識を備えた研究者/実務者を育成していくことを目的としています。
トラヒック分析技術やマルウェア分析技術を研究/評価するための適切な素材を準備し、研究者(学生、ネットワーク技術ならびにセキュリティ技術を開発する実務者)に提供することで、以下の二点を実現します。
同じ研究用データセットを用いて行った研究成果を本ワークショップで発表し、研究者間で共有することで、より具体的な成果の水平展開を図り、セキュリティ研究人材育成につなげます。
同じ研究用データセットに基づく研究内容を共有することで、具体的なスキルアップ目標や、先進的な研究テーマの発見など、研究者の評価育成の場を形成します。
さらに、ワークショップ開催を研究用標準データを対象とした研究の立ち上げトリガにしたいと考えています。
マルウェア対策研究人材育成ワークショップ 2012 では、
サイバークリーンセンター (https://www.ccc.go.jp/) で収集しているボット観測データ CCC DATAset 2012、
研究者コミュニティから提供された D3M 2012 (Web感染型マルウェアデータ)、
MARS (マルウェア検体の動作記録)、
IIJ MITF DATAset 2012 (攻撃元データ)
を「研究用データセット」 として活用します。
また、「研究成果の共有」「切磋琢磨する環境」の場として、情報処理学会で開催するシンポジウム CSS2012 (http://www.iwsec.org/css/2012/) を活用します。
研究用データセットの代表例として、1999年に米カリフォルニア大学により提供されたデータマイニング用の "KDD Cup 1999 Data"があります。このような研究用データセットは、評価するために精査されたデータ群ではありませんが、同じ研究用データセットを用いるため、研究者間で研究成果を共有することができます。
研究用標準データの代表例として、1999年に米リンカーン研究所が開発した "1999 DARPA Intrusion Detection Evaluation Data Set"があります。このデータは、侵入検知システムの有効性を確認するためのトラフィック評価データで、侵入検知技術の客観的な評価を行なうための評価データとしても活用されています。このような評価データは、技術の有効性や効果を客観的に確認するためのデータとして必要とされています。
マルウェア対策研究人材育成ワークショップ 2012 で使用する研究用データセット MWS 2012 Datasets は、
CCC DATAset 2012、
MARS、
D3M 2012、
IIJ MITF DATAset 2012の 4 つから構成されたデータ群です。
CCC DATAset 2012 は、マルウェア検体を収録したボット観測データ群であり、CCC運営連絡会が運用するサイバークリーンセンター ハニーポットで収集したマルウェア検体とウイルス対策ソフト6製品での検知名をリスト化したデータです。過去の CCC DATAset 2008、CCC DATAset 2009、CCC DATAset 2010、CCC DADAset 2011 はマルウェア検体、攻撃通信データ、攻撃元データの3つから構成されたボット観測データ群も、参考情報として提供しています。
マルウェア検体 >> (1) 検体解析技術の研究
研究用データセットを提供するための観測装置(一般的に、おとりPC、ハニーポットと呼ばれている)で取得したマルウェアのハッシュ値
※解析結果を照合できる検体、関連性をもって解析ができる複数の検体、特徴的な機能を有するなど技術的に目を通しておきたい検体として選定
攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
研究用データセットを提供するための観測装置で取得した通信のフルキャプチャデータ
攻撃元データ >> (3) ボットの活動傾向把握技術の研究
研究用データセットを提供するための観測装置で取得したマルウェア取得時のログデータ(マルウェア検体の取得時刻、送信元IPアドレス、送信元ポート番号、宛先IPアドレス、宛先ポート番号、TCPまたはUDP、マルウェア検体のハッシュ値(SHA1)、ウイルス名称、ファイル名)
※送信元IPアドレスまたは宛先IPアドレスに相当するハニーポットのIPアドレスは各ハニーポットに対応するIDに置換
項目 | CCC DATAset | |||||
2008 | 2009 | 2010 | 2011 | 2012 | ||
マルウェア検体 | 検体数 | 1 | 10 | 50 | 50 | 10,538 |
選定条件 | 多機能,解読困難 | 解析結果あり,関連性のある複数検体,特徴的な機能 | 解析結果あり,特徴的な機能,2010年1月から3月までに収集した未知検体 | 解析結果あり,特徴的な機能,2011年1月に収集した未知検体 | 2012年1月1日~2012年1月31日の期間、ハニーポット12台分で得られたデータ | |
攻撃通信データ | ハニーポット | honey001, honey002 | honey003, honey004 | honey001, honey002 | honey001, honey002 | 攻撃通信データは含まれません |
収集日 | 2008年4月28日, 29日 | 2009年3月13日, 14日 | 2010年3月5日?11日 | 2010年8月18日?8月31日, 2011年1月18日~1月31日 |
-- | |
攻撃元データ | ハニーポット数 | 112 台 | 94 台 | 92 台 | 72 台 | 攻撃元データは含まれません |
ハニーポットID | なし | あり | あり | あり | -- | |
収集期間 | 2007年11月1日~ 2008年4月30日 |
2008年5月1日~ 2009年4月30日 |
2009年5月1日~ 2010年4月30日 |
2010年5月1日~ 2011年1月31日 |
-- |
D3M 2012 (Drive-by-Download Data by Marionette 2012) は、NTTセキュアプラットフォーム研究所の高対話型のWebクライアントハニーポット(Marionette)で収集したマルウェア検体、攻撃通信データの2つを収録したWeb感染型マルウェアの観測データ群です。 過去との傾向の違いを分析する等の目的で、参考情報として、 D3M 2010、 D3M 2011 も提供しています。
マルウェア検体 >> (1) 検体解析技術の研究
Webクライアントハニーポットで収集したWeb感染型マルウェアのハッシュ値 (34検体分)
攻撃通信データ >> (2) 感染手法の検知ならびに解析技術の研究
公開ブラックリストに登録されているURLをクライアントハニーポットへ入力して巡回を行った通信のフルキャプチャデータ
研究用データセット MARS (Malware Analysis Result Set) は、NICT(独立行政法人 情報通信研究機構)が所有する小規模攻撃再現テストベッドによる CCC DATAset のマルウェア検体の動作記録です。 MARS は、 CCC DATAset 2008(1検体分)、 CCC DATAset 2009 (10検体分)、 CCC DATAset 2010 (50検体分) のマルウェア検体の動作記録データです。動作記録データはマルウェア検体実行時の環境構成情報、clamscanの結果、動作時の PCAP (パケットキャプチャ) データ、メモリダンプ、strings、volatilityの結果等を含みます。
IIJ MITF (Malware Investigation Task Force) DATAset 2012 は、インターネットイニシアティブ (IIJ) が運用するdionaeaベースのローインタラクション型ハニーポットで収集したマルウェア検体、攻撃通信データの2つを収録したbot観測データ群です。詳細はこちらを参照下さい。 CCC DATAset 2012と同様、以下の研究目的に利用することができます。
攻撃元データ >> (3) ボットの活動傾向把握技術の研究
IIJ MITF DATAset | ||
2012 | ||
期間 | 2011年7月1日から2012年4月30日 | 環境条件 | WindowsXP SP2エミュレーション |
ハニーポット | 100台 |
MWS Datasets | ||||||
2008 | 2009 | 2010 | 2011 | 2012 | ||
CCC DATAset | ||||||
MARS for MWS | - | - | ||||
D3M | - | - | ||||
IIJ MITF DATAset | - | - | - | - |
[参考文献]
MWS Cup は、研究用データセットの活用によるマルウェア対策研究の成果を活用して、規定時間内で課題に取り組、解析結果を競います。技術的な解析の正確性(技術点)と、解析方法の発表(芸術点)により判定を行い、合計点が最も高いチームが総合賞、技術点が最も高いチームが技術賞、審査委員によって採点される芸術点が最も高いチームが芸術賞を獲得します。MWS Cup2012の課題の大枠を以下に示します。詳細は、各課題作成が完成次第、展開致します。
なお、課題1「インシデントレスポンス」に関しましては、解き方のヒントを以下に公開します。