PWS CUP 2015 開催概要





(1) 匿名加工コンテスト予備戦 [ 8/24(月)~9/24(木) ]:
独立行政法人 統計センター様のWebサイトより擬似ミクロデータ-簡易データ:CSV形式(XLS)をダウンロードし,ローカル環境にて匿名加工データを生成してください.[※データの利用には誓約書の提出が必要です]
事務局が作成したサンプルを参考にして匿名加工プログラムを開発してください.
生成した匿名加工データを提出し,有用性と安全性の評価を行ってください.評価の方法は論文に記載されています. データ生成ルールを守らない場合,提出できない場合がありますのでご注意ください.

アップロードした匿名加工データの評価と事務局への提出を行います.
事務局に提出された匿名加工データは,9月25日以降に他のプレイヤーに公開され,再識別コンテスト部門で利用されます.

(2) 再識別コンテスト部門 [ 9/25(金)~10/9(金) ]:
各プレイヤーが作成した匿名加工データを,行番号を隠した状態で公開します.
事務局が作成したサンプルを参考にして,ローカル環境にて再識別を行ってください.

再識別結果を【行番号】のみのデータとして,トップページの最下部にあるアップロード機能から【再識別 行番号データ】にて提出してください.
再識別行番号データは,元となった匿名加工データと拡張子以前を同じにして登録してください.

本戦 [10/21(水)]は,擬似ミクロデータ,及び,評価指標を改良し,リアルタイムで匿名加工と再識別を行います.




■参加チーム


IDチーム名キャッチコピー代表者所属
1宮大工(みやだいく)---
2ψ沈黙のジャスティスψ未熟者ですががんばります.よろしくお願いいたします.--
3MDLMachine Learning and Data Mining Lab.佐久間 淳筑波大学
4まるまるまるまる匿名化,まるまる再識別!--
5「ビッグデータ×ほどよいプライバシー」を考える会-多田 稔ソフトバンク株式会社
6チームすててこ伊藤軍艦島行きたい!菊池 浩明明治大学
7SSTKめざせビギナーズラック!--
8謎のkビッグデータはビジネスの動力源 プライバシーはビッグデータの生命力--
9SFLみんなで力を合わせて頑張ります!--
10Tsukuba-KDE気合と根性で攻めます渡辺 知恵美筑波大学
11圧倒的「成長」コンペティターとコラボレートしてベストプラクティスをシェアできるこのオポチュニティに感謝--
12情報銀行本店営業部本店営業部一致団結して頑張ります山内 正人慶應義塾大学
13がん(りゅうじ)ま巌流島とは,山口研にある船島の愛称.山口 利恵東京大学
14@kusano_k友利奈緒ちゃんかわいい--
15nifigaki番狂わせを目指します!西垣 正勝静岡大学
16未来 創未来 創(みらい つくる)です.初心者ながら頑張ります.--
17チームTBLP未知のメンバーが集い、未知の力を引き出す!--



■PWSCUP 2015:最終結果

PWSCUP 2015本戦終了後,総合順位を定めました.表彰されたチームは下記の通りです.

申請番号 チーム 提出ファイル
予備戦(総合)優勝者ψ沈黙のジャスティスψ 匿名参加
※所属は大会後に
発表されました
匿名加工部門優勝者 "best ice"ψ沈黙のジャスティスψ
再識別部門優勝者 "best fire"ψ沈黙のジャスティスψ
擬似データ生成部門優勝者ψ沈黙のジャスティスψ
総合優勝者 "best PwsCup award": ψ沈黙のジャスティスψ
総合2位nifigaki静岡大学
総合3位:圧倒的「成長」匿名参加




■予備戦:匿名加工コンテスト結果速報(09/25)

有用性指標と安全性指標の順位によって総合点が決定します.総合点の低いほうが上位になります.

申請番号 チーム 提出ファイル A)有用性U1~U6
平均ランク
B)安全性S1~S2
ランク合計/4
C)安全性S3~S6
最高値ランク/2
総合点
A+B+C
1513ψ沈黙のジャスティスψ[フリーダム]3.000002.750000.500006.25000
1494SSTK[SSTK_ICE_FINAL04]3.166672.750000.500006.41667
1515MDL[演员的自我修养]3.666672.750000.500006.91667
1490SSTK[SSTK_ICE_FINAL03]3.833332.750000.500007.08333
1528MDL[ちゃんとしてない]4.000002.750000.500007.25000
1426Tsukuba-KDE[CCM02]5.000002.750000.500008.25000
1505Tsukuba-KDE[CCM03]5.000002.750004.0000011.75000
1424チームすててこ伊藤[ステテコY3]6.000008.750000.5000015.25000
1583ψ沈黙のジャスティスψ[五十万郎丸]4.666672.750008.0000015.41667
1152@kusano_k[RhoAias2]4.833332.750008.0000015.58333
1589ψ沈黙のジャスティスψ[ジャスティスなビーバーの大工事]11.166672.750004.0000017.91667
1151@kusano_k[RhoAias1]1.000002.7500015.5000019.25000
1493Tsukuba-KDE[わらび*もちもち]13.666672.750004.0000020.41667
1496SSTK[SSTK_ICE_FINAL06]13.166672.750006.5000022.41667
1154@kusano_k[RhoAias3]1.000008.7500015.5000025.25000
1518nifigaki[hoge]1.000008.7500015.5000025.25000
1519nifigaki[a1]1.000008.7500015.5000025.25000
1568圧倒的「成長」[ファイナルエスカレーション5]18.166672.000006.5000026.66667
1498MDL[ちゃんとしてる]12.500002.7500011.5000026.75000
1473圧倒的「成長」[リバイズ5]15.000002.750009.5000027.25000
1566圧倒的「成長」[ファイナルエスカレーション4]18.333330.500009.0000027.83333
1141チームすててこ伊藤[ステテコQI3]8.000008.5000015.5000032.00000
1582未来 創[203]24.333335.000004.0000033.33333
1592nifigaki[nifigaki1]12.333338.7500013.0000034.08333
1593宮大工(みやだいく)[frost]12.166678.7500014.5000035.41667
1417チームすててこ伊藤[ステテコA]12.666678.7500014.0000035.41667
1576未来 創[201]25.000006.500004.0000035.50000
1580未来 創[202]24.833335.500006.5000036.83333
1344情報銀行本店営業部[test]14.000008.7500015.0000037.75000
1396「ビッグデータ×ほどよいプライバシー」を考える会[Anony(TestTry2)]30.833336.2500010.0000047.08333
1393「ビッグデータ×ほどよいプライバシー」を考える会[Anony(TestTry1)]30.166676.7500010.5000047.41667
1538「ビッグデータ×ほどよいプライバシー」を考える会[Anony(リスクありありありデータ)]28.666677.7500011.0000047.41667

■予備戦:再識別コンテスト順位速報(10/13)

再識別を行った全匿名加工データについての再識別レコード総数「再識別数」により,順位が決定します.

ランキング 再識別実施チーム 再識別実施回数 再識別数 匿名加工データ行総数 再識別成功率
1ψ沈黙のジャスティスψ319439325472837.06%
2SSTK328957526306134.05%
3未来 創258933320473043.63%
4MDL277382722358633.02%
5圧倒的「成長」327260926306127.60%
6nifigaki326424026304824.42%
7SFL256415420832530.80%
8チームすててこ伊藤326222426665623.33%
9がん(りゅうじ)ま325161826306619.62%
10チームTBLP325106826306119.41%
11宮大工(みやだいく)314760925472818.69%
12Tsukuba-KDE314173825472816.39%
13情報銀行本店営業部323947526306115.01%



コンテストルール



PWSCUP 2015 関連資料


1) 匿名加工・再識別コンテストIce & Fireの設計
菊池 浩明 , 山口 高康 , 濱田 浩気 , 山岡 裕司 , 小栗 秀暢 , 佐久間 淳
コンピュータセキュリティシンポジウム2015論文集,2015(3),363-370 (2015-10-14).

2) PWS CUP 匿名加工・再識別コンテスト"Ice and Fire" 競技ルール

3) 匿名加工・再識別コンテスト PWSCUP2015の報告と匿名加工方法の評価
菊池 浩明 , 山口 高康 , 濱田 浩気 , 山岡 裕司 , 小栗 秀暢 , 佐久間 淳
暗号と情報セキュリティシンポジウム2016論文集

4) Ice and Fire: Quantifying the Risk of Re-identification and Utility in Data Anonymization
Hiroaki Kikuchi, Takayasu Yamaguchi, Koki Hamada, Yuji Yamaoka, Hidenobu Oguri, Jun Sakuma
The 30th IEEE International Conference on Advanced Information Networking and Applications(AINA 2016),Crans-Montana.Switzerland, (2016-5).

5) 匿名加工・再識別コンテストを通じた情報流通プラットフォームの検討
小栗 秀暢 , 黒政 敦史 , 松井 くにお
研究報告コンピュータセキュリティ(CSEC),(2016-03).


[ PWS MEETUP発表資料 (2016/3/2) ]
1) 匿名加工再識別コンテスト2015振り返り
山岡 裕司(富士通研究所)

2) 全部門第一位チーム「ψ沈黙のジャスティスψ」が解説する最強の匿名加工技術
濱田 浩気(NTTセキュアプラットフォーム研究所)

3) 2016年度コンテストの計画について
菊池浩明(明治大)




 本コンテストの詳細な説明は発表論文,及び競技ルールにて記載されています.

開始前に一度熟読することを推奨します.






■競技ルール


コンテストのルールは常に変化しているため,正確なものは最新版のPDFをご参照ください.

PWS CUP匿名加工・再識別コンテスト “Ice and Fire
 ■競技ルール Ver. 1.01
本コンテストには次の部門がある. (1)匿名加工コンテスト部門. (2)再識別コンテスト部門. (3)疑似データの生成コンテスト.     (1), (2), (3)は独立に応募可能.例えば,(1)と(2)の両方,(1)のみという参加も可能.     ・ 使用するソフトウェアやOSには制限を加えない.参加者は自分の実験環境を会場に持参する.ネットワークに繋いでもよい.

本ルールの記号やアルゴリズムの詳細は,次の文献にて与えられている. [1] 菊池,山口,濱田,山岡,小栗,佐久間,「匿名加工・再識別コンテストIce & Fireの設計」,プライバシーワークショップ 2015.(登録後に参照可能) [2] 疑似ミクロデータ(簡易データ),データレイアウト及び符号表,2011. (統計センター http://www.nstac.go.jp/services/giji/GIJI_2004zensho_s_layout_code.xls)  コンテスト(1), (2)のルールは次の通り.なお,以下のルールは原則的に予備戦を想定した暫定的なものである.本戦では,本ルール(Ver. 1.01)や評価方法などを変更することがある.

1.(プレイヤー)匿名加工者,再識別者,審判員の3者が係る. 2.(匿名加工者) 匿名加工者は,個人データXを与えられ,匿名加工データYと行番号データIYを生成する.再識別者にYを,審判員にYとIYを提出する. 3.(再識別者)再識別者は,個人データXを参照して,匿名加工データYから推定した推定行番号データIEを審判員に提出する. 4.(匿名加工の勝者)最も有用性が高く,最も安全な匿名加工データを提出した匿名加工者を勝者とする.有用性50%と安全性50%を総合して,勝者を決定する. 5.(再識別者の勝者)最も多くの匿名加工データを正しく再識別した再識別者を,勝者とする.Yと対応するIYと等しいIEのレコードの数をそのYのEによる再識別レコード数と呼ぶ.再識別を行った全匿名加工データについての再識別レコード総数により,評価を行う. 6.(有用性の定義)匿名加工データYの有用性は,有用性指標U1, ... ,U6の平均順位
とする.ただし,Rank(U)は指標Uにおける全匿名加工データにおける順位(指標によって定められた順位付けによって決める),有用性指標は,[1]で定める次の指標(いずれも値が小さいほど良い)とする.   U1 = MeanMAE, SA={14,...,25}についての平均絶対誤差   U2 = crossMeanA, B A={7, 8, 9} (性別,年齢,就業), B=15(消費支出)のクロス集計値の平均絶対誤差   U3 = crossCntA,B 同クロス集計数の平均絶対誤差   U4 = corMAE SA={14,...,25}についての全相関係数の平均絶対誤差   U5 = IL 匿名加工データの各値の平均絶対誤差   U6 = nrow 個人データと匿名加工データのレコード数の差(の絶対値) 7.(安全性の定義)匿名加工データYの安全性は,対応する行番号データIYについて定義される安全性指標S1,S2, ...と再識別アルゴリズムE1,E2,..についての再識別率re-idE1, re-idE2,...から,
と定める.ここで,安全性指標S1, S2は,k-匿名性指標に対応するk-anony(X)とその平均値k-anonyMean(X)を用いる.その順位Rank(S)は,Sの値が大きいほど良い順位とする.再識別率の順位Rank(re-id)は,再識別率が小さいほど良い順位とする.また,匿名加工フェーズにおいては,次の再識別アルゴリズム[1]を用いる.   E1 = Sort SA={14,..., 25}の総和でソートする   E2 = IdRand QI={1,...,13}が同じレコードの中からランダムにレコードを識別   E3 = SA21 SA={21}に対して最小距離を持つレコードを識別   E4 = IdSA QI={1,...,13}が同じレコードの中から,SA={15} (消費支出)について識別 再識別フェーズにおいては,再識別者に用いられた再識別アルゴリズムの再識別率を更に追加して評価する.勝者の決定では,再識別フェーズの評価値を用いる. 8.(総合評価)予備戦30%と本戦70%で総合評価を行う.本戦の評価には,用いたアルゴリズムに関するプレゼンテーションに基づく評価を含む. 9.(匿名加工者の禁止事項)匿名加工者の次の行為を禁じる.なお,次の行為はいずれもシステムに拒絶されるため,その行為が理由で失格になるようなことは起きない.   (1)チームで3個を超える匿名加工データを提出すること.(ただし,匿名加工データの提出期間中は,提出済みの匿名加工データの削除および再提出が可能である.)   (2)行番号データIYが一意でない(同じ行番号データを複数用いてはならない.ただし,全行番号を含める必要はなく,いわゆる行削除は認める)   (3)不正な形式の行番号データを提出すること.(行番号データの形式は,各行に行番号(1, 2, ...)1つを記載したテキストファイルである.)   (4)疑似ミクロデータの仕様[2]に従わないデータを提出すること.(列の入れ替えを行っても良いが,それが[2]に従って解釈出来ることが必要.従って,列の削除は禁じる.なお,予備戦システム,本戦システムでは投稿データの形式チェックを行うので,それを通過すれば形式には適合しているとみなされる)   (5)匿名加工データYに負の値を含むこと. 10.(再識別者の禁止事項)再識別者の次の行為を禁じる.   (1)匿名加工者と結託すること(行番号データなどを教えてもらうこと).ただし,再識別者が匿名加工者でもある時は,自分のデータを再識別することは認める.   (2)不正な形式の推定行番号データ,あるいはYの行数と異なる推定行番号データIEを提出すること.(ただし,IEは一意でなくてもよい.推定行番号データの形式は行番号データの形式と同じで,各行に行番号(1, 2, ...)1つを記載したテキストファイルである.なお,この行為はシステムに拒絶されるため,この行為が理由で失格になるようなことは起きない)   (3)同一の匿名加工データに対し推定行番号データを2回以上提出すること(すなわち,再識別は各データについて1回のみである.その推定結果を第三者に伝えてはならない.なお,この行為はシステムに拒絶されるため,この行為が理由で失格になるようなことは起きない)   11.(審判員の禁止事項)審判員の次の行為を禁じる.   (1)匿名加工者や再識別者と結託すること(審判員の特権により知った情報(行番号データなど)を教えること).   (2)PWS CUP実行委員会委員として,匿名加工者や再識別者がそれを知ることでコンテストで有利になるような情報を非公開にすること   (3)コンテスト参加者として匿名加工者や再識別者を兼ねる場合,データ提出受付期間中に審判員の特権を使うこと(他チームの行番号データなどを知ること) 以上の禁止行為が守られている条件の下で,PWS CUP実行委員会委員のコンテストへの参加を認める. コンテスト(3)のルールは次の通り. 1.(疑似データの生成の評価)疑似データの生成をどのように行ったかをプレゼンテーションしてもらい,その技術力,独創力,実現可能性の観点で評価を行う.

2015年8月24日
PWS CUP実行委員会










■ルールについてのFAQ


コンテストのルールや運営に関する質問がある場合は事務局までご連絡ください.


Q. 3件以上事務局に提出したら失格になるのでしょうか?

A. 何件提出しても受け付けます.
ただし,予備戦匿名加工提出フェーズ終了時(9/24)までにチームあたり3件に絞ってください.


Q. 提出した匿名加工データは他のチームに読まれてしまいますか?

A. 「現在の全体順位の確認」から評価値とランクが公開されますが,匿名加工データYも行番号データIYもアクセスできません.
再識別フェーズ(9/25)以降はYのみ他のチームに提供されます.


Q. 出力で行の入れ替えを行った場合,有用性が下がりませんか?

A. 有用性の評価値(U1,..,U4,U6)は,行(レコード)の入れ替えや削除に対して依存しません.
ただし,「山岡攻撃※」を防止するためのU5は影響を受けることがあります.
※<発表論文 3.5 再識別率の課題「山岡攻撃」参照


Q. 指標の順位が同点の時はどうなりますか?

A. 例えば,チームA,B,Cの評価が次のように与えられたときのランクは,

例:Rank(max re-idEi)の順位
 No re-idE1re-idE2 re-idE3 re-idE4 Max re-idEi Rank
  data A   0.7 0.2 0.3 0.4 0.7 2
  data B   0.4 0.2 0.1 0.7 0.7 2
  data C   0.1 0.2 0.1 0.2 0.2 1

と決まります.


Q. 論文3.5節の「山岡攻撃」について
論文には「レコード順序を変えるだけの匿名加工」を「山岡攻撃」としており,「ルールとして禁止することにした.プレイヤーの良識に任せる方針である.」との記載があります.「山岡攻撃」を使っているとみなされることで,失格など不利益を受けることはありますか。


A. 論文3.5節には「良識に任せる」と記述しましたが,参加者の自由な発想の表現を妨げ,競技を不公平にしてしまう恐れがあることから,「山岡攻撃」は一切禁止しないことと訂正します.「山岡攻撃」を使っているとみなされることで,不利益になることはありません.
なお、本戦でも禁止にはしませんが,評価方法は変更になる可能性があることをご承知おきください.





評価指標


評価指標は,有用性指標(6項目),安全性指標(6項目+α)の全13項目を使用し,最終的に総合点数を算出します.

■匿名加工コンテストの評価指標


○有用性指標

区分指標名指標説明実行環境評価アプリ作成者評価尺度
有用性 U1有用性指標 meanMAE SA={14,…,25}についての平均絶誤差Rmeanmae.R菊池 浩明昇順
(0が最も良い)
有用性 U2有用性指標 cross A={7, 8, 9} (性別,年齢,就業),
B=15(消費支出)のクロス集計値の平均絶対誤差
Rubycross.rb[1]濱田 浩気
有用性 U3 上記クロス集計数の平均絶対誤差 cross.rb[2]
有用性 U4有用性指標 corMAE SA={14,…,25}についての全相係数の平均絶対誤差 Rcormae.R菊池 浩明
有用性 U5安全性指標 IL 匿名加工データの各値の平均絶対誤差 Rubyil.rb濱田 浩気
有用性 U6有用性指標 nrow 個人データと匿名加工データのレコード数の差(の絶対値)システム -  - 



○安全性指標

区分指標名指標説明実行環境評価アプリ作成者評価尺度
安全性 S1安全性指標 k-anony カテゴリ属性のk-匿名レベルRkanony.R[1]菊池 浩明降順
(大きい方が良い)
安全性 S2 カテゴリ属性k-匿名平均値kanony.R[2]
安全性 S3安全性指標 E1 re-idIdRand QI={1,…,13}が同じレコードの中から,
ランダムにレコードを識別する方式
Rubyid.rb[idrand]濱田 浩気昇順
(0が最も良い)
安全性 S4安全性指標 E2 re-idIdSA QI={1,…,13}が同じレコードの中から,
SA={15} (消費支出)について識別
id.rb[idsa]
安全性 S5安全性指標 E3 re-idSort SA={14,…, 25}の総和でソートする方式 Pythonfire.py山口 高康
安全性 S6安全性指標 E4 re-idSA21 SA={21}でソートして対応するレコードを識別 Ruby20.rb 濱田 浩気
安全性 S7安全性指標 E5 re-idAYA 山岡攻撃を実施した行を再識別されたと判定 Ruby20.rb 濱田 浩気









○総合点数
総合点数は,有用性指標と安全性指標の総合値で決められます.

有用性指標 U1~U6の順位の平均値             
安全性指標 S1~S2の順位の平均値/2            
安全性指標 S3~S7[E1~E5]の最も再識別率が高いものの順位/2


で総合順位を決めます.    


《発表論文》4.3 総合評価 を参照 (発表論文は登録者にのみ事前公開されます.)

予備戦の順位は30%,本戦の順位は70%の比率で合計され,総合優勝が決まります.
 ※ただし,各指標の重み付け等は,予備戦と本戦で変化することがあります.


大会運営


■公開サンプルアプリケーションのダウンロード


  各種開発言語で作成された匿名化アルゴリズムや評価アプリケーションを公開します.
  
   ※サンプルアプリケーションは,元データを含むため,利用契約を結ばないと公開できません.
    興味のある方はお問い合わせください.
  

No.ダウンロードファイル名作成者実行環境
1PWS_R.zip菊池 浩明R
2PWS_ruby.zip濱田 浩気Ruby
3PWS_java.zip山岡 裕司Java
4PWS_python.zip山口 高康Python

公開サンプルアプリケーションの実行環境は,下記のシステム実行環境を参考にしてください.



■擬似ミクロデータフォーマットに合わせる Tips集


  1) 擬似ミクロデータは,2,3,8,12,13列目がスペース詰めの2byte.



  2) 擬似ミクロデータは,14列目以降はスペース詰めの15byte.小数点5桁統一.



No.ダウンロードファイル作成者実行環境
1匿名加工データサンプル小栗 秀暢-
2擬似ミクロデータ変換アプリ菊池 浩明
濱田 浩気
Perl/Ruby
3擬似ミクロデータ変換エクセル小栗 秀暢Excel

公開サンプルアプリケーションの実行環境は,下記のシステム実行環境を参考にしてください.

■システム実行環境


サーバホストニフティクラウド パブリッククラウドコンピューティングサービス
システムベースニフティ 匿名化処理プラットフォーム
CPUIntel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHz  (環境に応じて可変)
Memory 4GB (環境に応じて可変)
RR version 3.2.0 (2015-04-16) -- "Full of Ingredients"
Javajava version "1.8.0_45" Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Rubyruby 2.2.2p95 (2015-04-13 revision 50295) [x86_64-linux]
PythonPython 2.7.10 (default, Jul 17 2015, 20:51:56)


■PWS2015 実行委員会


委員長
菊池浩明 (明治大学)

副委員長
寺田雅之 (NTTドコモ)

委員
荒井ひろみ (東京大学),小栗秀暢 (ニフティ), 佐久間淳 (筑波大学),島岡政基 (セコム),須川賢洋 (新潟大学),千田浩司 (NTT), 野島良 (NICT),濱田浩気 (NTT),古川諒 (NEC),南和宏 (統計数理研究所),村上隆夫 (産業技術総合研究所),山岡裕司 (富士通研),山口高康 (NTTドコモ)



 


Copyright 2015 (社)情報処理学会 コンピュータセキュリティ研究会
PWS実行委員会 All rights reserved.