ID | チーム名 | キャッチコピー | 代表者 | 所属 |
---|---|---|---|---|
1 | 宮大工(みやだいく) | - | - | - |
2 | ψ沈黙のジャスティスψ | 未熟者ですががんばります.よろしくお願いいたします. | - | - |
3 | MDL | Machine Learning and Data Mining Lab. | 佐久間 淳 | 筑波大学 |
4 | まるまる | まるまる匿名化,まるまる再識別! | - | - |
5 | 「ビッグデータ×ほどよいプライバシー」を考える会 | - | 多田 稔 | ソフトバンク株式会社 |
6 | チームすててこ伊藤 | 軍艦島行きたい! | 菊池 浩明 | 明治大学 |
7 | SSTK | めざせビギナーズラック! | - | - |
8 | 謎のk | ビッグデータはビジネスの動力源 プライバシーはビッグデータの生命力 | - | - |
9 | SFL | みんなで力を合わせて頑張ります! | - | - |
10 | Tsukuba-KDE | 気合と根性で攻めます | 渡辺 知恵美 | 筑波大学 |
11 | 圧倒的「成長」 | コンペティターとコラボレートしてベストプラクティスをシェアできるこのオポチュニティに感謝 | - | - |
12 | 情報銀行本店営業部 | 本店営業部一致団結して頑張ります | 山内 正人 | 慶應義塾大学 |
13 | がん(りゅうじ)ま | 巌流島とは,山口研にある船島の愛称. | 山口 利恵 | 東京大学 |
14 | @kusano_k | 友利奈緒ちゃんかわいい | - | - |
15 | nifigaki | 番狂わせを目指します! | 西垣 正勝 | 静岡大学 |
16 | 未来 創 | 未来 創(みらい つくる)です.初心者ながら頑張ります. | - | - |
17 | チームTBLP | 未知のメンバーが集い、未知の力を引き出す! | - | - |
申請番号 | チーム | 提出ファイル |
---|---|---|
予備戦(総合)優勝者 | ψ沈黙のジャスティスψ | 匿名参加 ※所属は大会後に 発表されました |
匿名加工部門優勝者 "best ice" | ψ沈黙のジャスティスψ | |
再識別部門優勝者 "best fire" | ψ沈黙のジャスティスψ | |
擬似データ生成部門優勝者 | ψ沈黙のジャスティスψ | |
総合優勝者 "best PwsCup award": | ψ沈黙のジャスティスψ | |
総合2位 | nifigaki | 静岡大学 |
総合3位: | 圧倒的「成長」 | 匿名参加 |
申請番号 | チーム | 提出ファイル | A)有用性U1~U6 平均ランク |
B)安全性S1~S2 ランク合計/4 |
C)安全性S3~S6 最高値ランク/2 |
総合点 A+B+C |
---|---|---|---|---|---|---|
1513 | ψ沈黙のジャスティスψ | [フリーダム] | 3.00000 | 2.75000 | 0.50000 | 6.25000 |
1494 | SSTK | [SSTK_ICE_FINAL04] | 3.16667 | 2.75000 | 0.50000 | 6.41667 |
1515 | MDL | [演员的自我修养] | 3.66667 | 2.75000 | 0.50000 | 6.91667 |
1490 | SSTK | [SSTK_ICE_FINAL03] | 3.83333 | 2.75000 | 0.50000 | 7.08333 |
1528 | MDL | [ちゃんとしてない] | 4.00000 | 2.75000 | 0.50000 | 7.25000 |
1426 | Tsukuba-KDE | [CCM02] | 5.00000 | 2.75000 | 0.50000 | 8.25000 |
1505 | Tsukuba-KDE | [CCM03] | 5.00000 | 2.75000 | 4.00000 | 11.75000 |
1424 | チームすててこ伊藤 | [ステテコY3] | 6.00000 | 8.75000 | 0.50000 | 15.25000 |
1583 | ψ沈黙のジャスティスψ | [五十万郎丸] | 4.66667 | 2.75000 | 8.00000 | 15.41667 |
1152 | @kusano_k | [RhoAias2] | 4.83333 | 2.75000 | 8.00000 | 15.58333 |
1589 | ψ沈黙のジャスティスψ | [ジャスティスなビーバーの大工事] | 11.16667 | 2.75000 | 4.00000 | 17.91667 |
1151 | @kusano_k | [RhoAias1] | 1.00000 | 2.75000 | 15.50000 | 19.25000 |
1493 | Tsukuba-KDE | [わらび*もちもち] | 13.66667 | 2.75000 | 4.00000 | 20.41667 |
1496 | SSTK | [SSTK_ICE_FINAL06] | 13.16667 | 2.75000 | 6.50000 | 22.41667 |
1154 | @kusano_k | [RhoAias3] | 1.00000 | 8.75000 | 15.50000 | 25.25000 |
1518 | nifigaki | [hoge] | 1.00000 | 8.75000 | 15.50000 | 25.25000 |
1519 | nifigaki | [a1] | 1.00000 | 8.75000 | 15.50000 | 25.25000 |
1568 | 圧倒的「成長」 | [ファイナルエスカレーション5] | 18.16667 | 2.00000 | 6.50000 | 26.66667 |
1498 | MDL | [ちゃんとしてる] | 12.50000 | 2.75000 | 11.50000 | 26.75000 |
1473 | 圧倒的「成長」 | [リバイズ5] | 15.00000 | 2.75000 | 9.50000 | 27.25000 |
1566 | 圧倒的「成長」 | [ファイナルエスカレーション4] | 18.33333 | 0.50000 | 9.00000 | 27.83333 |
1141 | チームすててこ伊藤 | [ステテコQI3] | 8.00000 | 8.50000 | 15.50000 | 32.00000 |
1582 | 未来 創 | [203] | 24.33333 | 5.00000 | 4.00000 | 33.33333 |
1592 | nifigaki | [nifigaki1] | 12.33333 | 8.75000 | 13.00000 | 34.08333 |
1593 | 宮大工(みやだいく) | [frost] | 12.16667 | 8.75000 | 14.50000 | 35.41667 |
1417 | チームすててこ伊藤 | [ステテコA] | 12.66667 | 8.75000 | 14.00000 | 35.41667 |
1576 | 未来 創 | [201] | 25.00000 | 6.50000 | 4.00000 | 35.50000 |
1580 | 未来 創 | [202] | 24.83333 | 5.50000 | 6.50000 | 36.83333 |
1344 | 情報銀行本店営業部 | [test] | 14.00000 | 8.75000 | 15.00000 | 37.75000 |
1396 | 「ビッグデータ×ほどよいプライバシー」を考える会 | [Anony(TestTry2)] | 30.83333 | 6.25000 | 10.00000 | 47.08333 |
1393 | 「ビッグデータ×ほどよいプライバシー」を考える会 | [Anony(TestTry1)] | 30.16667 | 6.75000 | 10.50000 | 47.41667 |
1538 | 「ビッグデータ×ほどよいプライバシー」を考える会 | [Anony(リスクありありありデータ)] | 28.66667 | 7.75000 | 11.00000 | 47.41667 |
ランキング | 再識別実施チーム | 再識別実施回数 | 再識別数 | 匿名加工データ行総数 | 再識別成功率 |
---|---|---|---|---|---|
1 | ψ沈黙のジャスティスψ | 31 | 94393 | 254728 | 37.06% |
2 | SSTK | 32 | 89575 | 263061 | 34.05% |
3 | 未来 創 | 25 | 89333 | 204730 | 43.63% |
4 | MDL | 27 | 73827 | 223586 | 33.02% |
5 | 圧倒的「成長」 | 32 | 72609 | 263061 | 27.60% |
6 | nifigaki | 32 | 64240 | 263048 | 24.42% |
7 | SFL | 25 | 64154 | 208325 | 30.80% |
8 | チームすててこ伊藤 | 32 | 62224 | 266656 | 23.33% |
9 | がん(りゅうじ)ま | 32 | 51618 | 263066 | 19.62% |
10 | チームTBLP | 32 | 51068 | 263061 | 19.41% |
11 | 宮大工(みやだいく) | 31 | 47609 | 254728 | 18.69% |
12 | Tsukuba-KDE | 31 | 41738 | 254728 | 16.39% |
13 | 情報銀行本店営業部 | 32 | 39475 | 263061 | 15.01% |
本コンテストには次の部門がある. (1)匿名加工コンテスト部門. (2)再識別コンテスト部門. (3)疑似データの生成コンテスト. (1), (2), (3)は独立に応募可能.例えば,(1)と(2)の両方,(1)のみという参加も可能. ・ 使用するソフトウェアやOSには制限を加えない.参加者は自分の実験環境を会場に持参する.ネットワークに繋いでもよい. PWS CUP匿名加工・再識別コンテスト “Ice and Fire”
■競技ルール Ver. 1.01本ルールの記号やアルゴリズムの詳細は,次の文献にて与えられている. [1] 菊池,山口,濱田,山岡,小栗,佐久間,「匿名加工・再識別コンテストIce & Fireの設計」,プライバシーワークショップ 2015.(登録後に参照可能) [2] 疑似ミクロデータ(簡易データ),データレイアウト及び符号表,2011. (統計センター http://www.nstac.go.jp/services/giji/GIJI_2004zensho_s_layout_code.xls) コンテスト(1), (2)のルールは次の通り.なお,以下のルールは原則的に予備戦を想定した暫定的なものである.本戦では,本ルール(Ver. 1.01)や評価方法などを変更することがある.
1.(プレイヤー)匿名加工者,再識別者,審判員の3者が係る. 2.(匿名加工者) 匿名加工者は,個人データXを与えられ,匿名加工データYと行番号データIYを生成する.再識別者にYを,審判員にYとIYを提出する. 3.(再識別者)再識別者は,個人データXを参照して,匿名加工データYから推定した推定行番号データIEを審判員に提出する. 4.(匿名加工の勝者)最も有用性が高く,最も安全な匿名加工データを提出した匿名加工者を勝者とする.有用性50%と安全性50%を総合して,勝者を決定する. 5.(再識別者の勝者)最も多くの匿名加工データを正しく再識別した再識別者を,勝者とする.Yと対応するIYと等しいIEのレコードの数をそのYのEによる再識別レコード数と呼ぶ.再識別を行った全匿名加工データについての再識別レコード総数により,評価を行う. 6.(有用性の定義)匿名加工データYの有用性は,有用性指標U1, ... ,U6の平均順位とする.ただし,Rank(U)は指標Uにおける全匿名加工データにおける順位(指標によって定められた順位付けによって決める),有用性指標は,[1]で定める次の指標(いずれも値が小さいほど良い)とする. U1 = MeanMAE, SA={14,...,25}についての平均絶対誤差 U2 = crossMeanA, B A={7, 8, 9} (性別,年齢,就業), B=15(消費支出)のクロス集計値の平均絶対誤差 U3 = crossCntA,B 同クロス集計数の平均絶対誤差 U4 = corMAE SA={14,...,25}についての全相関係数の平均絶対誤差 U5 = IL 匿名加工データの各値の平均絶対誤差 U6 = nrow 個人データと匿名加工データのレコード数の差(の絶対値) 7.(安全性の定義)匿名加工データYの安全性は,対応する行番号データIYについて定義される安全性指標S1,S2, ...と再識別アルゴリズムE1,E2,..についての再識別率re-idE1, re-idE2,...から, と定める.ここで,安全性指標S1, S2は,k-匿名性指標に対応するk-anony(X)とその平均値k-anonyMean(X)を用いる.その順位Rank(S)は,Sの値が大きいほど良い順位とする.再識別率の順位Rank(re-id)は,再識別率が小さいほど良い順位とする.また,匿名加工フェーズにおいては,次の再識別アルゴリズム[1]を用いる. E1 = Sort SA={14,..., 25}の総和でソートする E2 = IdRand QI={1,...,13}が同じレコードの中からランダムにレコードを識別 E3 = SA21 SA={21}に対して最小距離を持つレコードを識別 E4 = IdSA QI={1,...,13}が同じレコードの中から,SA={15} (消費支出)について識別 再識別フェーズにおいては,再識別者に用いられた再識別アルゴリズムの再識別率を更に追加して評価する.勝者の決定では,再識別フェーズの評価値を用いる. 8.(総合評価)予備戦30%と本戦70%で総合評価を行う.本戦の評価には,用いたアルゴリズムに関するプレゼンテーションに基づく評価を含む. 9.(匿名加工者の禁止事項)匿名加工者の次の行為を禁じる.なお,次の行為はいずれもシステムに拒絶されるため,その行為が理由で失格になるようなことは起きない. (1)チームで3個を超える匿名加工データを提出すること.(ただし,匿名加工データの提出期間中は,提出済みの匿名加工データの削除および再提出が可能である.) (2)行番号データIYが一意でない(同じ行番号データを複数用いてはならない.ただし,全行番号を含める必要はなく,いわゆる行削除は認める) (3)不正な形式の行番号データを提出すること.(行番号データの形式は,各行に行番号(1, 2, ...)1つを記載したテキストファイルである.) (4)疑似ミクロデータの仕様[2]に従わないデータを提出すること.(列の入れ替えを行っても良いが,それが[2]に従って解釈出来ることが必要.従って,列の削除は禁じる.なお,予備戦システム,本戦システムでは投稿データの形式チェックを行うので,それを通過すれば形式には適合しているとみなされる) (5)匿名加工データYに負の値を含むこと. 10.(再識別者の禁止事項)再識別者の次の行為を禁じる. (1)匿名加工者と結託すること(行番号データなどを教えてもらうこと).ただし,再識別者が匿名加工者でもある時は,自分のデータを再識別することは認める. (2)不正な形式の推定行番号データ,あるいはYの行数と異なる推定行番号データIEを提出すること.(ただし,IEは一意でなくてもよい.推定行番号データの形式は行番号データの形式と同じで,各行に行番号(1, 2, ...)1つを記載したテキストファイルである.なお,この行為はシステムに拒絶されるため,この行為が理由で失格になるようなことは起きない) (3)同一の匿名加工データに対し推定行番号データを2回以上提出すること(すなわち,再識別は各データについて1回のみである.その推定結果を第三者に伝えてはならない.なお,この行為はシステムに拒絶されるため,この行為が理由で失格になるようなことは起きない) 11.(審判員の禁止事項)審判員の次の行為を禁じる. (1)匿名加工者や再識別者と結託すること(審判員の特権により知った情報(行番号データなど)を教えること). (2)PWS CUP実行委員会委員として,匿名加工者や再識別者がそれを知ることでコンテストで有利になるような情報を非公開にすること (3)コンテスト参加者として匿名加工者や再識別者を兼ねる場合,データ提出受付期間中に審判員の特権を使うこと(他チームの行番号データなどを知ること) 以上の禁止行為が守られている条件の下で,PWS CUP実行委員会委員のコンテストへの参加を認める. コンテスト(3)のルールは次の通り. 1.(疑似データの生成の評価)疑似データの生成をどのように行ったかをプレゼンテーションしてもらい,その技術力,独創力,実現可能性の観点で評価を行う. 2015年8月24日
PWS CUP実行委員会
No | re-idE1 | re-idE2 | re-idE3 | re-idE4 | Max re-idEi | Rank |
---|---|---|---|---|---|---|
data A | 0.7 | 0.2 | 0.3 | 0.4 | 0.7 | 2 |
data B | 0.4 | 0.2 | 0.1 | 0.7 | 0.7 | 2 |
data C | 0.1 | 0.2 | 0.1 | 0.2 | 0.2 | 1 |
区分 | 指標名 | 指標説明 | 実行環境 | 評価アプリ | 作成者 | 評価尺度 |
---|---|---|---|---|---|---|
有用性 U1 | 有用性指標 meanMAE | SA={14,…,25}についての平均絶誤差 | R | meanmae.R | 菊池 浩明 | 昇順 (0が最も良い) |
有用性 U2 | 有用性指標 cross | A={7, 8, 9} (性別,年齢,就業), B=15(消費支出)のクロス集計値の平均絶対誤差 | Ruby | cross.rb[1] | 濱田 浩気 | |
有用性 U3 | 上記クロス集計数の平均絶対誤差 | cross.rb[2] | ||||
有用性 U4 | 有用性指標 corMAE | SA={14,…,25}についての全相係数の平均絶対誤差 | R | cormae.R | 菊池 浩明 | |
有用性 U5 | 安全性指標 IL | 匿名加工データの各値の平均絶対誤差 | Ruby | il.rb | 濱田 浩気 | |
有用性 U6 | 有用性指標 nrow | 個人データと匿名加工データのレコード数の差(の絶対値) | システム | - | - |
区分 | 指標名 | 指標説明 | 実行環境 | 評価アプリ | 作成者 | 評価尺度 |
---|---|---|---|---|---|---|
安全性 S1 | 安全性指標 k-anony | カテゴリ属性のk-匿名レベル | R | kanony.R[1] | 菊池 浩明 | 降順 (大きい方が良い) |
安全性 S2 | カテゴリ属性k-匿名平均値 | kanony.R[2] | ||||
安全性 S3 | 安全性指標 E1 re-idIdRand | QI={1,…,13}が同じレコードの中から, ランダムにレコードを識別する方式 | Ruby | id.rb[idrand] | 濱田 浩気 | 昇順 (0が最も良い) |
安全性 S4 | 安全性指標 E2 re-idIdSA | QI={1,…,13}が同じレコードの中から, SA={15} (消費支出)について識別 | id.rb[idsa] | |||
安全性 S5 | 安全性指標 E3 re-idSort | SA={14,…, 25}の総和でソートする方式 | Python | fire.py | 山口 高康 | |
安全性 S6 | 安全性指標 E4 re-idSA21 | SA={21}でソートして対応するレコードを識別 | Ruby | 20.rb | 濱田 浩気 | |
安全性 S7 | 安全性指標 E5 re-idAYA | 山岡攻撃を実施した行を再識別されたと判定 | Ruby | 20.rb | 濱田 浩気 |
No. | ダウンロードファイル名 | 作成者 | 実行環境 |
---|---|---|---|
1 | PWS_R.zip | 菊池 浩明 | R |
2 | PWS_ruby.zip | 濱田 浩気 | Ruby |
3 | PWS_java.zip | 山岡 裕司 | Java |
4 | PWS_python.zip | 山口 高康 | Python |
No. | ダウンロードファイル | 作成者 | 実行環境 |
---|---|---|---|
1 | 匿名加工データサンプル | 小栗 秀暢 | - |
2 | 擬似ミクロデータ変換アプリ | 菊池 浩明 濱田 浩気 | Perl/Ruby |
3 | 擬似ミクロデータ変換エクセル | 小栗 秀暢 | Excel |
サーバホスト | ニフティクラウド パブリッククラウドコンピューティングサービス |
---|---|
システムベース | ニフティ 匿名化処理プラットフォーム |
CPU | Intel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHz (環境に応じて可変) |
Memory | 4GB (環境に応じて可変) |
R | R version 3.2.0 (2015-04-16) -- "Full of Ingredients" |
Java | java version "1.8.0_45" Java(TM) SE Runtime Environment (build 1.8.0_45-b14) |
Ruby | ruby 2.2.2p95 (2015-04-13 revision 50295) [x86_64-linux] |
Python | Python 2.7.10 (default, Jul 17 2015, 20:51:56) |