PWS 実行委員会からのお知らせ

PWS Meetupイベント開催(2017/02/09)

今年度のプライバシーワークショップ(PWS)活動の総括としまして,Meetupイベントを  2017年2月9日 13時~ 東京大学 本郷キャンパス 工学部6号館3階にて開催いたします.
PWS CUPの振り返りと来年度の予定,公的統計の秘匿基準,技術や法律の最新動向などの講演を予定しています. ぜひご参加ください.

最終ランキング公開(2016/10/17)

2016年10月11日に秋田で行われたPWSCUP本戦によって,最終ランキングが決定しました. 厳正な審査の結果,T-AND-Nチームが優勝となりました.おめでとうございます.
今年もPWSCUPにご参加いただいた皆様,ありがとうございました. データの公開に賛同頂けたチームの結果データが公開されておりますので,ご参照ください.

再識別フェイズ開始・本戦ルール公開(2016/09/27)

大変お待たせいたしました.再識別フェイズの開始,及び本戦ルールを公開いたしました.
再識別フェイズのルールも変更されまして,予備戦の再識別フェイズは勝者を定めないこととなりました.詳しくは新ルール,及び最新論文をご参照ください.また,本戦参加のエントリーもお願いいたします.

予備戦ルール・日程変更(2016/09/09)

予備戦:匿名化フェイズにつきまして,提出された資料を元にルールの改変が行われました. 大変申し訳ございませんが,9月7日以前に提出されたデータを論理削除いたしました.改めて新ルールに従い,ご提出をお願いいたします. それに伴い,匿名化フェイズを 9/20(火)まで延長いたしました.最新のルール,及び,指標に関する説明をご参照ください.

第5回 PWS勉強会のご案内【9月29日(木)17時~ 】

今月のPWS勉強会の日程が発表されました.ご興味のある方はご参加ください.
タイトル:差分プライバシーチュートリアル  講師:佐久間淳先生(筑波大学)  場所:東京大学 本郷地区キャンパス 工学部6号館3F セミナー室AD ※計算限界(ELC)・秋の学校の発表と同じ内容です.発表スライドは英語になります.

PWS CUP 2016 予備戦サイト公開 (2016/08/24)

今年度のルールが発表されました.9月1日までをルールの浸透期間と位置づけ,自由にシステムを扱える日とします.今年度のルール等についてご確認ください.




概要

PWSCUP2016では,マスターデータと購買履歴データに対して,匿名加工と再識別を行います.



スケジュール

PWS Cup参加エントリー申込期間 7/27(水)- 8/16(火)
予備戦(匿名加工データ提出) 8/25(木)- 9/13(火)
予備戦(再識別データ提出) 9/27(火)- 10/3(月)
本戦(匿名加工・再識別) 10/11 (火) 09:30
最終プレゼン,評価結果発表 10/12(水) 10:35
※スケジュールは運営の都合などによって,予告なく変更される場合があります.


参加チーム一覧

No.チーム名責任者組織コメント データ写真
1 T-AND-N 中川裕志 東京大学 きりたんぽ食べに来ました OK OK
2 チーム名 山田明 個人 チームのキャッチコピー OK ASK
3 狛犬 - - がんばります NG ASK
4 Ice Sushi 土井 洋 情報セキュリティ大学院大学 昨年は見学のみだったので、今年は手を動かして頑張ります。 OK ASK
5 ステテコ伊藤2 菊池浩明 明治大学総合数理学部 単位よりポケモンGO OK OK
6 がん(りゅうじ)ま - - 昨年の雪辱を果たします. NG ASK
7 てんねんすい 田中健二 所属なし 秋田城見たい OK OK
8 PRIVACY HUMAN 仲田敦 無し アイム プライバシーヒューマン NG OK
9 カコウマシマシプライバシカラメ - - ノイズ入れますか? NG ASK
10 チームぼっち - - ぼっちでも一人でがんばるぞい! NG OK
11 nifigaki 西垣正勝 静岡大学 大番狂わせを目指します! OK ASK
12 一芸道 - - 隠れたるより見るるはなし NG OK
13 匿名戦隊アノニマーズ - - データの秘密は俺たちが守る! NG ASK
14 Justice - - 感動を、あなたに NG ASK
15 チーム三茶 池田智弘 初心者集団ですが、勉強のため参加します! OK OK
16 MDLer 佐久間淳 筑波大学 ちゃんとやります. OK OK
17 鋼鉄の錬金術師 波多野卓磨 新日鉄住金ソリューションズ株式会社 錬金します OK OK
18 シライ5000 - - 歯ブラシ立て欲しい! NG ASK
19 付け焼刃 - - 即席チームですが頑張ります^^ NG OK
20 ゼロから始める匿名生活 - - 年齢幅が大きい学生チーム OK ASK
21 トシモン - - The world is yours. NG OK
22 ブラザーフッド 岡本 靖浩 個人参加 頑張ります OK OK
23 時計仕掛けのオレンジ - - プライバシ技術を磨きたいと思います! よろしくお願いします! OK OK
24 先魁 満保 雅浩 金沢大学 修行中のかけだしですので、お手柔らかに願います OK OK



最終ランキング(2016/10/11)


2016年10月11日に秋田で行われたPWSCUP本戦の結果,最終順位が決定しました.
1位から3位までのチームにはCSS2016内で表彰が行われました.おめでとうございます.

予備戦(A)本戦(B)A*0.1B*0.9合計チーム名組織責任者
610.60.91.5T-AND-N東京大学中川裕志
120.11.81.9シライ5000--
530.52.73.2鋼鉄の錬金術師新日鉄住金ソリューションズ株式会社波多野卓磨
340.33.63.9Justice電気通信大学清 雄一
10514.55.5チームぼっちKii株式会社井口誠
460.45.45.8カコウマシマシプライバシカラメ--
280.27.27.4nifigaki静岡大学西垣正勝
1771.76.38.0ステテコ伊藤2明治大学総合数理学部菊池浩明
890.88.18.9MDLer筑波大学佐久間淳
13101.3910.3匿名戦隊アノニマーズ--
15111.59.911.4チーム名--
7120.710.811.5狛犬--
11131.111.712.8Ice Sushi情報セキュリティ大学院大学土井 洋
14141.412.614.0がん(りゅうじ)ま--
18151.813.515.3先魁金沢大学満保 雅浩
9160.914.415.3ブラザーフッド個人参加岡本 靖浩
12161.214.415.6時計仕掛けのオレンジ個人松本武史
16161.614.416.0一芸道--
19161.914.416.3PRIVACY HUMAN--
2016214.416.4トシモン--
21162.114.416.5チーム三茶池田智弘
22162.214.416.6付け焼刃--
23162.314.416.7てんねんすい所属なし田中健二
また,本戦にて「優勝チームのデータに対し最も多く再識別を行ったチーム」に「再識別賞」が授与されました.
審査の結果 ステテコ伊藤2チーム,鋼鉄の錬金術師チーム の両チームが同数にて受賞されました.
ご参加いただきました皆様,ありがとうございました.

予備戦ランキング(2016/10/04)

No. チーム 所属組織 責任者 合計
1 シライ5000 - - 0.03781
2 nifigaki 静岡大学 西垣正勝 0.04500
3 Justice 電気通信大学 清 雄一 0.05087
4 カコウマシマシプライバシカラメ - - 0.05644
5 鋼鉄の錬金術師 新日鉄住金ソリューションズ株式会社 波多野卓磨 0.12979
6 T-AND-N 東京大学 中川裕志 0.05987
7 狛犬 - - 0.47211
8 MDLer 筑波大学 佐久間淳 0.59250
9 ブラザーフッド 個人参加 岡本 靖浩 0.49178
10 チームぼっち Kii株式会社 井口誠 0.58104
11 Ice Sushi 情報セキュリティ大学院大学 土井 洋 0.75911
12 時計仕掛けのオレンジ 個人 松本武史 0.85344
13 匿名戦隊アノニマーズ - - 0.27987
14 がん(りゅうじ)ま - - 1.00810
15 チーム名 - - 0.94618
16 一芸道 - - 0.96610
17 ステテコ伊藤2 明治大学総合数理学部 菊池浩明 1.05405
18 先魁 金沢大学 満保 雅浩 0.81969
19 PRIVACY HUMAN - - 1.91326
20 トシモン - - 2.07118
21 チーム三茶 池田智弘 1.93032
22 付け焼刃 - - 2.00641
23 てんねんすい 所属なし 田中健二 2.06381

本戦ランキング(2016/10/11)

No. チーム 所属組織 提出ファイル 責任者 安全性 有用性 合計
1 T-AND-N 東京大学 [M][T][P] 中川裕志 0.22250 0.00961 0.23211
2 シライ5000 - 非公開 - 0.23750 0.01031 0.24781
3 鋼鉄の錬金術師 新日鉄住金ソリューションズ株式会社 [M][T][P] 波多野卓磨 0.25500 0.00524 0.26024
4 Justice 電気通信大学 [M][T][P] 清 雄一 0.27500 0.01346 0.28846
5 チームぼっち Kii株式会社 [M][T][P] 井口誠 0.30250 0.01031 0.31281
6 カコウマシマシプライバシカラメ - 非公開 - 0.32000 0.00296 0.32296
7 ステテコ伊藤2 明治大学総合数理学部 [M][T][P] 菊池浩明 0.34750 0.01275 0.36025
8 nifigaki 静岡大学 [M][T][P] 西垣正勝 0.37250 0.04403 0.41653
9 MDLer 筑波大学 [M][T][P] 佐久間淳 0.38500 0.04704 0.43204
10 匿名戦隊アノニマーズ - 非公開 - 0.55000 0.00559 0.55559
11 チーム名 - 非公開 - 0.31000 0.43606 0.74606
12 狛犬 - 非公開 - 0.75750 0.01468 0.77218
13 Ice Sushi 情報セキュリティ大学院大学 [M][T][P] 土井 洋 0.89250 0.04789 0.94039
14 がん(りゅうじ)ま - 非公開 - 0.92750 0.02251 0.95001
15 先魁 金沢大学 非公開 満保 雅浩 1.00000 0.00000 1.00000



コンテストルール概要


本コンテストのルール概要は以下の通り.なお,ルールは予告無く変更される場合があります..

  1. (プレイヤー)匿名加工者,再識別者,審判員の3者が係る.
  2. (匿名加工者) 匿名加工者は,オリジナルの顧客マスターデータMと購買履歴データTを与えられ,匿名加工したマス ターデータM'と購買履歴データT''と,MとM'のレコードの対応を表した行番号データPを生成する.再識別者にM', T'を,審判員にM', T', とPを提出する.
  3. (再識別者)再識別者は,顧客マスターデータMと購買履歴データTを参照して,匿名加工されたM'から推定した推定行番号データQを審判員に提出する.
  4. (匿名加工の勝者)最も有用性が高く,最も安全な匿名加工データを提出した匿名加工者を勝者とする.有用性と安全性を総合して,勝者を決定する.


M:オリジナルの顧客マスターデータ
T:オリジナルの購買履歴データ

M':匿名加工した顧客マスターデータ
T':匿名加工した購買履歴データ
P:マスターデータの行番号データ(再識別の正解)

Q:M’に対する再識別行番号データ(再識別の回答)
概要資料のダウンロード




評価指標・サンプルプログラム

今回の匿名加工処理,評価処理に利用されているプログラムのリストです.
サンプルプログラムと共にご確認ください.

指標 指標説明 作成者 プログラム
[開発言語]
P1U1-cmae1 2つのクロス集計表間のMAEを計算 (c1 vs c2, c1 は M と T,c2 は M' と T',計算.クロス集計は性別と国によりグループ化.集計値は平均単価(総購入額 / 総購入個数) 濱田 浩気 ut-cmae.rb
[ruby]
P1U2-cmae2 2つのクロス集計表間のMAEを計算 (c1 vs c3, c1 は M と T,c3 は (Pにより M' の各行を対応する M の行に置き換えた表) と T' で計算されるクロス集計表)計算.クロス集計は性別と国によりグループ化.集計値は平均単価(総購入額 / 総購入個数) 濱田 浩気 ut-cmae.rb
[ruby]
U3-rfm RFM分析の観点で、R, F, Mをそれぞれ10分位値を目安に10ランクに分け、計1000ランクに顧客を分類し、その度数のRMSEを出力。M'のID以外の属性や、T'の時分と製品IDは使わない。 山岡 裕司 ut-rfm_t.jar
[java]
U4-top_items 1 - |(T の頻出アイテム集合の集合) ∩ (T' の頻出アイテム集合の集合)| / |(T の頻出アイテム集合の集合)| を計算 野島 良 ut-top_items.rb
[ruby]
Y-subset 大きさ10の顧客の部分集合X / subset Mと,対応するX' / subset M'を全ての組み合わせで作成し,T上の連続した30日間Yに対し,TとT'から計算される顧客X(X')が期間Yに購入した平均購入金額をK(K')と するとき,|K-K'|/Kの最大値. 濱田 浩気 ut-subset.rb
[ruby]
P1E1-birthday 生年月日同士の距離が最小となる顧客IDに再識別 村上 隆夫 re-birthday.py
[python]
P1E2-eqi マスターの属性(仮IDを除く)とトランザクションが完全一致するレコードを推測.なければランダム 濱田 浩気 re-eqi.rb
[ruby]
E3-sort (性別,生年月日,国)でソート 濱田 浩気 re-sort.rb
[ruby]
E4-sort2 生年月日でソート 濱田 浩気 re-sort2.rb
[ruby]
E5-recnum レコード数マッチング(トランザクションのレコード数同士の距離が最も近い顧客に再識別) 村上 隆夫 re-recnum.py
[python]
E6-eqtr トランザクションが完全一致するレコードを推測.なければランダム 濱田 浩気 re-eqtr.rb
[ruby]
E7-tnum トランザクション数でソート 濱田 浩気 re-tnum.rb
[ruby]
E8-meantime 平均購入時刻同士の距離が最小となる顧客IDに再識別 村上 隆夫 re-meantime.py
[python]
E9-re 常に 1, 2, 3, …, |M''| と推測 濱田 浩気 re.rb
[ruby]
E10-tnum-bi (トランザクション数,生年月日)でソート 濱田 浩気 re-tnum-bi.rb
[ruby]
E11-totprice 総価格同士の距離が最小となる顧客IDに再識別 村上 隆夫 re-totprice.py
[python]
P1A1-ano そのまま出力(仮ID化なし,MやTの順序置換もなし) 濱田 浩気 ano.rb
[ruby]
P1A2-ano-shuffle 特別な加工なし(仮ID化,MおよびTの順序置換は行う) 濱田 浩気 ano-shuffle.rb
[ruby]
A3-ano-ya 山岡匿名化(M を行単位でランダム置換) 濱田 浩気 ano-ya.rb
[ruby]
A4-ano-tya 教科書山岡匿名化(M の各行を上に一つずらす) 濱田 浩気 ano-tya.rb
[ruby]
A5-ano-ba 顧客IDと伝票IDはシャッフル、年月日時分の日時分は1日0:00に均一化、製品IDはMに均一化、単価と数量は有効数字1桁化、マスターはf, 1960/1/1, UKに均一化。ソースコード付き。 山岡 裕司 ano-ba.jar
[java]
A6-ano-ya マスターデータで近そうな行(生年月日、国、性別でソートした場合の隣の行)に山岡匿名加工。 山岡 裕司 ano-ya.jar
[java]
A7-ano-swap ランダムにkレコードずつの組(余りはk個未満の組)を作り,各組の中でMを性別,生年月日,国をそれぞれ独立にランダム置換 濱田 浩気 ano-swap.rb
[ruby]
A8-ano-swap2 (性別,国)でソート後に上からkレコードずつの組(余りはkレコード未満の組)を作り,各組の中でMを性別,生年月日,国をそれぞれ独立にランダム置換.さらにTをランダム化 濱田 浩気 ano-swap2.rb
[ruby]
A9-ano-divt-topitem Mの生年月日を均一化.総金額を維持したままトランザクション数を増加.さらにTをランダム化.頻出商品集合の集合に出現する商品IDに商品IDを変更 濱田 浩気 ano-divt-topitem.rb
[ruby]
A10-ano-divt Mの生年月日を均一化.総金額を維持したままトランザクション数を増加.さらにTをランダム化 濱田 浩気 ano-divt.rb
[ruby]


今回の匿名加工処理,評価処理に利用されているプログラムを公開いたします.
インターフェイス概要がファイルに含まれていますので,内容を確認の上,ご利用ください.

Ruby用プログラム集 Ruby用サンプルプログラム.作成者: 濱田 浩気,野島 良
Python用プログラム集 Python用サンプルプログラム.作成者:村上 隆夫,山口 高康 
Java用プログラム集 Java用サンプルプログラム.作成者: 山岡 裕司




使用するデータセット

大会では,UCI Machine Learning Repository[1] の  Online Retail Data Set[2] (2010年から1年分の英国のオンライン小売店での購買履歴データ,約8属性,約50万レコード,以下「購買履歴データ」「トランザクションデータ(T)」とする) を利用します.

また,このデータに対応した,顧客データベースをマスターデータ(M)として利用します.
本マスターデータは,データセットと同封してあるマスターデータ生成プログラム(datagen2.py)で生成しました.
予備戦は,全データではなく,一部を抽出したもので行う予定です.


 [1] Lichman, M., "UCI Machine Learning Repository[http://archive.ics.uci.edu/ml]", University of California, Irvine, School of Information and Computer Sciences, (2013).
 [2] Chen, D., Sain, S.L. and Guo, K., "Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining", Journal of Database Marketing & Customer Strategy Management, 19(3), pp.197-208, (2012).


 共通データセットリスト

Transaction.csv UCI-Online Retail Data Setをクレンジングしたデータ
Transaction-Customer100.csv      100人の顧客データに対応した抽出データ
Transaction-Customer400.csv 400人の顧客データに対応した抽出データ
Master.csv マスターデータ生成プログラムで生成したデータ
Master-Customer100.csv 100人の顧客データのみ抽出
Master-Customer400.csv 400人の顧客データのみ抽出

データダウンロード


データセットに関する資料

これらのデータセットのプロパティや提出時の注意点などは,以下の資料にまとめてあります.

PWS CUP 2016のUCIデータおよびコンテストデータ(PDF) 共通データセットについて
PWS CUP 2016 マスターデータの書式 Ver. 0.2(PDF)   マスターデータの書式,プロパティ  
PWS CUP 2016 トランザクションデータの書式 Ver. 0.3 (PDF) 購買履歴データの書式,プロパティ




指標に関する説明


最新のルールはこちらになります.ダウンロードしてご確認ください.


【質問】Y(subset)について,論文上の定義と異なる部分はどのような箇所ですか.
【回答】

こちら,大変申し訳ございませんでした.
複数の参加者様より,実際の結果と異なる旨の報告がありまして,実行委員内でも精査した結果,結果データが異なることが確認されました.

具体的には,ut-subset.rb における147行目の箇所になります.

    res = max(res,
              min(abs(mean(x[0, num_c])),
                 abs(mean(x.reverse[0, num_c]))))

こちらの処理において,XとX'における平均価格の最大値を求めているのですが,minではなくmaxが正しい挙動でした.
そのため,本戦では,Y1(subset)としまして,修正後のプログラムが利用されることとなりました.

この結果によって,予備戦におけるいくつかのデータにおいて,値が大きく異なる場合が確認されました.
投入されました全データに対しまして,YとY1を計測し,以下の状況を確認いたしました.

  常に Y(subset)≦Y1(subset) であること
  提出データの平均Y値が3671であるのに対し,Y1の平均が48737であること

そのため,本戦においてY1を使用するにあたり,しきい値の再定義を行う必要があると考え,
Y1の平均値に近いものとして,50000を設定いたしました.
準備フェイズシステムを利用しまして,データのご確認を頂けますと幸いです.



【質問】当初のルール論文には各指標が使用している属性のリストが掲載されていました.予備選についての最終版はありますか.

【回答】
現在実装中の各プログラムに対応した属性につきましては,以下の図を参照ください.





【質問】Y-subset について質問です."大きさ10の顧客の部分集合X / subset Mと,対応するX' / subset M'を全ての組み合わせで作成"とありますが、大きさ10の顧客集合はどのように選択するのでしょうか.また,論文には"月ごと"と書いてありますが,こ れは正しいのでしょうか.

【回答】
まず,Y-subsetについて,初期論文と異なる箇所も含めまして,考え方を整理します.

X' を |X'| = 10 である M' の部分集合,D を T の連続する 30 日間とします.
P により X' に対応付けられる顧客集合を X で表すことにすると,
指標値は
   max_{X', D} |K - K'|
です.
ここで,K' および K は,それぞれ X' と D が決まったときに計算される
   K' = (X' の顧客の期間 D 内の購買総額) / |X'|,
   K = (X の顧客の期間 D 内の購買総額) / |X|
です.

これにより,M' 内の10人の組すべてについて|K-K'|を考えたときの最大値を求めています.
そのため,ランダムに10人を選択することも,たまたま|K-K'|が低い10人を選んでしまって値が低くなることもございません.
数式等,正確な評価は最新の論文にてご確認ください.




【質問】Y-subset について質問です.しきい値が予備戦期間中に変更(10000->5000)されたのはなぜでしょうか.

【回答】
当初,実行委員内で検討した結果,間口を広くする目的のため,しきい値を低く設定し,多くのデータを投入可能としていました.
しかし,単純なアルゴリズムによって,しきい値をクリアし,かつ有用性,安全性の高いデータを,ほぼ無加工で生成できることが判明しました.

行番号データPに対するかく乱攻撃は禁止するものではありませんが,安易なかく乱のみに頼った匿名化データには,個人をシングルアウトできる危険性が含まれています.
そこで,しきい値を段階的に下げ,Pの過加工に対する規制を強めました.参加者様に混乱を与えましたことをお詫び申し上げます.

また,ルール 11.(2) 「 PWS CUP 実行委員会委員として , 匿名加工者や再識別者がそれを知ることでコンテストで有利になるような情報を非公開にすること」に基づき , ut-subset のしきい値を見積もるために用いられた下記の山岡匿名化アルゴリズムを公開します.

〇アルゴリズム
   Input: M,T
   Step 1. while true
   Step 2. choose random permutation p such that ut-cmae2(M,T,M,T,p) = 0
   Step 3. if ut-subset(M,T,M,T,p) < t, then break
   Step 4. output (M,T,p) as (M′ ,T′ ,p)




【質問】有用性指標U1-Cmae1とU2-Cmae2について質問です.説明中でクロス集計,と記載されていますが,その詳細について説明ください.またU1とU2の違いはどこにありますか.

【回答】
有用性指標U1-Cmae1とU2-Cmae2は,MとTによってクロス集計を行うものですが,U1とU2の違いにつきましては,理解が難しいものとなっております.
まず,Cmae1とCmae2は,c2-性別(2種以下)×c3-国名(36種以下)で平均単価を算出するものです.


U1ではMとT,M'とT’に関する金額のクロス集計表を作成します. Mから性別(2種)×国名(36種)=72種※ の属性を抜き出し,1個あたり平均金額の合計 との集計表を作成します.
※出現が0のデータもありますので,実データ(M)では47種類が利用されています.
その値と1個あたり平均単価の合計を集計し,MT → M'T'の絶対平均誤差を求めるものです.


それに対してU2は,MとT'をPで接続することで,Pに対する過加工(山岡匿名化など)を行った場合に誤差が大きくなるように設計されています.
M → P → M' → T とID列を接続することで, MT'の集計表を作成し,MTとの誤差を求めます.
これにより,U1とU2を比較して,U2の方が大きい場合,Pへの加工を行っていることが検出できるようになります.





【質問】U3-rfm について質問です.RFMの1000個のクラスと,RfmTC.java 215行における,mTable、rfmCountMapは何を指すのか,なぜ2倍しているのか教えてください.

【回答】
まず,RFM分析は,T,T'における全ユーザを Recency(最終購買日) Frequency(伝票数) Monetary(購買金額)によってクラス分けし,各クラスにおける人数の誤差を求めるものです.
本指標では,それぞれR/F/Mの段階を10段階とし,10×10×10の1000クラスを作成して,ユーザを当てはめています.


ソースコードにおける mTable は、マスターデータMで、セル値のリスト(=行)のリストです。よって、mTable.size() は行数|M|です。

double maxRmse = Math.sqrt(Math.pow(mTable.size(), 2) * 2 / rfmCountMap.size());

   rfmCountMap はRFMの1000個の各クラスのM, Tの顧客の度数です。
   rfmCount2Map はRFMの1000個の各クラスのM', T'の顧客の度数です。
   rfmCountMap.size() も rfmCount2Map.size() も1000です。

最大値は、たとえば、
   ・加工前の分布: クラスC1に400人、他のクラスに0人、
   ・加工後の分布: クラスC2に400人、他のクラスに0人、
のような、全く異なる分布に加工した場合の値としています。

この場合、
   クラスC1の誤差 + クラスC2の誤差 = 2 × クラスC1の誤差
となり、この右辺の係数が「なぜ2倍」の2に当たります。

ただし、実際は加工前の分布は1つのクラスに400人集中しているわけではないので、どのような加工をしても、上記の最大値になることはありません。 従って、0~1に正規化していると申しましても、実際は1になることはありません。




【質問】U4-top_items について質問です.「頻出アイテム集合」とありますが,頻出の定義となる具体的なしきい値を教えてください.

【回答】
U4-top_itemsは,バスケット分析と呼ばれるような,伝票内に含まれる商品リストから,多く購入されている商品を抜き出し,その傾向を分析するものです.

それらのしきい値の設定は,ut-top_items.rb のコード45行目に以下のように記載されています.

   return $f400_content, $f400_sup, $f400_sum

この値は,requireされているut-apdata_v0.1.rbを参照ください.以下のように記述されています.

   $f400_content=[['22431'],['47590B'],['84997B'],['23198'],...
   $f400_sup = 0.02
   $f400_sum = 1763

この値が,元データとなるT_400(38087行)を事前に分析した結果データです.
これは,全ての伝票ID内において 2%よりも大きい出現率であった商品IDのリストを示しています.
これが出現した頻出アイテムリスト Top(T) になります.

これに対して,Top(T)と同様の商品IDリストが T’ に2%よりも多く含まれているかを算出し、その差を求めているのが ut-top_items.rb になります.









ルール論文


2016年度のルール論文です.本戦向けの資料を更新しましたのでご参照ください.

1) PWSCUP: 履歴データを安全に匿名加工せよ (9/27 ver.)
菊池 浩明,小栗 秀暢,野島 良,濱田 浩気,村上 隆夫,山岡 裕司,山口 高康,渡辺 知恵美
  ※予備戦最新ルールにあわせまして,論文も改訂されました.ご確認ください.

2) PWSCUP競技ルールver1.3 (10/4 ver.)
本戦用のルールが公開されました.ご確認をお願いします.


PWSCUP 2015 関連資料

以下は PWSCUP 2015 関連論文,資料になります.

1) 匿名加工・再識別コンテストIce & Fireの設計
菊池 浩明 , 山口 高康 , 濱田 浩気 , 山岡 裕司 , 小栗 秀暢 , 佐久間 淳
コンピュータセキュリティシンポジウム2015論文集,2015(3),363-370 (2015-10-14).

2) PWS CUP 匿名加工・再識別コンテスト"Ice and Fire" 競技ルール

3) 匿名加工・再識別コンテスト PWSCUP2015の報告と匿名加工方法の評価
菊池 浩明 , 山口 高康 , 濱田 浩気 , 山岡 裕司 , 小栗 秀暢 , 佐久間 淳
暗号と情報セキュリティシンポジウム2016論文集

4) Ice and Fire: Quantifying the Risk of Re-identification and Utility in Data Anonymization
Hiroaki Kikuchi, Takayasu Yamaguchi, Koki Hamada, Yuji Yamaoka, Hidenobu Oguri, Jun Sakuma
The 30th IEEE International Conference on Advanced Information Networking and Applications(AINA 2016),Crans-Montana.Switzerland, (2016-5).

5) 匿名加工・再識別コンテストを通じた情報流通プラットフォームの検討
小栗 秀暢 , 黒政 敦史 , 松井 くにお
研究報告コンピュータセキュリティ(CSEC),(2016-03).


[ PWS MEETUP発表資料 (2016/3/2) ]
1) 匿名加工再識別コンテスト2015振り返り
山岡 裕司(富士通研究所)

2) 全部門第一位チーム「ψ沈黙のジャスティスψ」が解説する最強の匿名加工技術
濱田 浩気(NTTセキュアプラットフォーム研究所)

3) 2016年度コンテストの計画について
菊池浩明(明治大)



PWS2016実行委員会


委員長

    菊池浩明 (明治大学)


副委員長

    千田浩司 (NTT)


委員

    荒井ひろみ (東京大学)、伊藤伸介(中央大学)、小栗秀暢 (ニフティ)、 佐久間淳 (筑波大学)、島岡政基 (セコム)、須川賢洋 (新潟大学)、寺田雅之 (NTTドコモ)、野島良 (NICT)、濱田浩気 (NTT)、古川諒 (NEC)、南和宏 (統計数理研究所)、村上隆夫 (産業技術総合研究所)、山岡裕司 (富士通研)、山口高康 (NTTドコモ)、吉浦裕 (電気通信大学)、渡辺知恵美(筑波大学)



後援

    個人情報保護委員会




Copyright 2016 (社)情報処理学会 コンピュータセキュリティ研究会 PWS実行委員会 All rights reserved.

後援:個人情報保護委員会