PWS CUP 匿名加工・再識別コンテスト

PWSCUP2016

PWS 実行委員会からのお知らせ

PWS Meetupイベント開催(2017/02/09)

今年度のプライバシーワークショップ（PWS）活動の総括としまして，Meetupイベントを　 2017年2月9日 13時～　東京大学本郷キャンパス　工学部6号館3階にて開催いたします．
PWS CUPの振り返りと来年度の予定，公的統計の秘匿基準，技術や法律の最新動向などの講演を予定しています．ぜひご参加ください．

最終ランキング公開(2016/10/17)

2016年10月11日に秋田で行われたPWSCUP本戦によって，最終ランキングが決定しました．厳正な審査の結果，T-AND-Nチームが優勝となりました．おめでとうございます．
今年もPWSCUPにご参加いただいた皆様，ありがとうございました．データの公開に賛同頂けたチームの結果データが公開されておりますので，ご参照ください．

再識別フェイズ開始・本戦ルール公開(2016/09/27)

大変お待たせいたしました．再識別フェイズの開始，及び本戦ルールを公開いたしました．
再識別フェイズのルールも変更されまして，予備戦の再識別フェイズは勝者を定めないこととなりました．詳しくは新ルール，及び最新論文をご参照ください．また，本戦参加のエントリーもお願いいたします．

予備戦ルール・日程変更(2016/09/09)

予備戦：匿名化フェイズにつきまして，提出された資料を元にルールの改変が行われました．大変申し訳ございませんが，9月7日以前に提出されたデータを論理削除いたしました．改めて新ルールに従い，ご提出をお願いいたします．それに伴い，匿名化フェイズを 9/20(火)まで延長いたしました．最新のルール，及び，指標に関する説明をご参照ください．

第5回 PWS勉強会のご案内【9月29日(木)17時～】

今月のPWS勉強会の日程が発表されました．ご興味のある方はご参加ください．
タイトル：差分プライバシーチュートリアル　講師：佐久間淳先生（筑波大学）　場所：東京大学本郷地区キャンパス工学部6号館３F セミナー室AD　※計算限界(ELC)・秋の学校の発表と同じ内容です．発表スライドは英語になります．

PWS CUP 2016 予備戦サイト公開 (2016/08/24)

今年度のルールが発表されました．9月1日までをルールの浸透期間と位置づけ，自由にシステムを扱える日とします．今年度のルール等についてご確認ください．

概要

PWSCUP2016では，マスターデータと購買履歴データに対して，匿名加工と再識別を行います．

スケジュール

PWS Cup参加エントリー申込期間	7/27（水）- 8/16（火）
予備戦（匿名加工データ提出）	8/25（木）- 9/13（火）
予備戦（再識別データ提出）	9/27（火）- 10/3（月)
本戦（匿名加工・再識別）	10/11 (火) 09:30
最終プレゼン，評価結果発表	10/12(水) 10:35

※スケジュールは運営の都合などによって，予告なく変更される場合があります．

参加チーム一覧

No.	チーム名	責任者	組織	コメント	データ	写真
1	T-AND-N	中川裕志	東京大学	きりたんぽ食べに来ました	OK	OK
2	チーム名	山田明	個人	チームのキャッチコピー	OK	ASK
3	狛犬	-	-	がんばります	NG	ASK
4	Ice Sushi	土井洋	情報セキュリティ大学院大学	昨年は見学のみだったので、今年は手を動かして頑張ります。	OK	ASK
5	ステテコ伊藤２	菊池浩明	明治大学総合数理学部	単位よりポケモンGO	OK	OK
6	がん（りゅうじ）ま	-	-	昨年の雪辱を果たします．	NG	ASK
7	てんねんすい	田中健二	所属なし	秋田城見たい	OK	OK
8	PRIVACY HUMAN	仲田敦	無し	アイムプライバシーヒューマン	NG	OK
9	ｶｺｳﾏｼﾏｼﾌﾟﾗｲﾊﾞｼｶﾗﾒ	-	-	ノイズ入れますか？	NG	ASK
10	チームぼっち	-	-	ぼっちでも一人でがんばるぞい！	NG	OK
11	nifigaki	西垣正勝	静岡大学	大番狂わせを目指します！	OK	ASK
12	一芸道	-	-	隠れたるより見るるはなし	NG	OK
13	匿名戦隊アノニマーズ	-	-	データの秘密は俺たちが守る！	NG	ASK
14	Justice	-	-	感動を、あなたに	NG	ASK
15	チーム三茶	池田智弘	無	初心者集団ですが、勉強のため参加します！	OK	OK
16	MDLer	佐久間淳	筑波大学	ちゃんとやります．	OK	OK
17	鋼鉄の錬金術師	波多野卓磨	新日鉄住金ソリューションズ株式会社	錬金します	OK	OK
18	シライ5000	-	-	歯ブラシ立て欲しい！	NG	ASK
19	付け焼刃	-	-	即席チームですが頑張ります^^	NG	OK
20	ゼロから始める匿名生活	-	-	年齢幅が大きい学生チーム	OK	ASK
21	トシモン	-	-	The world is yours.	NG	OK
22	ブラザーフッド	岡本靖浩	個人参加	頑張ります	OK	OK
23	時計仕掛けのオレンジ	-	-	プライバシ技術を磨きたいと思います！よろしくお願いします！	OK	OK
24	先魁	満保雅浩	金沢大学	修行中のかけだしですので、お手柔らかに願います	OK	OK

最終ランキング(2016/10/11)

2016年10月11日に秋田で行われたPWSCUP本戦の結果，最終順位が決定しました．
１位から３位までのチームにはCSS2016内で表彰が行われました．おめでとうございます．

予備戦(A)	本戦(B)	A*0.1	B*0.9	合計	チーム名	組織	責任者
6	1	0.6	0.9	1.5	T-AND-N	東京大学	中川裕志
1	2	0.1	1.8	1.9	シライ5000	-	-
5	3	0.5	2.7	3.2	鋼鉄の錬金術師	新日鉄住金ソリューションズ株式会社	波多野卓磨
3	4	0.3	3.6	3.9	Justice	電気通信大学	清　雄一
10	5	1	4.5	5.5	チームぼっち	Kii株式会社	井口誠
4	6	0.4	5.4	5.8	ｶｺｳﾏｼﾏｼﾌﾟﾗｲﾊﾞｼｶﾗﾒ	-	-
2	8	0.2	7.2	7.4	nifigaki	静岡大学	西垣正勝
17	7	1.7	6.3	8.0	ステテコ伊藤２	明治大学総合数理学部	菊池浩明
8	9	0.8	8.1	8.9	MDLer	筑波大学	佐久間淳
13	10	1.3	9	10.3	匿名戦隊アノニマーズ	-	-
15	11	1.5	9.9	11.4	チーム名	-	-
7	12	0.7	10.8	11.5	狛犬	-	-
11	13	1.1	11.7	12.8	Ice Sushi	情報セキュリティ大学院大学	土井洋
14	14	1.4	12.6	14.0	がん（りゅうじ）ま	-	-
18	15	1.8	13.5	15.3	先魁	金沢大学	満保雅浩
9	16	0.9	14.4	15.3	ブラザーフッド	個人参加	岡本靖浩
12	16	1.2	14.4	15.6	時計仕掛けのオレンジ	個人	松本武史
16	16	1.6	14.4	16.0	一芸道	-	-
19	16	1.9	14.4	16.3	PRIVACY HUMAN	-	-
20	16	2	14.4	16.4	トシモン	-	-
21	16	2.1	14.4	16.5	チーム三茶	無	池田智弘
22	16	2.2	14.4	16.6	付け焼刃	-	-
23	16	2.3	14.4	16.7	てんねんすい	所属なし	田中健二

また，本戦にて「優勝チームのデータに対し最も多く再識別を行ったチーム」に「再識別賞」が授与されました．
審査の結果　ステテコ伊藤２チーム，鋼鉄の錬金術師チーム　の両チームが同数にて受賞されました．
ご参加いただきました皆様，ありがとうございました．

予備戦ランキング(2016/10/04)

No.	チーム	所属組織	責任者	合計
1	シライ5000	-	-	0.03781
2	nifigaki	静岡大学	西垣正勝	0.04500
3	Justice	電気通信大学	清　雄一	0.05087
4	ｶｺｳﾏｼﾏｼﾌﾟﾗｲﾊﾞｼｶﾗﾒ	-	-	0.05644
5	鋼鉄の錬金術師	新日鉄住金ソリューションズ株式会社	波多野卓磨	0.12979
6	T-AND-N	東京大学	中川裕志	0.05987
7	狛犬	-	-	0.47211
8	MDLer	筑波大学	佐久間淳	0.59250
9	ブラザーフッド	個人参加	岡本靖浩	0.49178
10	チームぼっち	Kii株式会社	井口誠	0.58104
11	Ice Sushi	情報セキュリティ大学院大学	土井洋	0.75911
12	時計仕掛けのオレンジ	個人	松本武史	0.85344
13	匿名戦隊アノニマーズ	-	-	0.27987
14	がん（りゅうじ）ま	-	-	1.00810
15	チーム名	-	-	0.94618
16	一芸道	-	-	0.96610
17	ステテコ伊藤２	明治大学総合数理学部	菊池浩明	1.05405
18	先魁	金沢大学	満保雅浩	0.81969
19	PRIVACY HUMAN	-	-	1.91326
20	トシモン	-	-	2.07118
21	チーム三茶	無	池田智弘	1.93032
22	付け焼刃	-	-	2.00641
23	てんねんすい	所属なし	田中健二	2.06381

本戦ランキング(2016/10/11)

No.	チーム	所属組織	提出ファイル	責任者	安全性	有用性	合計
1	T-AND-N	東京大学	[M][T][P]	中川裕志	0.22250	0.00961	0.23211
2	シライ5000	-	非公開	-	0.23750	0.01031	0.24781
3	鋼鉄の錬金術師	新日鉄住金ソリューションズ株式会社	[M][T][P]	波多野卓磨	0.25500	0.00524	0.26024
4	Justice	電気通信大学	[M][T][P]	清　雄一	0.27500	0.01346	0.28846
5	チームぼっち	Kii株式会社	[M][T][P]	井口誠	0.30250	0.01031	0.31281
6	ｶｺｳﾏｼﾏｼﾌﾟﾗｲﾊﾞｼｶﾗﾒ	-	非公開	-	0.32000	0.00296	0.32296
7	ステテコ伊藤２	明治大学総合数理学部	[M][T][P]	菊池浩明	0.34750	0.01275	0.36025
8	nifigaki	静岡大学	[M][T][P]	西垣正勝	0.37250	0.04403	0.41653
9	MDLer	筑波大学	[M][T][P]	佐久間淳	0.38500	0.04704	0.43204
10	匿名戦隊アノニマーズ	-	非公開	-	0.55000	0.00559	0.55559
11	チーム名	-	非公開	-	0.31000	0.43606	0.74606
12	狛犬	-	非公開	-	0.75750	0.01468	0.77218
13	Ice Sushi	情報セキュリティ大学院大学	[M][T][P]	土井洋	0.89250	0.04789	0.94039
14	がん（りゅうじ）ま	-	非公開	-	0.92750	0.02251	0.95001
15	先魁	金沢大学	非公開	満保雅浩	1.00000	0.00000	1.00000

コンテストルール概要

本コンテストのルール概要は以下の通り．なお，ルールは予告無く変更される場合があります．．

（プレイヤー）匿名加工者，再識別者，審判員の3者が係る．
（匿名加工者)　匿名加工者は，オリジナルの顧客マスターデータMと購買履歴データTを与えられ，匿名加工したマスターデータM'と購買履歴データT''と，MとM'のレコードの対応を表した行番号データPを生成する．再識別者にM', T'を，審判員にM', T', とPを提出する．
（再識別者）再識別者は，顧客マスターデータMと購買履歴データTを参照して，匿名加工されたM'から推定した推定行番号データQを審判員に提出する．
（匿名加工の勝者）最も有用性が高く，最も安全な匿名加工データを提出した匿名加工者を勝者とする．有用性と安全性を総合して，勝者を決定する．

Ｍ：オリジナルの顧客マスターデータ
Ｔ：オリジナルの購買履歴データ

Ｍ'：匿名加工した顧客マスターデータ
Ｔ'：匿名加工した購買履歴データ
Ｐ：マスターデータの行番号データ(再識別の正解)

Ｑ：Ｍ’に対する再識別行番号データ(再識別の回答)

概要資料のダウンロード

評価指標・サンプルプログラム

今回の匿名加工処理，評価処理に利用されているプログラムのリストです．
サンプルプログラムと共にご確認ください．

指標	指標説明	作成者	プログラム [開発言語]
P1U1-cmae1	2つのクロス集計表間のMAEを計算 (c1 vs c2， c1 は M と T，c2 は M' と T'，計算．クロス集計は性別と国によりグループ化．集計値は平均単価(総購入額 / 総購入個数)	濱田浩気	ut-cmae.rb [ruby]
P1U2-cmae2	2つのクロス集計表間のMAEを計算 (c1 vs c3， c1 は M と T，c3 は (Pにより M' の各行を対応する M の行に置き換えた表) と T' で計算されるクロス集計表)計算．クロス集計は性別と国によりグループ化．集計値は平均単価(総購入額 / 総購入個数)	濱田浩気	ut-cmae.rb [ruby]
U3-rfm	RFM分析の観点で、R， F， Mをそれぞれ10分位値を目安に10ランクに分け、計1000ランクに顧客を分類し、その度数のRMSEを出力。M'のID以外の属性や、T'の時分と製品IDは使わない。	山岡裕司	ut-rfm_t.jar [java]
U4-top_items	1 - \|(T の頻出アイテム集合の集合) ∩ (T' の頻出アイテム集合の集合)\| / \|(T の頻出アイテム集合の集合)\| を計算	野島良	ut-top_items.rb [ruby]
Y-subset	大きさ10の顧客の部分集合X / subset Mと，対応するX' / subset M'を全ての組み合わせで作成し，T上の連続した30日間Yに対し，TとT'から計算される顧客X(X')が期間Yに購入した平均購入金額をK(K')とするとき，\|K-K'\|/Kの最大値．	濱田浩気	ut-subset.rb [ruby]
P1E1-birthday	生年月日同士の距離が最小となる顧客IDに再識別	村上隆夫	re-birthday.py [python]
P1E2-eqi	マスターの属性(仮IDを除く)とトランザクションが完全一致するレコードを推測．なければランダム	濱田浩気	re-eqi.rb [ruby]
E3-sort	(性別，生年月日，国)でソート	濱田浩気	re-sort.rb [ruby]
E4-sort2	生年月日でソート	濱田浩気	re-sort2.rb [ruby]
E5-recnum	レコード数マッチング（トランザクションのレコード数同士の距離が最も近い顧客に再識別）	村上隆夫	re-recnum.py [python]
E6-eqtr	トランザクションが完全一致するレコードを推測．なければランダム	濱田浩気	re-eqtr.rb [ruby]
E7-tnum	トランザクション数でソート	濱田浩気	re-tnum.rb [ruby]
E8-meantime	平均購入時刻同士の距離が最小となる顧客IDに再識別	村上隆夫	re-meantime.py [python]
E9-re	常に 1， 2， 3， …， \|M''\| と推測	濱田浩気	re.rb [ruby]
E10-tnum-bi	(トランザクション数，生年月日)でソート	濱田浩気	re-tnum-bi.rb [ruby]
E11-totprice	総価格同士の距離が最小となる顧客IDに再識別	村上隆夫	re-totprice.py [python]
P1A1-ano	そのまま出力(仮ID化なし，MやTの順序置換もなし)	濱田浩気	ano.rb [ruby]
P1A2-ano-shuffle	特別な加工なし(仮ID化，MおよびTの順序置換は行う)	濱田浩気	ano-shuffle.rb [ruby]
A3-ano-ya	山岡匿名化(M を行単位でランダム置換)	濱田浩気	ano-ya.rb [ruby]
A4-ano-tya	教科書山岡匿名化(M の各行を上に一つずらす)	濱田浩気	ano-tya.rb [ruby]
A5-ano-ba	顧客IDと伝票IDはシャッフル、年月日時分の日時分は1日0:00に均一化、製品IDはMに均一化、単価と数量は有効数字1桁化、マスターはf， 1960/1/1， UKに均一化。ソースコード付き。	山岡裕司	ano-ba.jar [java]
A6-ano-ya	マスターデータで近そうな行（生年月日、国、性別でソートした場合の隣の行）に山岡匿名加工。	山岡裕司	ano-ya.jar [java]
A7-ano-swap	ランダムにkレコードずつの組(余りはk個未満の組)を作り，各組の中でMを性別，生年月日，国をそれぞれ独立にランダム置換	濱田浩気	ano-swap.rb [ruby]
A8-ano-swap2	(性別，国)でソート後に上からkレコードずつの組(余りはkレコード未満の組)を作り，各組の中でMを性別，生年月日，国をそれぞれ独立にランダム置換．さらにTをランダム化	濱田浩気	ano-swap2.rb [ruby]
A9-ano-divt-topitem	Mの生年月日を均一化．総金額を維持したままトランザクション数を増加．さらにTをランダム化．頻出商品集合の集合に出現する商品IDに商品IDを変更	濱田浩気	ano-divt-topitem.rb [ruby]
A10-ano-divt	Mの生年月日を均一化．総金額を維持したままトランザクション数を増加．さらにTをランダム化	濱田浩気	ano-divt.rb [ruby]

今回の匿名加工処理，評価処理に利用されているプログラムを公開いたします．
インターフェイス概要がファイルに含まれていますので，内容を確認の上，ご利用ください．

Ruby用プログラム集	Ruby用サンプルプログラム．作成者：濱田浩気，野島良
Python用プログラム集	Python用サンプルプログラム．作成者：村上隆夫，山口高康
Java用プログラム集	Java用サンプルプログラム．作成者：山岡裕司

使用するデータセット

大会では，UCI Machine Learning Repository_[1]　の　 Online Retail Data Set_[2] (2010年から1年分の英国のオンライン小売店での購買履歴データ，約8属性，約50万レコード，以下「購買履歴データ」「トランザクションデータ(T)」とする) を利用します．

また，このデータに対応した，顧客データベースをマスターデータ(M)として利用します．
本マスターデータは，データセットと同封してあるマスターデータ生成プログラム(datagen2.py)で生成しました．
予備戦は，全データではなく，一部を抽出したもので行う予定です．

　[1] Lichman, M., "UCI Machine Learning Repository[http://archive.ics.uci.edu/ml]", University of California, Irvine, School of Information and Computer Sciences, (2013).
　[2] Chen, D., Sain, S.L. and Guo, K., "Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining", Journal of Database Marketing & Customer Strategy Management, 19(3), pp.197-208, (2012).

　共通データセットリスト

Transaction.csv	UCI-Online Retail Data Setをクレンジングしたデータ
Transaction-Customer100.csv	100人の顧客データに対応した抽出データ
Transaction-Customer400.csv	400人の顧客データに対応した抽出データ
Master.csv	マスターデータ生成プログラムで生成したデータ
Master-Customer100.csv	100人の顧客データのみ抽出
Master-Customer400.csv	400人の顧客データのみ抽出

データダウンロード

データセットに関する資料

これらのデータセットのプロパティや提出時の注意点などは，以下の資料にまとめてあります．

PWS CUP 2016のUCIデータおよびコンテストデータ（PDF）	共通データセットについて
PWS CUP 2016 マスターデータの書式 Ver. 0.2（PDF）	マスターデータの書式，プロパティ
PWS CUP 2016 トランザクションデータの書式 Ver. 0.3 （PDF）	購買履歴データの書式，プロパティ

指標に関する説明

最新のルールはこちらになります．ダウンロードしてご確認ください．

【質問】Y(subset)について，論文上の定義と異なる部分はどのような箇所ですか．

【回答】

こちら，大変申し訳ございませんでした．
複数の参加者様より，実際の結果と異なる旨の報告がありまして，実行委員内でも精査した結果，結果データが異なることが確認されました．

具体的には，ut-subset.rb における147行目の箇所になります．

    res = max(res,
              min(abs(mean(x[0, num_c])),
                 abs(mean(x.reverse[0, num_c]))))

こちらの処理において，XとX'における平均価格の最大値を求めているのですが，minではなくmaxが正しい挙動でした．
そのため，本戦では，Y1(subset)としまして，修正後のプログラムが利用されることとなりました．

この結果によって，予備戦におけるいくつかのデータにおいて，値が大きく異なる場合が確認されました．
投入されました全データに対しまして，YとY1を計測し，以下の状況を確認いたしました．

　　常に Y(subset)≦Y1(subset) であること
　　提出データの平均Y値が3671であるのに対し，Y1の平均が48737であること

そのため，本戦においてY1を使用するにあたり，しきい値の再定義を行う必要があると考え，
Y1の平均値に近いものとして，50000を設定いたしました．
準備フェイズシステムを利用しまして，データのご確認を頂けますと幸いです．

【質問】当初のルール論文には各指標が使用している属性のリストが掲載されていました．予備選についての最終版はありますか．

【回答】
現在実装中の各プログラムに対応した属性につきましては，以下の図を参照ください．

【質問】Y-subset について質問です．"大きさ10の顧客の部分集合X / subset Mと，対応するX' / subset M'を全ての組み合わせで作成"とありますが、大きさ10の顧客集合はどのように選択するのでしょうか．また，論文には"月ごと"と書いてありますが，これは正しいのでしょうか．

【回答】
まず，Y-subsetについて，初期論文と異なる箇所も含めまして，考え方を整理します．

X' を |X'| = 10 である M' の部分集合，D を T の連続する 30 日間とします．
P により X' に対応付けられる顧客集合を X で表すことにすると，
指標値は
　　　max_{X', D} |K - K'|
です．
ここで，K' および K は，それぞれ X' と D が決まったときに計算される
　　　K' = (X' の顧客の期間 D 内の購買総額) / |X'|，
　　　K = (X の顧客の期間 D 内の購買総額) / |X|
です．

これにより，M' 内の10人の組すべてについて|K-K'|を考えたときの最大値を求めています．
そのため，ランダムに10人を選択することも，たまたま|K-K'|が低い10人を選んでしまって値が低くなることもございません．
数式等，正確な評価は最新の論文にてご確認ください．

【質問】Y-subset について質問です．しきい値が予備戦期間中に変更(10000->5000)されたのはなぜでしょうか．

【回答】
当初，実行委員内で検討した結果，間口を広くする目的のため，しきい値を低く設定し，多くのデータを投入可能としていました．
しかし，単純なアルゴリズムによって，しきい値をクリアし，かつ有用性，安全性の高いデータを，ほぼ無加工で生成できることが判明しました．

行番号データPに対するかく乱攻撃は禁止するものではありませんが，安易なかく乱のみに頼った匿名化データには，個人をシングルアウトできる危険性が含まれています．
そこで，しきい値を段階的に下げ，Pの過加工に対する規制を強めました．参加者様に混乱を与えましたことをお詫び申し上げます．

また，ルール 11.(2) 「 PWS CUP 実行委員会委員として , 匿名加工者や再識別者がそれを知ることでコンテストで有利になるような情報を非公開にすること」に基づき , ut-subset のしきい値を見積もるために用いられた下記の山岡匿名化アルゴリズムを公開します．

〇アルゴリズム
　　　Input: M,T
　　　Step 1. while true
　　　Step 2. choose random permutation p such that ut-cmae2(M,T,M,T,p) = 0
　　　Step 3. if ut-subset(M,T,M,T,p) < t, then break
　　　Step 4. output (M,T,p) as (M′ ,T′ ,p)

【質問】有用性指標U1-Cmae1とU2-Cmae2について質問です．説明中でクロス集計，と記載されていますが，その詳細について説明ください．またU1とU2の違いはどこにありますか．

【回答】
有用性指標U1-Cmae1とU2-Cmae2は，MとTによってクロス集計を行うものですが，U1とU2の違いにつきましては，理解が難しいものとなっております．
まず，Cmae1とCmae2は，c2-性別(2種以下)×c3-国名(36種以下)で平均単価を算出するものです．

U1ではMとT，M'とT’に関する金額のクロス集計表を作成します． Mから性別(2種)×国名(36種)＝72種※　の属性を抜き出し，1個あたり平均金額の合計との集計表を作成します．
※出現が０のデータもありますので，実データ（M）では47種類が利用されています．
その値と1個あたり平均単価の合計を集計し，MT　→　M'T'の絶対平均誤差を求めるものです．

それに対してU2は，MとT'をPで接続することで，Pに対する過加工（山岡匿名化など）を行った場合に誤差が大きくなるように設計されています．
M → P → M' → T　とID列を接続することで， MT'の集計表を作成し，MTとの誤差を求めます．
これにより，U1とU2を比較して，U2の方が大きい場合，Pへの加工を行っていることが検出できるようになります．

【質問】U3-rfm について質問です．RFMの1000個のクラスと，RfmTC.java 215行における，mTable、rfmCountMapは何を指すのか，なぜ2倍しているのか教えてください．

【回答】
まず，RFM分析は，T，T'における全ユーザを Recency(最終購買日) Frequency(伝票数) Monetary(購買金額)によってクラス分けし，各クラスにおける人数の誤差を求めるものです．
本指標では，それぞれR/F/Mの段階を10段階とし，10×10×10の1000クラスを作成して，ユーザを当てはめています．

ソースコードにおける mTable は、マスターデータMで、セル値のリスト（＝行）のリストです。よって、mTable.size() は行数|M|です。

double maxRmse = Math.sqrt(Math.pow(mTable.size(), 2) * 2 / rfmCountMap.size());

　　　rfmCountMap はRFMの1000個の各クラスのM, Tの顧客の度数です。
　　　rfmCount2Map はRFMの1000個の各クラスのM', T'の顧客の度数です。
　　　rfmCountMap.size() も rfmCount2Map.size() も1000です。

最大値は、たとえば、
　　　・加工前の分布：クラスC1に400人、他のクラスに0人、
　　　・加工後の分布：クラスC2に400人、他のクラスに0人、
のような、全く異なる分布に加工した場合の値としています。

この場合、
　　　クラスC1の誤差＋クラスC2の誤差＝ 2 × クラスC1の誤差
となり、この右辺の係数が「なぜ2倍」の2に当たります。

ただし、実際は加工前の分布は1つのクラスに400人集中しているわけではないので、どのような加工をしても、上記の最大値になることはありません。従って、0～1に正規化していると申しましても、実際は1になることはありません。

【質問】U4-top_items について質問です．「頻出アイテム集合」とありますが，頻出の定義となる具体的なしきい値を教えてください．

【回答】
U4-top_itemsは，バスケット分析と呼ばれるような，伝票内に含まれる商品リストから，多く購入されている商品を抜き出し，その傾向を分析するものです．

それらのしきい値の設定は，ut-top_items.rb のコード45行目に以下のように記載されています．

　　　return $f400_content, $f400_sup, $f400_sum

この値は，requireされているut-apdata_v0.1.rbを参照ください．以下のように記述されています．

　　　$f400_content=[['22431'],['47590B'],['84997B'],['23198'],．．．
　　　$f400_sup = 0.02
　　　$f400_sum = 1763

この値が，元データとなるT_400（38087行）を事前に分析した結果データです．
これは，全ての伝票ID内において 2％よりも大きい出現率であった商品IDのリストを示しています．
これが出現した頻出アイテムリスト　Top(T)　になります．

これに対して，Top(T)と同様の商品IDリストが T’ に2％よりも多く含まれているかを算出し、その差を求めているのが ut-top_items.rb　になります．

ルール論文

2016年度のルール論文です．本戦向けの資料を更新しましたのでご参照ください．

1) PWSCUP: 履歴データを安全に匿名加工せよ (9/27 ver.)
菊池浩明，小栗秀暢，野島良，濱田浩気，村上隆夫，山岡裕司，山口高康，渡辺知恵美
　　※予備戦最新ルールにあわせまして，論文も改訂されました．ご確認ください．

2) PWSCUP競技ルールver1.3 (10/4 ver.)
本戦用のルールが公開されました．ご確認をお願いします．

PWSCUP 2015 関連資料

以下は PWSCUP 2015 関連論文，資料になります．

1) 匿名加工・再識別コンテストIce & Fireの設計
菊池浩明 , 山口高康 , 濱田浩気 , 山岡裕司 , 小栗秀暢 , 佐久間淳
コンピュータセキュリティシンポジウム2015論文集,2015(3),363-370 (2015-10-14).

2) PWS CUP 匿名加工・再識別コンテスト"Ice and Fire" 競技ルール

3) 匿名加工・再識別コンテスト PWSCUP2015の報告と匿名加工方法の評価
菊池浩明 , 山口高康 , 濱田浩気 , 山岡裕司 , 小栗秀暢 , 佐久間淳
暗号と情報セキュリティシンポジウム2016論文集

4) Ice and Fire: Quantifying the Risk of Re-identification and Utility in Data Anonymization
Hiroaki Kikuchi, Takayasu Yamaguchi, Koki Hamada, Yuji Yamaoka, Hidenobu Oguri, Jun Sakuma
The 30th IEEE International Conference on Advanced Information Networking and Applications(AINA 2016),Crans-Montana.Switzerland, (2016-5).

5) 匿名加工・再識別コンテストを通じた情報流通プラットフォームの検討
小栗秀暢 , 黒政敦史 , 松井くにお
研究報告コンピュータセキュリティ（CSEC）,(2016-03).

[ PWS MEETUP発表資料 (2016/3/2) ]
1) 匿名加工再識別コンテスト2015振り返り
山岡　裕司（富士通研究所）

2) 全部門第一位チーム「ψ沈黙のジャスティスψ」が解説する最強の匿名加工技術
濱田浩気(NTTセキュアプラットフォーム研究所)

3) 2016年度コンテストの計画について
菊池浩明（明治大）

PWS2016実行委員会

委員長

菊池浩明 (明治大学)

副委員長

千田浩司 (NTT)

委員

荒井ひろみ (東京大学)、伊藤伸介（中央大学）、小栗秀暢 (ニフティ)、佐久間淳 (筑波大学)、島岡政基 (セコム)、須川賢洋 (新潟大学)、寺田雅之 (NTTドコモ)、野島良 (NICT)、濱田浩気 (NTT)、古川諒 (NEC)、南和宏 (統計数理研究所)、村上隆夫 (産業技術総合研究所)、山岡裕司 (富士通研)、山口高康 (NTTドコモ)、吉浦裕 (電気通信大学)、渡辺知恵美（筑波大学）

後援

個人情報保護委員会

PWSCUP2016

PWS 実行委員会からのお知らせ

PWS Meetupイベント開催(2017/02/09)

最終ランキング公開(2016/10/17)

再識別フェイズ開始・本戦ルール公開(2016/09/27)

予備戦ルール・日程変更(2016/09/09)

第5回 PWS勉強会のご案内【9月29日(木)17時～ 】

PWS CUP 2016 予備戦サイト公開 (2016/08/24)

概要

スケジュール

参加チーム一覧

最終ランキング(2016/10/11)

予備戦ランキング(2016/10/04)

本戦ランキング(2016/10/11)

コンテストルール概要

評価指標・サンプルプログラム

使用するデータセット

共通データセットリスト

データセットに関する資料

指標に関する説明

ルール論文

PWSCUP 2015 関連資料

PWS2016実行委員会

委員長

副委員長

委員

後援

第5回 PWS勉強会のご案内【9月29日(木)17時～】

　共通データセットリスト