予備戦順位 | 本戦順位*9 | 合計 | 総合順位 | |
---|---|---|---|---|
君の名は~ユアネーム~ | 1 | 9 | 10 | 1 |
beard_bros | 6 | 18 | 24 | 2 |
イワシ326kg | 5 | 27 | 32 | 3 |
さきがけ | 4 | 36 | 40 | 4 |
ステテコ西垣 | 2 | 45 | 47 | 5 |
M-OND-A | 9 | 54 | 63 | 6 |
鋼鉄の錬金術師 | 3 | 63 | 66 | 7 |
脱ぼっち | 7 | 72 | 79 | 8 |
あのーに | 10 | 81 | 91 | 9 |
tsukuba-kde | 14 | 90 | 104 | 10 |
No. | チーム名 | 4号について | 5号について | 基準全体について |
---|---|---|---|---|
1 | まめしば | (a1)一意に個人を特定可能なレコードを削除する (b1)1人しか購入していない「商品ID・単価の組」「日付」を含むレコードを削除 (a2)個人特定に繋がりうる特異な特徴の削除 (b2)各顧客の各商品の「数量」の合計が72でトップコーディングされるよう、各レコードの購入数を調整する | (a)その他、個人特定に繋がりうる特徴の削除。 例えば各顧客の「いつ、何を、何個購入したか」という購入履歴集合から個人が特定されないようにする。 (b)特に措置しなかった。有用性指標E1,E2が著しく下がるため。 | なし |
2 | 君の名は~ユアネーム~ | 社会通念上,特異な記述であるデータを削除または変更すべきであると解釈した.本コンテストでは,マスターデータ内の属性「年齢」内に特異な記述が存在し得ると判断したが,マスターデータは提出ファイルに含まれていなかったため,特に措置は行わなかった. | 匿 名化対象のデータベース内のデータにおいて,他のデータと異なる性質を持つデータ(外れ値)を削除または変更すべきであると解釈した.本コンテストでは, トランザクションデータ内の属性「購入頻度」内に外れ値が存在し得ると判断し,各購入頻度に対して値の変更の措置を行った. | |
3 | あのーに | 一般的なあらゆる場面において特異であると社会通念上認められる記述を削除することが対象であると理解していますが、対象のデータセットに一人しか該当しない記述については削除または加工が必要ではないかと考えています。 | 1号~4号に対する措置を行っても組合せやそれ自体によって、個人を識別、特定できてしまう属性や履歴について削除または加工が必要と考えます。 今回のコンテストでは属性情報については予め匿名加工されているため、履歴情報のうち年月日、時分、製品ID(上位2桁)、単価、数量についてk=2のk匿名性を持つように措置する方針です。 | 基準が曖昧で不明確なところがあると感じています。今後の認定個人情報保護団体の指針や事務局レポート等によるさらなる明確化や実例の公表を期待しています。 |
4 | 脱ぼっち | 個人情報保護法ガイドライン(匿名加工情報編)の 3-2-4 によると、規制19号条第4号の対象は「一般的なあらゆる場面において特異であると社会通念上認められる記述」とされている。 今回のトランザクションデータにおいて、上記の定義に当てはまる特異な記述は存在しないと判断した。よって、特別な措置は実施していない。 | 個
人情報保護法ガイドライン(匿名加工情報編)の 3-2-5
によると、「加工対象となる個人情報に含まれる記述等と当該個人情報を含む個人情報データベース等を構成する他の個人情報に含まれる記述等とで著しい差異
がある場合」は、必要に応じて適切な措置を講じなければならないとされている。特に購買履歴については「蓄積されたこと等によって特定の個人の識別又は元
の個人情報の復元につながるおそれがある部分については、適切な加工を行わなけ ればならない」とされている。 今回のコンテストでは、まさにこの「元の個人情報の復元につながる恐れのある部分」をどう加工するかがポイントになっている。トランザクションデータの事 前分析の結果より、例えば「商品単価」という1項目のみに着目して1年分の蓄積データを解析しただけでもかなりの確度で元顧客の再識別が可能であることが 判明した。このため、トランザクションデータの各項目についてスワッピングやトップ/ボトムコーディング等の加工を行い、元顧客の再識別が困難になるよう な措置を施した。 なお実際に行った措置の詳細については、コンテスト当日のプレゼンテーションにおいて説明する予定である。 | |
7 | さきがけ | 措置しなくても今回のルールに於いては影響がないと判断した | 措置しなくても今回のルールに於いては影響がないと判断した | null |
8 | 鋼鉄の錬金術師 | (a) 解釈 記述の特異性が原因となって、 ① データの主体がデータ全体を見たときに、プライバシー漏洩の不安を感じないようにすること ② 再識別攻撃者がデータ全体を見たときに、データの主体を再識別できないようにすること と解釈した。 (b) 措置 特異性のある記述は削除せず、データの全ての属性値を加工することで、 ① データ主体が自身のレコードを識別できないようにした ② 一般的な知識・技術を持つ再識別攻撃者 (例えば、十分量の匿名加工前データと、匿名加工の知識を持つ攻撃者を除く) による再識別が成功しないようにした 加工の内容は、本戦のプレゼンで紹介する。 | (a) 解釈 ① 匿名加工前データや、② 匿名加工前データ以外のデータ を参照し、得られた情報を利用した再識別攻撃が成功しないようにすること、と解釈した。 (b) 措置 ① については、匿名加工時に、匿名加工前のデータを利用した再識別攻撃を想定・実装し、その再識別攻撃が成功しないような匿名加工を実施することで対応した。 ② については、今回のコンテストで扱うデータは人工的な擬似データであるため、他のデータを利用する再識別攻撃は考慮する必要はないと判断した。 | |
9 | ステテコ西垣 | 各月で,顧客IDをキーとしてグループ化した後, 4号に対する解釈と措置について: ・レコード数が,全グループのレコード数の平均と比較して,極端に多いグループ ・全グループの中で,1回しか購入されていない商品を購入しているグループ を相当すると判断しました. 今回は,有用性指標とのバランスを考慮したうえで, スワッピングとDELETEを用いて措置をしました. | 5号に対する解釈と措置について: ・レコード数が,同じ月のグループのレコード数の平均と比較して,極端に多いグループ ・同じ月のグループの中で,1回購入されていない商品を購入しているグループ を相当すると判断しました. 今回は,有用性指標とのバランスを考慮したうえで, スワッピングとDELETEを用いて措置をしました. | |
10 | Degrade Nine | すでに、マスタ側に十分以上の匿名加工が施されていると判断し、IDの仮名化を行うにとどめた。 (長期の履歴保持や、ユニークな商品の購入は、それだけを見れば特異な記述であるが、それを元に辿れるものは十分に匿名加工されたマスタデータであるから、措置を行わなかった) | ネッ トショップの購買履歴データは、履歴データとして持ち出される他の例(電車の乗降履歴データ、実店舗の購買データ)より第三者からの特定のリスクが低く、 また実際に特定された際のリスクを考慮した上での措置(例えば、特定された際にリスクが大きくなる商品の購買履歴のみ削除等)もコンテストのルール上禁止 されているものが多かったため、結果として特別な措置を行なっていない。 | 個人特定のリスクを恐すぎるあまり、利活用が到底できないような匿名加工の基準が広まってしまえば、誰も匿名加工情報を使わなくなってしまう。匿名加工情報に関して、啓蒙活動を経営者や市民に積極的に行っていただきたい。 |
11 | tsukuba-kde | 得意な記述を「人物が一意に特定されるような属性」とし、 1 購入したアイテム数, 金額, トランザクション数が突出して多い人物のレコード 2 一人の人にしか買われていない商品 のレコードを削除するか別の商品を買ったことにするように変更しました。 | どのように解釈するべきかわからず、また該当する情報も思い当たらないため 特段対処はしませんでした。 | |
12 | M-OND-A | 4号に該当する記述などは存在しないと解釈し,特別な措置は講じていない. | 5 号の内容は,特異性を持った顧客に対する匿名加工と解釈した.その措置として,元データと同じ顧客IDが匿名加工データに含まれないように仮名を付与し た.また,トランザクションデータを顧客IDによって集計し,ユニークな購入月パターンや突出したレコード数などが存在した場合,その顧客を得意性を持っ た顧客として判断し,特異性が消えるようレコードの行消去や,月を跨いだ別の仮名付与(分割)といった措置を講じた. | |
13 | イワシ326kg | 今回の対象データにおいて4号特異に該当するものは存在しない。 なぜならStockCodeから社会通念上の特異性は判断できないため。 | 5号差異について、レコード数が他の顧客と比較して多い顧客が存在した。本来ならばレコードを削除し他の顧客と区別できないようにすべきだが、コンテストのルール上、有用性と安全性を比較し措置をしなかった。 仮IDの付け替えは、全ての顧客に対して1ヶ月毎に違うものに付け替えた。 |
コンテストエントリー期間 | 2017年7月24日 ~ 8月21日 |
---|---|
予備戦(匿名加工データ提出) | 2017年9月11日 ~ 10月6日 13:00 |
予備戦(再識別データ提出) | 2017年10月6日 ~ 10月16日 13:00 |
前夜祭@山形長屋酒場 | 2017年10月22日19:00 ~ |
本戦:PWS 2017@山形国際ホテル | 2017年10月23日 09:30~(予定) 【会場B】平成の間(西) |
最終プレゼン&評価結果発表 | 2017年10月24日 10:35~ 【会場F】スプレンダー |
No | チーム名 | 所属 | 責任者 | メッセージ |
---|---|---|---|---|
1 | 鋼鉄の錬金術師 | 新日鉄住金ソリューションズ | 波多野 卓磨 | 2017年も錬金します |
2 | 脱ぼっち | Kii株式会社・早稲田大学 | 井口誠 | ぼっち卒業できました! |
3 | まめしば | [匿名] | - | よろしくお願いします! |
4 | 虚災対 | [匿名] | - | 現実 対 虚構 |
5 | M-OND-A | 東京大学 | 中川裕志 | 初参加ですが頑張ります. |
6 | Francanada | Universite du Quebec a Montreal | Sebastien Gambs | - |
7 | Madison | [匿名] | - | nil |
8 | さきがけ | [匿名] | - | - |
9 | beard_bros | [匿名] | - | blank |
10 | あのーに | NECソリューションイノベータ株式会社 | 平松直人 | 再識別については自信はありませんが、、、 |
11 | イワシ326kg | [匿名] | - | 生姜煮がおすすめ! |
12 | ステテコ西垣 | 静岡大学・明治大学 | 西垣正勝 | 頑張ります! |
13 | NSA | 無所属 | 西郷堅人 | 初参加なのでお手柔らかにお願いします! |
14 | Degrade Nine | [匿名] | - | YAなんかに絶対に負けない!! |
15 | tsukuba-kde | 筑波大学 | 渡辺知恵美 | 頑張ります! |
16 | userlocal | [匿名] | - | 頑張ります |
17 | 君の名は~ユアネーム~ | [匿名] | - | なんだ、これ?うわっ?なっ!これって!!もしかして、俺たちはデータの中で入れ替わってる? |
18 | MDLer | 筑波大学 | 陸 文杰 | Rolling in the deep. |
通称 | 区分 | 書式概要 | |
---|---|---|---|
顧客ID | 識別子 | 50byte以下の任意の英数文字列 | |
性別 | 属性 | 「f」か「m」 | |
年代 | 属性 | 1930/1/1 ~ 1980/1/1 | |
国 | 属性 | United Kingdom,France,Germany,Others |
通称 | 区分 | 書式概要 | |
---|---|---|---|
顧客ID | 識別子 | 任意の英数文字列 | |
伝票ID | 識別子 | 消去済み | |
購入日時 | 日付 | 2010,2011年のYYYY/MM/DD形式 | |
購入時間 | 時間 | hh:mm 形式 | |
商品ID | 属性 | 9文字以下の任意の大文字英数文字列 | |
単価 | 数値 | 整数部5桁以下、小数部2桁以下の正小数 | |
購入数 | 数値 | 6桁以下の自然数 |
識別子 | 2010/12 | 2011/1 | 2011/2 | 2011/3 | 2011/4 | 2011/5 | 2011/6 | 2011/7 | 2011/8 | 2011/9 | 2011/10 | 2011/11 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
12431 | ABCDE | DEL | DEL | DEL | DEL | ABCDE | CDEFG | CDEFG | CDEFG | CDEFG | CDEFG | CDEFG |
15100 | VWXYZ | VWXYZ | VWXYZ | DEL | XYZAB | DEL | DEL | DEL | DEL | VWXYZ | VWXYZ | DEL |
16211 | DEL | HIJKL | DEL | DEL | DEL | HIJKL | DEL | DEL | DEL | DEL | DEL | DEL |
Role | Name | Creater | Text |
---|---|---|---|
UTILITY | E1-ItemCF-s | 村上 隆夫,門田 将徳 Takao Murakami, Masanori Monda | T, A(T)からそれぞれitem×item行列の類似度行列を作成し,それらの距離を計測する.Supplierに提供することを想定し,大量購入の履歴のみから作られたitem×item行列同士での比較を行う. create similarity matrix(W, W’) and calcurate distance between W and W’ (for supplier) |
UTILITY | E2-ItemCF-r | 村上 隆夫,門田 将徳 Takao Murakami, Masanori Monda | T, A(T)からそれぞれitem×item行列の類似度行列を作成し,それらの距離を計測する.Retailerに提供することを想定し,少量購入の履歴のみから作られたitem×item行列同士での比較を行う. create similarity matrix(W, W’) and calcurate distance between W and W’ (for retailer) |
UTILITY | E3-topk | 村上 隆夫,門田 将徳 Takao Murakami, Masanori Monda | 匿名加工前後での,購入顧客数が上位kとなるアイテムリストを作成,差集合の計算(指標1).さらに,Tから選出された上位k個のアイテムについて,ItemCFによる類似度行列を計算,その距離を算出(指標2). create create top-k items list, and calcurate distance between W, W’(only configured from top-k items) |
UTILITY | E4-diff-date | 野島 良 Ryo Nojima | T, A(T)から購入日の差の平均を算出する. Let T[i] and A(T)[i] be the i th records in T and A(T), respectively. Also, let T[i][j] and A(T)[i][j] be j th attributes of T[i] and A(T)[i], respectively. Then this algorithm computes the average of T[i][2] - A(T)[i][2]), i.e., the average of the number of days difference. |
UTILITY | E5-diff-price | 野島 良 Ryo Nojima | T, A(T)から単価の違い(比率)の平均を算出する. Let T[i] and A(T)[i] be the i th records in T and A(T), respectively. Also, let T[i][j] and A(T)[i][j] be the j th attributes of T[i] and A(T)[i], respectively. Then this algorithm computes the average of min(T[i][5], A(T)[i][5])/max(T[i][5], A(T)[i][5]) in i, where the 5th attribute is the price. |
UTILITY | E6-nrow | 小栗 秀暢 Hidenobu Oguri | A(T)で消去された行数をTの行数で割った数値を出力する. count deleted rows in A(T) and divide by |T| |
RE-IDENTIFY | S1-datenum | 野島 良 Ryo Nojima | 匿名加工前後で,購入日と数量の組み合わせが等しいレコード同士を同じ顧客とみなす. If the 2nd (date) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
RE-IDENTIFY | S2-itemprice | 野島 良 Ryo Nojima | 匿名加工前後で,商品IDと単価の組み合わせが等しいレコード同士を同じ顧客とみなす. If the 4th (gift) and the 5th (price) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
RE-IDENTIFY | S3-itemnum | 野島 良 Ryo Nojima | 匿名加工前後で,商品IDと数量の組み合わせが等しいレコード同士を同じ顧客とみなす. If the 4th (gift) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
RE-IDENTIFY | S4-itemdate | 野島 良 Ryo Nojima | 匿名加工前後で,購入日と商品IDの組み合わせが等しいレコード同士を同じ顧客とみなす. If the 2nd (date) and the 4th (gift id) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
RE-IDENTIFY | S5-item2pricenum | 濱田 浩気 Koki Hamada | 匿名加工前後で,商品ID2桁,価格と個数の組み合わせが等しいレコード同士を同じ顧客とみなす. If the 4th (gift id), the 5th (price) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
RE-IDENTIFY | S6-item2datenum | 濱田 浩気 Koki Hamada | 匿名加工前後で,商品ID2桁,購入日と価格の組み合わせが等しいレコード同士を同じ顧客とみなす. If the 4th (gift id), the 2nd (date) and the 5th (price) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j |
実行委員長 | 菊池 浩明 (明治大学) |
---|---|
副委員長 | 千田 浩司 (NTT) |
PWS CUP 担当委員 ※50音順 | 小栗 秀暢 (富士通クラウドテクノロジーズ) 中川 裕志 (東京大学/理化学研究所AIP) 野島 良 (NICT) 波多野 卓磨 (新日鉄住金ソリューションズ) 濱田 浩気 (NTT) 村上 隆夫 (産業技術総合研究所) 山岡 裕司 (富士通研) 山口 高康 (NTTドコモ) 山田 明 (KDDI総合研究所) 渡辺 知恵美 (筑波大学) |
企画セッション 担当委員 ※50音順 | 荒井 ひろみ (NICT) 伊藤 伸介 (中央大学) 佐久間 淳 (筑波大学) 島岡 政基 (セコム) 須川 賢洋 (新潟大学) 竹之内 隆夫 (NEC) 寺田 雅之 (NTTドコモ) 美馬 正司 (日立コンサルティング) 吉浦 裕 (電気通信大学) |
後援 | 個人情報保護委員会 一般財団法人 日本情報経済社会推進協会(JIPDEC) |
システム提供 | 富士通クラウドテクノロジーズ |
システムサポート | 橘 陽 (富士通クラウドテクノロジーズ) 門田 将徳 (東京大学 大学院 中川研究室) |
システム基盤 | ![]() |