PWSCUP 2017 本戦報告


PWSCUP 2017 会場の様子


2017年10月23日,台風の影響によって会場に来られないチームがありましたが,
山形国際ホテルにて本戦が開始され,総合ランキング,および,再識別賞が決定しました.

また,翌10月24日には,上位10チームによる最終プレゼンテーションを行い,
会場参加者の投票によって,匿名加工基準賞が決定しました.




成績上位ランキング

本戦,予備戦の結果を交えた,最終ランキングです.
受賞チームには,CSS2017 会場にて賞状と副賞が与えられました.
受賞者のみなさま,おめでとうございます!

予備戦順位本戦順位*9合計総合順位
君の名は~ユアネーム~19101
beard_bros618242
イワシ326kg527323
さきがけ436404
ステテコ西垣245475
M-OND-A954636
鋼鉄の錬金術師363667
脱ぼっち772798
あのーに1081919
tsukuba-kde149010410


総合1位:君の名は~ユアネーム~
メンバー:濱田 浩気,正木 彰伍,岡田 莉奈
所属:NTTセキュアプラットフォーム研究所



総合2位:beard_bros
メンバー:Kang-Cheng Chen,Kuang-Wei Lin,Ching-Tang Chang,Chia-Mu Yu
所属:National Chung Hsing University(國立中興大學:台湾),Yuan Ze University(元智大學:台湾)


総合3位:イワシ326kg
メンバー:匿名希望

再識別賞:さきがけ
メンバー:北島 祥伍,福嶋 雄也
所属:金沢大学



匿名加工基準賞:M-OND-A
メンバー:門田将徳,中川裕志
所属:東京大学

個人情報保護委員会 規則19条への対応


最終プレゼンテーションに際し,事前に記載いただいていた,
個人情報保護委員会規則 19条に関するアンケート結果を公開いたします.

No.チーム名4号について5号について基準全体について
1まめしば(a1)一意に個人を特定可能なレコードを削除する
(b1)1人しか購入していない「商品ID・単価の組」「日付」を含むレコードを削除

(a2)個人特定に繋がりうる特異な特徴の削除
(b2)各顧客の各商品の「数量」の合計が72でトップコーディングされるよう、各レコードの購入数を調整する
(a)その他、個人特定に繋がりうる特徴の削除。
例えば各顧客の「いつ、何を、何個購入したか」という購入履歴集合から個人が特定されないようにする。
(b)特に措置しなかった。有用性指標E1,E2が著しく下がるため。
なし
2君の名は~ユアネーム~社会通念上,特異な記述であるデータを削除または変更すべきであると解釈した.本コンテストでは,マスターデータ内の属性「年齢」内に特異な記述が存在し得ると判断したが,マスターデータは提出ファイルに含まれていなかったため,特に措置は行わなかった.匿 名化対象のデータベース内のデータにおいて,他のデータと異なる性質を持つデータ(外れ値)を削除または変更すべきであると解釈した.本コンテストでは, トランザクションデータ内の属性「購入頻度」内に外れ値が存在し得ると判断し,各購入頻度に対して値の変更の措置を行った. 
3あのーに一般的なあらゆる場面において特異であると社会通念上認められる記述を削除することが対象であると理解していますが、対象のデータセットに一人しか該当しない記述については削除または加工が必要ではないかと考えています。1号~4号に対する措置を行っても組合せやそれ自体によって、個人を識別、特定できてしまう属性や履歴について削除または加工が必要と考えます。
今回のコンテストでは属性情報については予め匿名加工されているため、履歴情報のうち年月日、時分、製品ID(上位2桁)、単価、数量についてk=2のk匿名性を持つように措置する方針です。
基準が曖昧で不明確なところがあると感じています。今後の認定個人情報保護団体の指針や事務局レポート等によるさらなる明確化や実例の公表を期待しています。
4脱ぼっち個人情報保護法ガイドライン(匿名加工情報編)の 3-2-4 によると、規制19号条第4号の対象は「一般的なあらゆる場面において特異であると社会通念上認められる記述」とされている。

今回のトランザクションデータにおいて、上記の定義に当てはまる特異な記述は存在しないと判断した。よって、特別な措置は実施していない。
個 人情報保護法ガイドライン(匿名加工情報編)の 3-2-5 によると、「加工対象となる個人情報に含まれる記述等と当該個人情報を含む個人情報データベース等を構成する他の個人情報に含まれる記述等とで著しい差異 がある場合」は、必要に応じて適切な措置を講じなければならないとされている。特に購買履歴については「蓄積されたこと等によって特定の個人の識別又は元 の個人情報の復元につながるおそれがある部分については、適切な加工を行わなけ ればならない」とされている。

今回のコンテストでは、まさにこの「元の個人情報の復元につながる恐れのある部分」をどう加工するかがポイントになっている。トランザクションデータの事 前分析の結果より、例えば「商品単価」という1項目のみに着目して1年分の蓄積データを解析しただけでもかなりの確度で元顧客の再識別が可能であることが 判明した。このため、トランザクションデータの各項目についてスワッピングやトップ/ボトムコーディング等の加工を行い、元顧客の再識別が困難になるよう な措置を施した。

なお実際に行った措置の詳細については、コンテスト当日のプレゼンテーションにおいて説明する予定である。
 
7さきがけ措置しなくても今回のルールに於いては影響がないと判断した措置しなくても今回のルールに於いては影響がないと判断したnull
8鋼鉄の錬金術師(a) 解釈
記述の特異性が原因となって、
 ① データの主体がデータ全体を見たときに、プライバシー漏洩の不安を感じないようにすること
 ② 再識別攻撃者がデータ全体を見たときに、データの主体を再識別できないようにすること
と解釈した。

(b) 措置
特異性のある記述は削除せず、データの全ての属性値を加工することで、
 ① データ主体が自身のレコードを識別できないようにした
 ② 一般的な知識・技術を持つ再識別攻撃者 (例えば、十分量の匿名加工前データと、匿名加工の知識を持つ攻撃者を除く) による再識別が成功しないようにした
加工の内容は、本戦のプレゼンで紹介する。
(a) 解釈
① 匿名加工前データや、② 匿名加工前データ以外のデータ を参照し、得られた情報を利用した再識別攻撃が成功しないようにすること、と解釈した。
(b) 措置
① については、匿名加工時に、匿名加工前のデータを利用した再識別攻撃を想定・実装し、その再識別攻撃が成功しないような匿名加工を実施することで対応した。
② については、今回のコンテストで扱うデータは人工的な擬似データであるため、他のデータを利用する再識別攻撃は考慮する必要はないと判断した。
 
9ステテコ西垣各月で,顧客IDをキーとしてグループ化した後,
4号に対する解釈と措置について:
・レコード数が,全グループのレコード数の平均と比較して,極端に多いグループ
・全グループの中で,1回しか購入されていない商品を購入しているグループ
を相当すると判断しました.
今回は,有用性指標とのバランスを考慮したうえで,
スワッピングとDELETEを用いて措置をしました.
5号に対する解釈と措置について:
・レコード数が,同じ月のグループのレコード数の平均と比較して,極端に多いグループ
・同じ月のグループの中で,1回購入されていない商品を購入しているグループ
を相当すると判断しました.

今回は,有用性指標とのバランスを考慮したうえで,
スワッピングとDELETEを用いて措置をしました.
 
10Degrade Nineすでに、マスタ側に十分以上の匿名加工が施されていると判断し、IDの仮名化を行うにとどめた。
(長期の履歴保持や、ユニークな商品の購入は、それだけを見れば特異な記述であるが、それを元に辿れるものは十分に匿名加工されたマスタデータであるから、措置を行わなかった)
ネッ トショップの購買履歴データは、履歴データとして持ち出される他の例(電車の乗降履歴データ、実店舗の購買データ)より第三者からの特定のリスクが低く、 また実際に特定された際のリスクを考慮した上での措置(例えば、特定された際にリスクが大きくなる商品の購買履歴のみ削除等)もコンテストのルール上禁止 されているものが多かったため、結果として特別な措置を行なっていない。個人特定のリスクを恐すぎるあまり、利活用が到底できないような匿名加工の基準が広まってしまえば、誰も匿名加工情報を使わなくなってしまう。匿名加工情報に関して、啓蒙活動を経営者や市民に積極的に行っていただきたい。
11tsukuba-kde得意な記述を「人物が一意に特定されるような属性」とし、
1 購入したアイテム数, 金額, トランザクション数が突出して多い人物のレコード
2 一人の人にしか買われていない商品
のレコードを削除するか別の商品を買ったことにするように変更しました。
どのように解釈するべきかわからず、また該当する情報も思い当たらないため
特段対処はしませんでした。
 
12M-OND-A4号に該当する記述などは存在しないと解釈し,特別な措置は講じていない.
5 号の内容は,特異性を持った顧客に対する匿名加工と解釈した.その措置として,元データと同じ顧客IDが匿名加工データに含まれないように仮名を付与し た.また,トランザクションデータを顧客IDによって集計し,ユニークな購入月パターンや突出したレコード数などが存在した場合,その顧客を得意性を持っ た顧客として判断し,特異性が消えるようレコードの行消去や,月を跨いだ別の仮名付与(分割)といった措置を講じた. 
13イワシ326kg今回の対象データにおいて4号特異に該当するものは存在しない。 なぜならStockCodeから社会通念上の特異性は判断できないため。5号差異について、レコード数が他の顧客と比較して多い顧客が存在した。本来ならばレコードを削除し他の顧客と区別できないようにすべきだが、コンテストのルール上、有用性と安全性を比較し措置をしなかった。
仮IDの付け替えは、全ての顧客に対して1ヶ月毎に違うものに付け替えた。





Updated:2017-11-09 10:31:09(210)









コンテストスケジュール



コンテストエントリー期間2017年7月24日 ~ 8月21日
予備戦(匿名加工データ提出)2017年9月11日 ~ 10月6日 13:00
予備戦(再識別データ提出)2017年10月6日 ~ 10月16日 13:00
前夜祭@山形長屋酒場 2017年10月22日19:00 ~
本戦:PWS 2017@山形国際ホテル2017年10月23日 09:30~(予定)
【会場B】平成の間(西)
最終プレゼン&評価結果発表2017年10月24日 10:35~
【会場F】スプレンダー
2017年10月24日 PWSCUP 2017の全日程を終了いたしました.
参加チームのみなさまには,最後まで盛り上げていただきましてありがとうございます.

厳正なる審査の結果,以下のように各賞が決定いたしました.

  総合1位: 君の名は~ユアネーム~
    2位: beard_bros
    3位: イワシ326kg

  再識別賞: さきがけ

  匿名加工基準賞: M-OND-A

入賞者には,CSS 授賞式にて賞状,副賞が授与されました.
受賞チームのみなさま,おめでとうございます!
詳細は後日にサイト等に掲載します.




Updated:2017-10-27 21:14:06(104)









コンテスト参加チームリスト


Noチーム名所属責任者メッセージ
1鋼鉄の錬金術師新日鉄住金ソリューションズ波多野 卓磨2017年も錬金します
2脱ぼっちKii株式会社・早稲田大学井口誠ぼっち卒業できました!
3まめしば[匿名]-よろしくお願いします!
4虚災対[匿名]-現実 対 虚構
5M-OND-A東京大学中川裕志初参加ですが頑張ります.
6FrancanadaUniversite du Quebec a MontrealSebastien Gambs-
7Madison[匿名]-nil
8さきがけ[匿名]--
9beard_bros[匿名]-blank
10あのーにNECソリューションイノベータ株式会社平松直人再識別については自信はありませんが、、、
11イワシ326kg[匿名]-生姜煮がおすすめ!
12ステテコ西垣静岡大学・明治大学西垣正勝頑張ります!
13NSA無所属西郷堅人初参加なのでお手柔らかにお願いします!
14Degrade Nine[匿名]-YAなんかに絶対に負けない!!
15tsukuba-kde筑波大学渡辺知恵美頑張ります!
16userlocal[匿名]-頑張ります
17君の名は~ユアネーム~[匿名]-なんだ、これ?うわっ?なっ!これって!!もしかして、俺たちはデータの中で入れ替わってる?
18MDLer筑波大学陸 文杰Rolling in the deep.

Updated:2017-10-16 16:27:19(204)








コンテスト概要



今年度のコンテストは,長期間のトランザクションデータに対して,顧客の識別子の制御を行いながら匿名加工する課題に挑戦していただきます.






図1:システム概要

1) まず,ルール論文,ルールブック,データサンプル,参考資料などをダウンロードします.
  特にルール論文は一度通読することを推奨します.
  ■ PWSCUP 2017 ルール論文  ■ PWSCUP 2017 競技ルール  ■ 競技データ&プログラム

2) [匿名加工フェイズ] 加工制限に従って T を匿名加工し, A(T) を作成して提出します.

3) システムでは, A(T) の有用性と安全性を計測し,データベースに記録します.
  その際に A(T) をかく乱した S と,仮名表 F をシステムが生成します.

4) [再識別フェイズ] システムがかく乱した S をコンテスト参加者に配布します.

5) S を調査して,識別子と仮名の対応を推定した F^ を作成して提出します.

6) システム内で FF^ を比較し,その一致率をデータベースに記録します.
  安全性と有用性の総合値で順位が決定されます.

Updated:2017-09-11 17:42:14(203)








関連資料



>> PWS CUP 2017 Final Data [Link]

PWS CUP 実行委員会, 'PWS CUP 2017 本戦用再識別データ', 全ての公開可能データを付与しました(2017/11/02), (2017).

>> PWS CUP 2017 再識別フェイズ用データ [Link]

PWS CUP 実行委員会, 'PWS CUP 2017 予備戦:全チームの匿名化フェイズ提出ファイル', 再識別フェイズ用に公開(2017/10/06), (2017).

>> 競技データ,サンプルアプリケーション [Link]

PWS CUP 実行委員会, 'PWS CUP 2017 競技データ,サンプルアプリケーション', Ver 1.5 (2017/10/16 本戦用M,T,T100の公開, (2017).

>> PWSCUP 2017 競技ルール [Link]

PWS CUP 実行委員会, 'PWS CUP 2017 匿名加工・再識別コンテスト 競技ルール', Ver 1.3 (2017/10/17 本戦ルールの詳細記載), (2017).

>> PWSCUP 2017 ルール論文 [Link]

菊 池 浩明, 小栗 秀暢, 中川 裕志, 野島 良, 波多野 卓磨, 濱田 浩気, 村上 隆夫, 門田 将徳, 山岡 裕司, 山田 明, 渡辺 知恵美, 'PWSCUP2017: 長期間の履歴データの再識別リスクを競う', コンピュータセキュリティシンポジウム 2017 (ドラフト), (2017).

>> PWSCUP 2017 のコンテスト参加要綱 [Link]

PWSCUP 2017 実行委員会, 'PWS CUP匿名加工・再識別コンテスト 参加申込書', PWSCUP 2017 公式HPより, (2017).


>> PWS CUP 2017 Rules [Link]

PWSCUP 2017 Executive Committee, 'PWS CUP 2017 Rules', Ver 1.3 (2017/10/17 Add the Final match rules), (2017).

>> PWSCUP 2017 : Registration Sheet [Link]

PWSCUP 2017 Executive Committee, 'PWS CUP Registration Sheet', PWSCUP 2017 official web, (2017).

>> Report of PWSCUP 2016 contest. [Link]

Kikuchi, H., 'Data anonymization competition PWSCUP 2016', Cybersecurity France-Japan 2017 (Scientific collaborations between France and Japan), (2017).

>> Summary of winner's strategy on PWSCUP 2016. [Link]

Nakagawa, H., 'Anonymizationand Re-identification for Personal Transaction Data', Cybersecurity France-Japan 2017 (Scientific collaborations between France and Japan), (2017).

>> Rule paper (PWS Cup 2016) [Link]

Kikuchi, H., Yamaguchi, T., Hamada, K., Yamaoka, Y., Oguri, H. and Sakuma, J., 'Ice and Fire: Quantifying the Risk of Re-identification and Utility in Data Anonymization', The 30th IEEE International Conference on Advanced Information Networking and Applications(AINA 2016), (2016).


>> トランザクションデータの書式 [Link]

PWS CUP 実行委員会, 'PWS CUP 2016 トランザクションデータの書式 Ver. 0.3 (PDF)', PWSCUP 2016競技ルール説明用, (2016).

>> PWSCUP 2016 優勝チームによる技術解説 [Link]

中川 裕志, 出町 彰啓, 中川 拓麻, 'パーソナル履歴データに対する 匿名化と再識別 PWSCUP 参加者からの報告', SCIS2017 暗号と情報セキュリティシンポジウム 発表資料より, (2017).

>> PWS Meetup (2017/02/09) における振り返り資料 [Link]

PWS 2016 実行委員会, 'PWSCUP 2016 振り返り', PWS特別イベント(PWS MeetUp)発表資料より, (2017).

>> PWSCUP 2015に関する報告論文(論文誌掲載) [Link]

菊池 浩明, '匿名加工・再識別コンテストIce and Fire:匿名加工方式とその安全性を評価する試み', 情報処理学会論文誌, 57(9), pp.1900-1910, (2016).

>> PWSCUP 2016 説明資料や共通データの掲載ページ [Link]

PWSCUP2016 実行委員会, 'PWSCUP コンテスト運営資料一式', PWSCUP 公式HP掲載資料, (2016).

>> PWSCUP 2016 ルール論文 [Link]

菊 池 浩明, 小栗 秀暢, 野島 良, 濱田 浩気, 村上 隆夫, 山岡 裕司, 山口 高康, 渡辺 知恵美, 'PWSCUP: 履歴データを安全に匿名加工せよ', コンピュータセキュリティシンポジウム2016論文集, 2016(2), pp.271-278, (2016).

>> PWSCUP 2015 ルール論文 [Link]

菊 池 浩明, 山口 高康, 濱田 浩気, 山岡 裕司, 小栗 秀暢, 佐久間 淳, '匿名加工・再識別コンテストIce & Fireの設計', コンピュータセキュリティシンポジウム2015論文集, 2015(3), pp.363-370, (2015).





ルール概要



※本WEBサイトは概要のみ記しています.正確な定義は,ルール論文,ルールブックを参照ください.






図2:データ概要



本コンテストでは,登録された個人情報である顧客マスターデータ M と顧客が行った購買取引(トランザクション)の履歴を表す購買履歴データ T を対象とします.

図2において MT の間は,顧客識別子cid により結び付けられています.
例えば,図2 の顧客 Aliceは,1月20日と22日に商品 Chocolate と Candy を購入しています.

この購買履歴が顧客 Alice のものであることが識別できないように,匿名化アルゴリズム A により加工したデータを A(T) とします.

A(T)T に対して顧客 cid が仮名 pid に振り替えられ,日付や商品のランダムな変更(摂動化),レコード(行)削除などの加工が可能です.

例えば,顧客 Alice の 1月20日の Chocolate は,1月29日に Candy を購入したことに加工されています.
顧客 Bob の履歴は識別されるリスクが高いと判断されて,削除(図の“DEL'で指定)されています.

A(T) は,実際には T(1) ~ T(12) までの独立データであるため,月を越えた加工や,仮名の矛盾が発生してはいけません.
A(T) の加工制限については,データフォーマットの項で詳しく説明します.

この TA(T) の各行は,一対一に対応しており,この二つを参照すると匿名加工者が行った加工の内容が分かります.
データを提出した後,システムは仮名表 F を生成し,保管します.

このA(T)F が今年度の匿名加工と再識別で使用するデータです.


Updated:2017-09-11 13:09:40(202)









データフォーマット



今大会で利用するデータフォーマットについてまとめます.
※本WEBサイトは概要のみ記しています.正確な定義は,ルール論文,ルールブックを参照ください.
■ PWSCUP 2017 ルール論文  ■ PWSCUP 2017 競技ルール  ■ 競技データ&プログラム

以下のオリジナルデータ,サンプルデータは一括でダウンロードできます.
データ説明()で括られたファイルは,サンプルデータ内に含まれている対応するファイル名です.

M , T は,昨年度のファイルフォーマットと同じものを利用しているため,各データ形式の詳細は資料をご確認ください.
※参考 PWS CUP 2016 トランザクションデータの書式
今年度は, M は加工対象ではありません. T のみが匿名加工対象です.

M : オリジナルの顧客マスターデータ( M.csv )

M 通称区分書式概要
c,1 顧客ID 識別子 50byte以下の任意の英数文字列
c,2 性別 属性 「f」か「m」
c,3 年代 属性 1930/1/1 ~ 1980/1/1
c,4 属性 United Kingdom,France,Germany,Others

T : オリジナルの購買履歴データ ( T_sample.csv )

T 通称区分書式概要
t,1 顧客ID 識別子 任意の英数文字列
t,2 伝票ID 識別子 消去済み
t,3 購入日時 日付 2010,2011年のYYYY/MM/DD形式
t,4 購入時間 時間 hh:mm 形式
t,5 商品ID 属性 9文字以下の任意の大文字英数文字列
t,6 単価 数値 整数部5桁以下、小数部2桁以下の正小数
t,7 購入数 数値 6桁以下の自然数

例1: T のサンプル




A(T) : T を加工制限の範囲内で匿名加工したデータ

S : A(T) の提出後,削除行を排除し,行番号をかく乱したデータ

F : TA(T) の関係から作成された仮名表

A(T) の加工制限


以下の加工制限の範囲内で作成したA(T)をシステムに提出してください.
※本WEBページは概要説明です.正式な定義はルール論文とルールブックを参照ください.

1 ) 匿名加工履歴データ A(T) の行の順序は,購買履歴データ T と同一とする.

2 ) T に存在しない行の追加は認めない.

3 ) T に含まれる行を削除する場合は,当該行を [DEL,,,,,, ] と記載する.すなわち,列数は変更しない.
  以下,削除した行を'DEL行'とする.

例2:例1の T の2行目を削除する場合

4 ) A(T) に含まれるDEL行は,全行数の50%以上になってはいけない.

5 ) A(T) に含まれる属性の1列目は元情報の識別子であるため,元の識別子とは異なる仮名を付与すること.

6 ) A(T) の仮名は期間内では矛盾のない様に割当てる.同じ月内において仮名を変更してはならない.

例3:例1の T に仮名を付与したが,4行目に異なる仮名を割り当て,エラーになる例

7 ) 月ごとに仮名は必ずしも変更しなくてよい.月をまたいで同一人物に同じ仮名をつけても良い.

8 ) 'DEL' という仮名は禁じる.

9 ) 購買履歴データ T に含まれない商品ID( t·,5 )を含む匿名加工履歴データ A(T) を加工すること.
  単価 t·,6 ,数量 t·,7 はこの制約はない.

10 ) 日付 t,3 属性は,本来分割されたデータであることから,月をまたいだ加工を禁じる.

例4:例1の T の日付を加工したが,月をまたいでエラーになる例

11) 生成した A(T) は,'AT_*****.csv' という名前のファイル名として,システムに提出すること.
  上記の加工制限を逸脱していない場合,有用性・安全性評価に進むことができる.


SF のフォーマット


システムに提出された A(T) は,有用性,安全性の評価後に, SF に加工して,他ユーザに秘匿して管理される.

S は, A(T) からDEL行を排除し,行番号をかく乱したものである.
この処理は A(T) の提出後にシステム内で自動に行われ,再識別フェイズ以降,他参加者に公開される.

例5:例2の A(T) に仮名を付与した後,行番号をかく乱された例


また,システム内では, T A(T) ,仮名表 F を生成する.
仮名表は,
 元の識別子,2010年12月の仮名,2011年1月の仮名,2011年2月の仮名,...,2011年11月の仮名
という形式で表す.

再識別フェイズは,この仮名表 F を推定して作成した F^ を生成し,提出する.
FF^ は同じフォーマットであるため,以下を参考に生成すること.

例6:仮名表 F の例

この表は以下のようなテーブルであると考えると理解しやすい.
特に,開始月が2010年12月であることに注意すること.

例7:例6の仮名表 F をテーブル化したもの
識別子2010/122011/12011/22011/32011/42011/52011/62011/72011/82011/92011/102011/11
12431ABCDEDELDELDELDELABCDECDEFGCDEFGCDEFGCDEFGCDEFGCDEFG
15100VWXYZVWXYZVWXYZDELXYZABDELDELDELDELVWXYZVWXYZDEL
16211DELHIJKLDELDELDELHIJKLDELDELDELDELDELDEL


例7の表では,顧客12431氏は,2010年12月から2011年5月までABCDEという仮名に変換され,2011年6月からはCDEFGという仮名に変更された.2011年1月から2011年4月までは何も購入していないため仮名は存在せず,DELと表す.

また,顧客15100氏は,2011年4月にXYZABという仮名に変換されたが,その後はその仮名は使用していない.
このような加工も提出データとして認める.


Updated:2017-10-05 11:26:16(201)









Program List

Role Name Creater Text
UTILITY E1-ItemCF-s 村上 隆夫,門田 将徳
Takao Murakami, Masanori Monda
T, A(T)からそれぞれitem×item行列の類似度行列を作成し,それらの距離を計測する.Supplierに提供することを想定し,大量購入の履歴のみから作られたitem×item行列同士での比較を行う.
create similarity matrix(W, W’) and calcurate distance between W and W’ (for supplier)
UTILITY E2-ItemCF-r 村上 隆夫,門田 将徳
Takao Murakami, Masanori Monda
T, A(T)からそれぞれitem×item行列の類似度行列を作成し,それらの距離を計測する.Retailerに提供することを想定し,少量購入の履歴のみから作られたitem×item行列同士での比較を行う.
create similarity matrix(W, W’) and calcurate distance between W and W’ (for retailer)
UTILITY E3-topk 村上 隆夫,門田 将徳
Takao Murakami, Masanori Monda
匿名加工前後での,購入顧客数が上位kとなるアイテムリストを作成,差集合の計算(指標1).さらに,Tから選出された上位k個のアイテムについて,ItemCFによる類似度行列を計算,その距離を算出(指標2).
create create top-k items list, and calcurate distance between W, W’(only configured from top-k items)
UTILITY E4-diff-date 野島 良
Ryo Nojima
T, A(T)から購入日の差の平均を算出する.
Let T[i] and A(T)[i] be the i th records in T and A(T), respectively. Also, let T[i][j] and A(T)[i][j] be j th attributes of T[i] and A(T)[i], respectively. Then this algorithm computes the average of T[i][2] - A(T)[i][2]), i.e., the average of the number of days difference.
UTILITY E5-diff-price 野島 良
Ryo Nojima
T, A(T)から単価の違い(比率)の平均を算出する.
Let T[i] and A(T)[i] be the i th records in T and A(T), respectively. Also, let T[i][j] and A(T)[i][j] be the j th attributes of T[i] and A(T)[i], respectively. Then this algorithm computes the average of min(T[i][5], A(T)[i][5])/max(T[i][5], A(T)[i][5]) in i, where the 5th attribute is the price.
UTILITY E6-nrow 小栗 秀暢
Hidenobu Oguri
A(T)で消去された行数をTの行数で割った数値を出力する.
count deleted rows in A(T) and divide by |T|
RE-IDENTIFY S1-datenum 野島 良
Ryo Nojima
匿名加工前後で,購入日と数量の組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 2nd (date) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j
RE-IDENTIFY S2-itemprice 野島 良
Ryo Nojima
匿名加工前後で,商品IDと単価の組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 4th (gift) and the 5th (price) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j
RE-IDENTIFY S3-itemnum 野島 良
Ryo Nojima
匿名加工前後で,商品IDと数量の組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 4th (gift) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j
RE-IDENTIFY S4-itemdate 野島 良
Ryo Nojima
匿名加工前後で,購入日と商品IDの組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 2nd (date) and the 4th (gift id) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j
RE-IDENTIFY S5-item2pricenum 濱田 浩気
Koki Hamada
匿名加工前後で,商品ID2桁,価格と個数の組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 4th (gift id), the 5th (price) and the 6th (number) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j
RE-IDENTIFY S6-item2datenum 濱田 浩気
Koki Hamada
匿名加工前後で,商品ID2桁,購入日と価格の組み合わせが等しいレコード同士を同じ顧客とみなす.
If the 4th (gift id), the 2nd (date) and the 5th (price) attributes are the same between some anonymized record i and some non-anonymized record j, then the algorithm regards i as the anonymized record of j and outputs customer id in j




PWS2017 実行委員会





実行委員長菊池 浩明 (明治大学)
副委員長千田 浩司 (NTT)
PWS CUP
担当委員
※50音順
小栗 秀暢 (富士通クラウドテクノロジーズ)
中川 裕志 (東京大学/理化学研究所AIP)
野島 良 (NICT)
波多野 卓磨 (新日鉄住金ソリューションズ)
濱田 浩気 (NTT)
村上 隆夫 (産業技術総合研究所)
山岡 裕司 (富士通研)
山口 高康 (NTTドコモ)
山田 明 (KDDI総合研究所)
渡辺 知恵美 (筑波大学)
企画セッション
担当委員
※50音順
荒井 ひろみ (NICT)
伊藤 伸介 (中央大学)
佐久間 淳 (筑波大学)
島岡 政基 (セコム)
須川 賢洋 (新潟大学)
竹之内 隆夫 (NEC)
寺田 雅之 (NTTドコモ)
美馬 正司 (日立コンサルティング)
吉浦 裕 (電気通信大学)
後援個人情報保護委員会
一般財団法人 日本情報経済社会推進協会(JIPDEC)
システム提供富士通クラウドテクノロジーズ
システムサポート橘 陽 (富士通クラウドテクノロジーズ)
門田 将徳 (東京大学 大学院 中川研究室)
システム基盤

Updated:2017-10-12 13:42:16(103)