1 - 中川研究室

Report
個人情報保護が叫ばれる
複数の企業、組織が協力しないと日本は
どんどん遅れていく
2002年くらいから伸びてきた分野です。最近は機械学習、
データ工学系の学会で相当数の論文が発表されています。
こういうご時勢ですから、ひょっとすると重要な技術要素
になるかもしれません。
プライバシ保護データマイニング
(PPDM)
東京大学
中川裕志
PPDMの基礎概念
2002年から2006年ころまでに導入された概念

PPDMを始めた動機

k-匿名性(k-anonymity)
l-多様性(l-diversity)
t-closeness


動機

複数の組織がプライシーに係わるクリティカルなデータ
(sensitive data)を持ち、場合によっては公開している


microdata の保護のため sanitized(不要部分の削除など)



microdata (vs. aggregated macrodata) と呼ばれる詳細データが解析
やマイニングに利用される状況である。(USでは公開は法令で義
務化 )
例えば、explicit identifiers (Social Security Number, name, phone #)
の削除
しかし、それで十分か?
否! link attacksの脅威

公開データからプライバシー情報を推測できる可能性あり
link attack の例

Sweeney [S01a] によれば、Massachussetts州知事の医療記録
が公開情報から特定可能


MA では、収集した医療データを sanitize して公開している(下図)
(microdata) 左円内
一方、選挙の投票者名簿は公開 右円内
• 両者をつきあわせると
•
6 人が知事と同じ生年月日
うち3 人が男
うち1 人が同じzipcode
• 1990年の the US 1990 census dataによれば
– 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
microdataのプライバシー

microdataの属性



explicit identifiers は削除
quasi identifiers (QI=擬ID)は個人特定に利用可能
sensitive attributes は sensitive 情報を持つ
identifier
quasi identifiers
sensitive
Name
Birthdate
Sex
Zipcode
Disease
Andre
21/1/79
male
53715
Flu
Beth
10/1/81
female
55410
Hepatitis
Carol
1/10/44
female
90210
Brochitis
Dan
21/2/84
male
02174
Ellen
19/4/72
female
02237
Sprained
Ankle
AIDS
プライバシー保護の目標は、個人をsensitive
情報から特定できないようにすること
k-匿名性(k-anonymity)


k-匿名性によるプライバシー保護, Sweeney and Samarati
[S01, S02a, S02b]
k-匿名性: 個人を他のk-1 人に紛れさせる



実現方法



つまり、 公開された microdata においては、Quasi Identifier:QI の値
が同一の個人は少なくともk 人存在することを保証
よって、link attackでも個人特定の確率は 1/k
一般化 and 抑圧
当面はデータの値の perturbation(摂動)は考えない。摂動は、後に
差分プライバシーのところで活用されることになる
プライバシーとデータマイニングにおける有用性のトレードオ
フ

必要以上に匿名化しない
k-匿名性 の例
匿名化手法
 一般化


例えば、対象分野のデータは抽象度によって階層化されているなら、
上の階層のデータを公開
抑圧

特異性のあるデータ項目は削除
original microdata
Birthdate
Sex
Zipcode
21/1/79
male
53715
10/1/79
female
55410
1/10/44
female
90210
21/2/83
male
02274
19/4/82
male
02237
2-anonymous data
group 1
Birthdate Sex
Zipcode
*/1/79
person
5****
*/1/79
person
5****
female
90210
*/*/8*
male
022**
*/*/8*
male
022**
suppressed 1/10/44
group 2
generalization lattice
K-anonymity
assume domain hierarchies exist for all QI attributes
Z2 ={537**}
Z1 ={5371*, 5370*}
B1 ={*}
S1 ={Person}
Z0 ={53715, 53710, 53706, 53703}
B0 ={26/3/1979, 11/3/1980, 16/5/1978}
S0 ={Male, Female}
construct the generalization
lattice for the entire QI set
<S1, Z1>
<S0, Z2>
<S1, Z0>
<S0, Z1>
generalization
more
<S1, Z2>
<S0, Z0>
sex
birthdate
zipcode
less
objective
find the minimum generalization
that satisfies k-anonymity
[1, 2]
i.e., maximize utility
by finding minimum
distance vector with
k-anonymity
[1, 1]
[0, 2]
[1, 0]
[0, 1]
[0, 0]
generalization lattice
incognito [LDR05]
exploit monotonicity properties regarding frequency of tuples in lattice

reminiscent of OLAP hierarchies and frequent itemset mining
<S1, Z2>
<S1, Z1>
(I) generalization property (~rollup)
<S0, Z2>
if at some node k-anonymity holds, then it also holds
for any ancestor node
e.g., <S1, Z0> is k-anonymous and, thus, so is <S1, Z1> and <S1,
Z2>
<S1, Z0>
<S0, Z1>
<S0, Z0>
note: the entire lattice, which
includes three dimensions
<S,Z,B>, is too complex to show
(II) subset property (~apriori)
if for a set of QI attributes k-anonymity doesn’t hold
then it doesn’t hold for any of its supersets
e.g., <S0, Z0> is not k-anonymous and, thus <S0, Z0, B0> and <S0, Z0, B1>
cannot be k-anonymous
incognito [LDR05] considers sets of QI attributes of increasing cardinality
(~apriori) and prunes nodes in the lattice using the two properties above
seen in the domain space
consider the multi-dimensional domain space
Z2
537**
5370*
female
53703 53705
sex
hierarchy
male

S0

QI attributes are the dimensions
tuples are points in this space
attribute hierarchies partition dimensions
Z1
5371*
53709 53711
53714
(53705, female)
person

S1

(53711, male)
53718
Z0
zipcode
hierarchy
seen in the domain space
not 2-anonymous
incognito example
2 QI attributes, 7 tuples, hierarchies
shown with bold lines
zipcode
sex
2-anonymous
group 1
w. 2 tuples
group 2
w. 3 tuples
group 3
w. 2 tuples
seen in the domain space
taxonomy [LDR05, LDR06]
generalization taxonomy according to groupings allowed
single dimensional
global recoding
multi dimensional
global recoding
multi dimensional
local recoding
incognito [LDR05]
mondrian [LDR06]
topdown [XWP+06]
generalization strength
mondrian
[LDR06]

define utility measure: discernability metric (DM)

•
•

penalizes each tuple with the size of the group it belongs

intuitively, the ideal grouping is the one in which all groups have size k
mondrian tries to construct groups of roughly equal size k
what else (besides Mondrian)
does this painting remind you?
it’s reminiscent of the kd tree:
–
–
cycle among dimensions
median splits
2-anonymous
measuring group quality

DM depends only on the cardinality of the group

no measure of how tight the group is

a good group is one that contains tuples with similar QI values

define a new metric [XWP+06]: normalized certainty penalty (NCP)

measures the perimeter of the group
bad generalization
good generalization
long boxes
square-like boxes
Topdown [XWP+06]



start with the entire data set
iteratively split in two

reminiscent of R-tree quadratic split

R木は、階層的に入れ子になった相互に重なり合う最小外接矩形 (MBR) で空間を分割する
continue until left with groups which contain <2k-1 tuples
split algorithm
find seeds, 2 points that are furthest away
• heuristic, not complete quadratic search
• the seeds will become the 2 split groups
examine points randomly (unlike quadratic
split)
• assign point to the group whose NCP will
increase the least
boosting privacy with external data

external databases (e.g., voter list) are used by attackers
can we use them to our benefit?



try to improve the utility of anonymized data
join k-anonymity (JKA) [SMP]
3-anonymous
microdata
k-anonymity
join
join 3-anonymous
joined microdata
public data
JKA
x3
x3
x3
k-匿名性の問題点

k-匿名性 の例

Homogeneityによる攻撃: 最終グループは全員 cancer

背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知
られていると。。。
microdata
id
1
2
3
4
5
6
7
8
9
10
11
12
Zipcode Sex
13053
28
13068
29
13068
21
13053
23
14853
50
14853
55
14850
47
14850
49
13053
31
13053
37
13068
36
13068
35
National.
Russian
American
Japanese
American
Indian
Russian
American
American
American
Indian
Japanese
American
4-anonymous data
Disease
Heart Disease
Heart Disease
Viral Infection
Viral Infection
Cancer
Heart Disease
Viral Infection
Viral Infection
Cancer
Cancer
Cancer
Cancer
id
1
2
3
4
5
6
7
8
9
10
11
12
Zipcode Sex
130**
<30
130**
<30
130**
<30
130**
<30
1485*
≥40
1485*
≥40
1485*
≥40
1485*
≥40
130**
3∗
130**
3∗
130**
3∗
130**
3∗
National.
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
Disease
Heart Disease
Heart Disease
Viral Infection
Viral Infection
Cancer
Heart Disease
Viral Infection
Viral Infection
Cancer
Cancer
Cancer
Cancer
l-多様性
[MGK+06]

各グループにおいて sensitiveなデータの値がうまく
管理されていることを目指す
 homogeneity 攻撃を防ぐ
 背景知識攻撃を防ぐ
l-多様性 (簡単な定義)
あるグループが l-多様性を持つとは、
そのグループ内では少なくともl種類の
sensitive なデータ値が存在する
• group内にl種類のsensitiveな値があり、できるだけ均等に出現することが
望ましい。
anatomy
[XT06]


fast l-diversity algorithm
anatomy is not generalization


id
1
2
3
4
5
6
7
8
seperates sensitive values from tuples
shuffles sensitive values among groups
Age
23
27
35
59
61
65
65
70
Group-ID
1
1
2
2
2
Sex
M
M
M
M
F
F
F
F
Zipcode
11000
13000
59000
12000
54000
25000
25000
30000
Disease
dyspepsia
pneumonia
bronchitis
flu
gastritis
Group ID
1
1
1
1
2
2
2
2
Count
2
2
1
2
1
algorithm
•assign sensitive values to buckets
•create groups by drawing from l largest
buckets
5
8
3
9
7
1
2
6
group 1
5
8
7
group 2
3
9
6
group 3
1
2
4
4
21
t-closeness



l-多様性があっても、ある属性がaの確率99%,bの確率
1%というように偏りが激しいと、プライバシーは危険
2つのグループ(上記a属性のグループとb属性のグルー
プ)は、sensitive データの分布における距離と、全属性
の分布における距離が t 以下であるとき、 t-closeness
である。
上記の分布間の距離としては、属性を各次元としてにお
いてEarth Mover’s distance(EMD)を用いる
P   p1 , p2 ,.., pm , Q  q1 , q2 ,..,qm , dij  distancebetween pi and q j : given
fij  flow bewteen pi and q: j
  d f 最適化したのが EMD
EMDP, Q   min   d f
fijを変化させて
f ij
s.t.
fij  0
 
m
22
i 1
m
m
i 1
j 1
m
m
i 1
j 1
ij ij
ij ij
1  i  m,1  j  m
,
pi   j 1 fij   j 1 f ji  qi
f  i 1 pi  i 1 qi  1
j 1 ij
m
m
m
m
m
k-anonymity, l-diversity, t-closenessの参考文献






LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Fulldomain k-Anonymity. SIGMOD, 2005.
LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional kAnonymity. ICDE, 2006.
Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE
TKDE, 13(6):1010-1027, 2001.
Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International
Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection
using Generalization and Suppression. International Journal on Uncertainty,
Fuzziness and Knowledge-based Systems, 2002.
Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy
Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.
23

ここまで述べてきたように、公開された複数のデー
タベースを串刺しする攻撃への対策は、t-closenessに
至って、一段落した感あり。

攻撃者は、データベースへの質問者の場合を想定
攻撃者の事前知識に左右されることなく、データ
ベースのプライバシー保護の強度を数学的に制御で
きる概念として、2006年以降、マイクロソフトの
Cynthia Dworkが中心になって提案した差分プライバ
シーがトレンドとなった。

24
DIFFERENTIAL PRIVACY
差分プライバシー

同じドメインのデータベース:D1,D2要素が1個だけ異なる
D2
D1
α
1要素だけ違う
D1,D2が質問 f に対して区別できない結果を返す  デー
タベースの内容が利用者に同定しにくいという相対的安全
性: 差分プライバシー
 X=D1 or D2 に対してYをうまく決めて
 t=f(X)+Y  p(t-f(D1)) ≦ eε p(t-f(D2))
pt  f D1
 あるいは
log
  としたい。



pt  f D 2
このようなYの分布はラプラス分布で実現
25
pがラプラス分布 : Lapalace  
 t
1
exp  
2
 
 t  f ( D1) |  | t  f ( D 2)
p(t  f ( D1)) exp t  f ( D1) /  


 exp
p(t  f ( D 2)) exp t  f ( D 2) /  


 f ( D1)  f ( D 2)
 exp






  exp f ( D1)  f ( D 2) 

p  max f D1  f D1
D1, D 2
 p 
 p 
 pY   pt  f ( X )   Laplace

t

f
(
X
)

Laplace









パラメータ ε の調整
26
どんな関数 f がこの枠組みに入れるのかが研究課題
Differential Privacy の文献



C. Dwork. Differential privacy. In ICALP, LNCS, pp.1–12,
2006.
C. Dwork. Dierential privacy: A survey of results. In
TAMC, pp. 1-19, 2008.
Cynthia Dwork, Frank McSherry, Kunal Talwar. “The
Price of Privacy and the Limits of LP Decoding”.
STOC’07, pp.85-94, 2007
27
PPDMに関する最近の研究の動向
KDD2010より
分類

必ずしも信用できないクラウドサーバ計算を任せる
場合の元データのプライバシー維持



差分プライバシー



Data Mining with Differential Privacy
Discovering Frequent Patterns in Sensitive Data
暗号技術による分散データからのマイニング


Privacy-Preserving Outsourcing Support Vector Machines with
Random Transformation
k-Support Anonymity Based on Pseudo Taxonomy for
Outsourcing of Frequent Itemset Mining
Collusion-Resistant Privacy-Preserving Data Mining
その他

29
Versatile Publishing for Privacy Preservation
必ずしも信用できないクラウドサーバ計算を任
せる場合の元データのプライバシー維持
(1)Privacy-Preserving Outsourcing Support Vector
Machines with Random Transformation


信用できない外部のサーバにSVMをoutsourcingするときに、
元データを推定されないようにKernelをランダム変換するアル
ゴリズム
 従来は、教師データからランダムに選んだ小さな部分で
SVMの学習をする方法。そこそこの精度。ただし、テスト
においては外部サーバにデータを知られてしまう。
そこで新規提案
31
Privacy-Preserving Outsourcing Support Vector
Machines with Random Transformation

まず、準備としてm個の教師データのうちm’(<<m)個の
部分集合だけを用いるReduced SVMを説明。本来は少
ないメモリでSVMを行うアルゴリズム








参考 Y.-J. Lee and O. L. Mangasarian. RSVM: Reduced support vector machines. In Proceedings
of the 1st SIAM International Conference on Data Mining (SDM), 2001.
y=分類の誤り、γ=原点からの距離
A=教師データ
D=1 if 正解 , =-1 if不正解
w=重みベクトル=ATD u
分離平面 xTw= γ
 xT ATD u = γ
linear kernel K(xT AT)D u = γ
32

するとSVMの最適化は (ただしA’=AT)

これは条件なし最小化問題 (10)

Newton 法などで解ける。
ここで、カーネル行列K(A,A’)は大きすぎてメモリに
乗らないので、Aの次元をmとすると、より小さな次
元 m’<<m の A (これはAのランダムな部分集合)を
T
用いたカーネル行列 K ( A, A ) を(10)に代入し最適化
問題を解くのがRSVM
この A をAとは関係ない乱数にしてしまうのが次
ページのアイデア


33
Privacy-Preserving Outsourcing Support Vector
Machines with Random Transformation



教師データxに行列Mで表されるランダム変換を施したMxと
m’個のランダムデータrに逆変換した(MT)-1rを外部サーバに
送り、この2種のデータ間でのペアからなるkernel k(xi,rj)
でSVMを学習。(m’<<m) K(A,A’)によるReduced SVM
ランダムベクトルで学習するので、kernel matrix k(xi,xj)も外
部サーバに知られない。ランダムベクトルは漏れなければ
他の学習データも漏れない。
線形カーネルの場合は、置換したMxを計算サーバに与えて
計算する識別関数は、以下の通り


f ( x)   j 1 v j k Mx  M T  rj  b   j 1 v j k x, rj   b
m'

34
T
1
m'
(Mx)T(MT)-1r=xTMT(MT)-1r=xTr なので、多項式カーネルも計算
できる
m'をランダム教師入力の 個数とする

f ( x )   j 1 v j k Mx  M
m'


T

T 1

rj  b   j 1 v j k x, rj   b
m'
よって、実際のテストデータzはMzと変換して計算
をoutsourceすれば、計算はO(m’)で少なく、データ内
容を(かなり)保護できる。
精度の実験結果は以下(m’=m/10)
35
参考 . Keng-Pei Lin,Ming-Syan Chen. Privacy-Preserving Outsourcing Support Vector
Machines with Random Transformation ,KDD2010
(2)k-Support Anonymity Based on Pseudo Taxonomy
for Outsourcing of Frequent Itemset Mining


This paper focuses on outsourcing frequent itemset mining.
k-support anonymity
真のDB : TIの暗号化(名前を fakeなものに置き換えるこ
x  S(sensit ive item)
少なくとも


と )された DB : TNにおいて

k個の暗号化item : y  TN   support TN (y)  support TI (x)
To achieve k-support anonymity, we introduce a pseudo
taxonomy tree.
36
3-support
anonymity

support 2
のitem
にはa,g,h
の3種類
あり
37
○の中
の数は、
その部
分木に
含まれ
る
transacti
onの数
の合計
insert
1,2はp3には含ま
れているので
sup(tea)に影響な
し
insert
sup(p6)=3<sup(wine)
sup(p7)=1<sup(wine)
sup(wine)に影響なし
38
split
1,5を追加
しても
sup(wine)は
不変。
木の変更によって supTN(child node)<supTI(sensitive node)<supTN(parent node)
という関係を崩さなければ、supportの計算は保存される
sensitive
insert
split
increase
39
差分プライバシー
(3)Discovering Frequent Patterns in Sensitive Data


Sensitiveなデータのデータセットからトップk個の再
頻出パタン( most frequent patterns: top k FPM)を抽出
するにあたって、ε 差分プライバシーを満たすよう
な細工をする。
近似 top k FPM




41
f k をk番目に多いパタンの真の頻度とする。
信頼度=ρ:確率(1- ρ)以上で以下の条件を満たす
Soundness: 真の頻度が(f k− γ)より少ない頻度のパタン
は出力しない。
Completeness:真の頻度が(f k+ γ) より大きいパタンは
全て出力する。
Precision: 出力された全パタンの頻度は真の頻度から
±η の範囲に入る。
提案アルゴリズム



ここでε/2差分private
ここでε/2差分private
42

入力:パタン集合=U,データセットサイズ=n
前処理:γ=(8k/εn)ln(|U|/ρ) とし、通常の
Frequent Pattern Mining アルゴリズムで、頻
度> (f k− γ) のパタン集合Uを抽出。残りの
パタンの頻度は (f k− γ) と見なす
雑音加算とサンプリング:Uの各パタンの頻度
にLaplace(4k/εn)を加算。この加算の結果から
トップkパタンを通常のFPMで抽出 する。これ
をSと呼ぶ。
摂動(Perturbation):S中のパタンの頻度に
Laplace(2k/εn)を加算し、雑音加算された頻度を
得、これを最終結果として出力する。
併せてε-差分
private

提案されたアルゴリズムは ε差分プライバシー

少なくとも1-ρの確率で、真の頻度が(f k− γ)よりの大
きなパタン全てを抽出でき、 U中で(f k+γ)より大きな
パタン全てが出力される。ただし、 γ=(8k/εn)ln(|U|/ρ)


少なくとも1-ρの確率で、雑音加算された頻度と真の
頻度の差はη以下。ただし、 η =(2k/εn)ln(k/ρ)
Top kパタンの抽出の計算量はO(k’+klogk)
ただし、k’は頻度> (f k− γ) のパタンの個数
43
(4)Data Mining with Differential Privacy


ID3における decision tree 構築時には、treeのある
node にぶら下がるデータをsplitし、information gain
が最大のsplitの仕方を選ぶ。
そこで、splitしたデータの個数にLaplace分布に応じ
たノイズを加え、これにより 差分プライバシーを実
現
44
Nτ=|T|+Laplace(1/ε)
次のスライド参照:q( i.e.情報量利得)が最大と
なる属性を求める
45
ExpMech:Exponential Mechanism
qは、Information Gain, Gini Index, Max など
から選択してくる
46
47
その他
(6)Versatile Publishing for Privacy Preservation



Micro data を公開しても quasi ID  sensitive data と
いう推論ができないようにデータベースを変形する
手法
禁止する推論 QIDS の集合を{QS}とする。
全データを以下のようにして分割し変形し{QS}が禁
止されるようにする。


48
全データから部分Tを切り出す。このTは上記の推論がで
きないように 匿名化する。
別の部分T’を追加して既存の{T}が{QS}のルールを満た
す場合は、TからSを除去する。
ここで我々の成果も少し紹介させていただきます。
結託攻撃耐性のあるPPDMプロトコルの
設計:Secure Product of Sum.
KDD2010 にて発表
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
プライバシー保護データマイニング(PPDM)では
 自分自身のデータを持つ多数のパーティが、各々の
データを他のパーティに知られることなく、全パー
ティのデータを統合的に利用したデータマイニング
結果を入手すること.
 暗号技術に基づく PPDM 実現が目標.
 このようなPPDMには多数の応用分野がある



疫病の感染ルート追跡
個人の信用情報を得る(与信)
競合数社が共同して市場調査
 結託攻撃が強敵
 結託攻撃とは
t パーティが結託して、別のパーティ
のデータを入手すること
 定義 t-private :上記の結託攻撃を防げるなら、
PPDM は t-private という.
 総パーティ数= Mのとき, M-1-private なら fullprivate と呼ぶ.
 full-private は PPDM の安心な利用の試金石.
 これまで提案された
PPDM は full-private ではない

Works Methods
Methods
Party
Anti-Collusion
S. Jha 2005
K-Means
2
NA
M. Ozarar 2007
-Means
Multi
×
J. Vaidya 2004
JNaive Bayes
Multi
×
J. Vaidya 2003
K-Means
Multi
×
PPDM の実現が我々の目標。具体的には
full-private な secure dot-products calculation, secure
ratio calculation, secure comparison を提案する.
 full-private
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
全体像
Clustering, K-means, EM,
Categorization, etc. etc..
Secure Ratio Calculation
Protocol : SRoS
Secure Comparison
protocol : SCoS
Secure dot-Product calculation
protocol : SPoS
Random share
+ shared random
Secure linear function
Evaluation protocol: SLFE
Homomorphic Encryption
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
このpを結託
攻撃を防い
で計算した
い
提案手法の基礎となる Random Shareのアイデア
3パーティの場合 :
赤はパーティ1、緑はパーティ2、青はパーティ3が元来保持あるいは生成し
たデータ
Party1:
1χ2γの計算が必要なので、乱数1β2を生成し、 1χ+ 1β2を作ってparty2に送って
計算してもらう。
1χ3γも同様にして、 1χ+ 1β3を作ってparty3に送って計算してもらう。
これと同じことをparty2,party3も行い、その結果各々 1p, 2p, 3pを供出してpを計
算
++
+
これが計
算したい
問題:
=0になるように1β1 2β2 3β3を
決めたい
59
各partyはこのような条件の乱数 δ
して他のpartyに送る
を生成
=0
送ってもらった
1
ε2
1
と
ε3を使えばParty 1 だけ
が 1 β1
を計算でき、他のpartyに
知られることなく
1β +2β + 3β =0 とできる
1
1
1
これらのSLFEで 1ε2 と1ε3を計
算してparty1に送ってもらう
60
提案手法の基礎となる Random Shareのアイデア
3パーティの場合 :
赤はパーティ1、緑はパーティ2、青はパーティ3が元来保持あるい
は生成したデータ
Party1: 元々1χを持つ。さらに乱数1β2を生成して 1χ +1β2 =1α2を作ってparty2に送る。
同様に、乱数1β3を生成して 1χ +1β3 =1α3を作ってparty3に送る。
Party2: 元々2χを持つ。さらに乱数2β1を生成して 2χ +2β1 =2α1を作ってparty1に送る。
同様に、乱数2β3を生成して 2χ +2β3 =2α3を作ってparty3に送る。
Party3: 元々3χを持つ。さらに乱数3β1を生成して 3χ +3β1 =3α1を作ってparty1に送る。
同様に、乱数3β2を生成して 3χ +3β2 =3α2を作ってparty2に送る。
Party1: 1χ , 2χ +2β1 =2α1 , 3χ +3β1 =3α1
Party2: 1χ +1β2 =1α2, 2χ, 3χ +3β2 =3α2
Party2: 1χ +1β3 =1α3 , 2χ +2β3 =2α3 , 3χ
Party1: 1χ , 2χ +2β1 =2α1 , 3χ +3β1 =3α1
Party2: 1χ +1β2 =1α2, 2χ, 3χ +3β2 =3α2
Party2: 1χ +1β3 =1α3 , 2χ +2β3 =2α3 , 3χ
ここで、Party1,2,3各々が、適当な1β1 2β2 3β3を生成してχに加算して1χ + 1β1 =1α1,
2χ + 2β2 =2α2, 3χ + 3β3 =3α3を作り、以下の式が成り立つようにしたい
Party1,2,3が
各々 1p, 2p, 3p
を供出してp
を計算し
共有
これが計
算したい
62
=0になるように
1β 2β 3β を決めた
1
2
3
い
=0
このSLFEによる計算を使
えばParty 1 だけが 1β1
を計算でき、他のpartyに
知られることなく
1β +2β + 3β =0 とできる
1
1
1
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
Outline
背景
secure protocol の提案
I.
II.
I.
II.
III.
IV.
III.
IV.
概要
要素技術と protocol
安全な積計算 protocol:SPoS
SPoSから導出される関連 protocol: SRoS and SCoS
実験評価
結論
実験設定
 Paillier
cryptosystem (P. Pallier, Public-Key Cryptosystems
based on Composite Degree Residue Classes, Proceedings of
EuroCrypt 99, 1998.)
to implement the SLFE protocol.
 Intel Pentium Core2 Duo CPU 2.67 GHz and 2.00 GB
ram.
 The network environment = wireless LAN of
IEEE802.11g/IEEE802.11b.
Number of parties vs. running in SPoS protocol.
Comparison of Efficiency and Security of OMP (WAP),
Vaydia's protocol and SPoS in the cases of 2-party, 5-party,
10-party, 20-party and 100-party.
Number of parties
OMP
(WAP)
Vaydia
SPoS
2
5
10
20
100
Time
0.156
0.593
1.326
2.792
14.5
t-Privacy
1
1
1
1
1
Time
3.54
3.54
3.54
3.54
3.54
t-Privacy
1
1
1
1
1
Time
0.172
0.692
1.538
3.232
17.2
t-Privacy
1
4
9
19
99
結論
 結託攻撃耐性のあるdot
products,
ratios,comparisons を行うprotocolを提案した.
 この提案は full privacy (m-1 private, where # of
parties is m).
 full privacy を実現しているので、通信路におい
ては盗聴されてもかまわない
 提案した protocol の実行時間はパーティ数に比例

similar documents