PSI(隐私集合求交集)的几类基础思想

基于DH密钥交换

基于Diffie–Hellman密钥交换的协议

Diffie-Hellman密钥交换协议是用来解决在公开网络中，密钥传输的问题。

关于DH密钥交换协议

传统的 PSI 协议针对 2 个参与方设计, Meadows 基于公钥加密和利用 Diffie-Hellman 密钥交换的乘法同态性质提出了第1个PSI协议, 随后, 由Huberman 等人[7]对 Meadows[6]的方案做出了完整描述。

定义：Diffie-Hellman密钥交换算法：

两个全局公开的参数，一个素数q和一个整数a，其中a是q的一个原根。

A和B希望交换一个密钥，用户A选择一个作为私钥的随机数XA（XA<q），并计算公钥YA=aXAmodq。B对XB的值保密存放而使YB能被A公开获得。

用户A产生共享秘密密钥的计算方式是K= (YB)XAmodq.同样，用户B产生共享秘密密钥的计算是K= (YA)XBmodq 。这两个计算产生相同的结果：

K=YBXAmodq=aXBmodqXAmodq=aXBXAmodq

=aXAXBmodq=aXAmodqXBmodq=YAXBmodq

因此相当于双方已经交换了一个相同的秘密密钥。

因为XA和XB是保密的，任意一方可以利用的参数只有q,a, YA和YB .因而如果一方想要破解对方的随机数，只能取离散对数来确定密钥。

由上述密钥交换算法，我们可以看出此协议适用于交换密钥，从而用于对比对比两元素是否相同。设发送方A持有集合X=x1,…,xn，接收方B持有集合Y=y1,…,yn，那么求出集合双方的交集实质可以转换为判断集合X中的每一个元素是否在集合Y中，也就是执行n次隐私成员查询。双方的交互分为两轮：

第一轮：首先A选择一个Hash函数H，并随机选择一个数a，将自己所有元素进行hash，并将Hx1a,…,Hxnamod p 打乱顺序后发送给B。同时 B也随机选择一个数b，将自身所有元素hash，将Hy1b,…,Hymbmod p 打乱顺序后发送给A。

第二轮：在双方收到对方发来的集合后，A将Hy1ab,…,Hymab mod p发送给B，B将Hx1ab,…,Hxnabmod p发送给A。现在集合双方可以通过以下方式计算出交集：对于在交集中的元素xi=yj，Hxiab一定在于双方的hash集合中都会出现，因为Hxiab=Hyiab。同样的，若xi不在交集中，仅存在于一方的集合中，那么Hxiab存在于双方的hash集合中的概率为可忽略的。

在协议的设计之初，这个方案被用于测试双方的交集大小是否满足超过一个门限，因此我们上述所说明的协议仅仅揭示交集的大小而不揭示交集的具体内容。如果想要求出交集的具体信息，我们可以仅在第一轮交互时打乱顺序，第二轮不打乱顺序，在这种情况下，A或B可以在第二轮收到的集合中找到哪些hash值在交集中，并根据其在集合中的位置，找到对应于自身集合中的哪些元素。具体来说，假设A根据双方第二轮的交互信息中发现，B发给自己的集合中的第i个元素Hxab，也存在于自己发给B的集合中，且B是诚实方不作恶的话，那么A可以确定，自己第一轮发送给B的集合中的第i个元素Hxa所对应的元素x一定在双方集合中的交集中。

基于多项式

参考文献：Freedman M, Nissim K, Pinkas B. Efficient private matching and set intersection[C/OL]// Proc of the 23rd Int Conf on the Theory and Applications of Cryptographic Techniques. Berlin: Springer, 2004[2020-10-16].

2004 年，由 Freedman 等人借助不经意多项式求值和同态加密构造了第1个安全 PSI 协议，这也是首个基于多项式的协议。

这个协议的构造需要使用一种语义安全的公钥加密方案，需要保留加法的群同态性，并允许常数乘。Paillier同态加密及其后续构造满足此性质。具体的说，在仅有加密公钥而没有撕咬的情况下，加密算法需要支持以下两种操作：（1）给定enc(m1)和 enc(m2)，我们可以高效计算enc(m1+m2)（2）给定enc(m1)和常数c，我们可以计算enc(cm1)。我们将基于以上两种性质，在给定一个k次多项式P的系数的密文a0,…,ak,以及明文y，我们能够计算P(y)的密文。

这个协议的主要执行过程是：首先生成同态机密的密钥对(pk，sk)然后将公钥发送给服务器端，同时将自己的元素的集合X=x1,…,xn编码为多项式P，其中

P(x)=x1-xx2-x…xn-x=u=0nauxu.

对于这个多项式，我们可以发现如果属于X集合中的元素代入多项式，则多项式的结果为0；反之若将一个不属于集合X的元素带入多项式，则多项式的结果并不为0.

之后，我们将多项式的(n+1)个系数使用同态加密后获密文，将密文集合发送给服务器端。

服务器S收到同态加密的多项式后，对于y∈Y，其可以利用加密算法的同态性质来计算S的每个输入处的多项式，即计算Enc(P(y))=Enc(u=0nauyu).之后，服务器端选择一个随机值r，利用同态性计算密文乘r,从而得到一个中间结果Enc(rP(y))，并加上其输入的密文，即，S计算Enc⁡(r⋅P(y)+y).最后，服务器端得到集合{Enc⁡(r⋅P(y)+y)}y∈Y，这个集合里元素的数目与服务器端的集合数目相同。服务器将集合的顺序打乱后（不打乱的话可能泄露服务器端的元素）返回给客户端。客户端将所有收到的密文解密，由于对于双方交集中的每一个元素，P(y)=0,因此这个计算的结果是对应元素的值的密文Enc(y)，而对于所有其他值，由于r的存在，结果都是随机的。因此，解密之后客户端就可以根据解密的结果判断出对应的元素是否在交集中，从而输出交集。

这个协议的一个缺点是，对于较大的集合，多项式的次数过高，从而会使同态加密的运算中指数的计算代价过高。针对这个问题，作者又提出了使用hash函数将元素映射到B个桶中，每个桶中至多有M个元素，这样可以针对每个桶设置一个最高次数为M的低次多项式。服务器端采用相同的Hash函数将元素进行映射，客户端将相对应同理的元素和多项式进行集合交集判断。具体做法是：客户端为每个箱子定义了一个M次的多项式：所有被hash函数h映射到箱子的项被定义为多项式的根，如果桶没有被映射满的话，则客户端添加根为0的因式，以达到多项式的最高次为M。也就是说，如果h将l个元素映射到某一个桶中，那么首先计算这些元素所对应的多项式，然后将多项式乘xM-l（我们这里假设0不是一个有效的输入），最后，我们能够得到B个M次的多项式，他们总共有n个非0根。

客户端C将加密的多项式系数以及映射关系发送给服务器S之后，S对自己集合中的每一个元素，首先找到对应映射到的桶的加密的多项式，然后计算加密多项式的值，其余步骤与前面相同。

基于OPRF（茫然伪随机函数）的PSI

参考文献：Pinkas, B., T. Schneider, G. Segev, and M. Zohner. 2015. “Phasing: Private Set Intersection Using Permutation-based Hashing”.

In: 24th USENIX Security Symposium. Ed. by J. Jung and T. Holz. USENIX Association.

515–530. url: https://www.usenix.org/conference/usenixsecurity15.

假设A持有一组输入X，B有一组输入Y，二者的大小都为n，通过不经意伪随机函数，我们可以构造出一个非常朴素的隐私集合求交算法：

1.A构造n个不经意伪随机函数的种子ki ，i∈{0，1.…n-1}

2.B为Y中每一个元素yi，执行一个对应不经意伪随机函数F(ki·),，得到集合

HB={F(ki,yi)|yi∈Y}

3. A为X中的每一个元素x，执行每一个不经意伪随机函数，得到集合

HA ={F(ki,x)| x∈X}

4.A将集合HA发送给B，B求交集HA⋂ HB，再将交集映射回Y，即可得到X与Y的交集

这种方法简单来讲，就是B将每一个Y中的每一个元素，都与A的X中的每一个元素，通过不经意伪随机函数进行隐私比较，进而得到X与Y的交集。

这种方法虽然直观，但是开销很大，因为集合HA的大小是 O(n2) ，当集合大小n增长时，传输量增长很快。

那么，我们有没有办法将集合大小限制在O(n)呢？答案是可以的。这需要使用到哈希表的思想。这里，我们使用布谷鸟哈希（Cuckoo hashing）来解决这个问题。

我们首先简单介绍一下布谷鸟哈希。假设我们想要使用布谷鸟哈希，将n条数据放入b 个桶中，则我们首先选择3 个哈希函数h1，h2，h3：{0，1}*→[b]，以及b 个空的桶B[1...b] 。要放入一条数据x。首先查看3 个桶B [h1(x)] ，B [h2(x)]，B [h3(x)]是否有空的，如果有空的,则将放入空桶。如果没有空桶，则从这三个桶中随机选择一个桶B[hix],i∈{1，2，3}，踢出原来在这个桶中的元素，并将x放进这个桶中，然后再继续尝试插入被踢出的元素。递归地执行这一过程，直到元素被放入一个空桶中。如果经过一定轮次后，仍然找不到空桶放入元素，那么就将被踢出的元素放到一个特殊的桶中，这个桶被称为stash。

现在回到隐私集合求交的构建中，让我们看看如何在隐私集合求交中使用布谷鸟哈希。首先，A、B双方共同选择三个哈希函数h1， h2， h3.然后，B将其持有的n个元素Y，使用布谷鸟哈希，放入1.2n个桶与一个储藏桶stash中，储藏桶的大小为s。对B来说，现在每个桶中最多只有一个元素，并且储藏桶的中，最多有s个元素。B构造假数据将这些桶和stash填满。

然后,A生成1.2n+s个随机种子ki ，i∈{0，1.…1.2n+s}，用作1.2n+s个不经意伪随机函数的随机种子。B作为接收方，为其桶中的每一个元素y，计算不经意伪随机函数。如果y被放在i号桶中，则计算F(ki,y)，如果被放在stash中则计算F(k1.2n+i,y).

另一边，A作为发送方，可以任意地计算伪随机函数F(ki,·) ，那么，A可以为其输入X计算以下两个集合：

H=Fkhi(x),x∣x∈X,i∈{1,2,3}S=Fk1.2n+j,x∣x∈X,j∈{1,2,…,s}

A将集合H和集合S中的元素打乱，并将这两个集合发送给B。对于B来说，如果一个元素y被放到stash中，则B可以在集合S中查找y对应的不经意伪随机函数输出；否则，就在集合H中查找。查找到所有伪随机函数的输出后，他们所对应的元素就在X与Y的交集中。