差分隐私综述
1.差分隐私的两个目标
(1)隐私保护中, 如何在分享数据时定义隐私
(2)如何在保证可用性的数据发布时, 提供隐私保护的问题
2.差分隐私背景:
差分隐私对于隐私的定义不依赖于攻击者的背景知识
3.隐私信息的全生命周期模型(9个部分)
隐私信息产生, 隐私感知, 隐私保护, 隐私发布, 隐私信息存储, 隐私交换, 隐私分析, 隐私销毁, 隐私接收者
4.隐私保护的方式(主要有三种)
数据失真、加密、访问控制
5.准标识符
可以和外部表链接来识别个体的最小属性集
6.准标识符假设
数据持有者可以识别出其所持有数据表中可能出现在外部数据中的属性,因此其可以准确的识别出准标识符集合(实际上这个假设不可能成立)
7.K匿名算法
通过概括和隐匿技术,发布精度较低的技术,使得每条记录至少与数据表中其他k-1条记录具有完全相同的准标识符属性值,从而减少链接攻击所导致的隐私泄露。
缺点:无法抵抗同质攻击,背景知识攻击和补充数据攻击等
8.等价类
拥有相同准标识符的所有记录
9.l-diversity(l-多样性)
一个等价类里的敏感属性至少有l个良表示的取值
缺点:因为在一个真实的数据集中, 属性值很有可能是偏斜的或者语义相近的, 而 l-多样性只保证了多样性,没有认识到在属性值上语义相近的情况
10.可区分良表示
同一等价类中的敏感属性至少有l个可区分的取值
11.顺序合成性质、平行合成性质
一个算法序列同时作用在一个数据集上时;多个算法序列分别作用在一个数据集上多个不同子集上时
12.控制隐私预算的目的
如果在一个较低隐私预算参数的情况下, 攻击者对一个数据集进行了多次查询, 那么根据顺序合成性质, 攻击者实际上获得的隐私预算就相当于获得了多次查询的隐私预算的和, 而这就破坏了原本设定的隐私预算,所以需要控制隐私预算的上限。
13.变换不变性
满足差分隐私的算法经过后处理之后仍然满足差分隐私
14.中凸性
如果有2个不同的差分隐私算法, 都提供了足够的不确定性来保护隐私, 那么可以通过选择任意的算法来应用到数据上实现对数据的隐私保护, 只要选择的算法和数据是独立的
15.曼哈顿距离
两个点在标准坐标系上的绝对轴距综合。这里的曼哈顿距离就相当于对称差值,其度量了修改一个元组时查询结果的最大变化
16.全局敏感度(与数据集无关,只由查询函数本身决定)
控制噪声的重要参数。定义为查询函数f作用于任意两个相邻数据集得到的查询结果的曼哈顿距离
17.局部敏感度(由查询函数和给定的数据集共同决定)
定义为查询函数f作用于给定两个相邻数据集得到的查询结果的曼哈顿距离
缺陷:局部敏感度不满足差分隐私的要求,因为噪声大小本身可能会揭示数据库信息
18.平滑上界、平滑敏感度(为了弥补局部敏感度的缺陷而提出)
19.拉普拉斯机制
在查询结果上加入一个满足拉普拉斯分布的噪声来实现差分隐私保护,所加入的拉普拉斯噪声的均值要求为 0,这样输出的才是无偏估计
20.指数机制
对于任意一个可用性函数q和一个差分隐私预算 , 随机算法 M 以正比于的概率输出一个o作为结果
21.SSE、MSE、RMSE
和方差、均方误差、均方根误差
22.隐私预算表达式
23.研究现状
(1)差分隐私虽然现在已经被用于数据挖掘,推荐系统等领域,但是差分隐私对于挖掘数据保护后,还能对数据分析者提供多少可用信息目前还没有一个合理通用的度量方法
(2)差分隐私与机器学习的结合将是未来的一个研究热点
(3)在差分隐私和机器学习中,主要有以下问题需要解决
(a)因为传统机器学习方法不能满足差分隐私的需求,需要解决样本数据集中缺失数据的问题
(b)医疗数据集中, 很多体征数据只是暂时的,而且对于数据的扰动很有可能使数据失去重要的信息, 因此需要有应对这种类型数据的差分隐私模型
(c)隐私是否能在不牺牲机器学习模型可用性的条件下实现
(d)在正则化的机器学习模型中, 差分隐私是否可以与正则化的想法兼容