基于OLH,的效用优化本地差分隐私机制*

时间:2023-08-20 12:55:02 来源:网友投稿

贺星宇, 朱友文,2,3, 张 跃

1. 南京航空航天大学 计算机科学与技术学院, 南京 211106

2. 桂林电子科技大学 广西密码学与信息安全重点实验室, 桂林 541004

3. 广西师范大学 广西多源信息挖掘与安全重点实验室, 桂林 541004

近年来, 随着信息技术和机器学习的普及应用, 人们的各种信息(如行为、喜好等) 被各个公司、组织或团体收集, 相关研究人员不断探寻数据的深层规律和内在价值. 数据可以帮助我们对当前世界产生更加清晰的认识, 做出更加合理的决策, 对商业公司、研究机构和政府部门是极为重要的资源. 然而, 这些信息中包含大量用户有意或无意泄漏的个人隐私, 这些隐私很容易随着数据的收集、发布、使用而泄漏. 这些隐私泄漏风险不仅损害用户的利益, 也会降低用户共享数据的意图, 因此应用于数据收集过程中的隐私保护技术已成为学术界亟待解决的问题.

当前, 隐私保护技术包括安全多方计算[1]、同态加密[2]、数据匿名[3]和差分隐私机制[4,5]等. 差分隐私(differential privacy, DP) 能够对隐私保护效果和执行效率取得较好的平衡, 已逐渐成为学术界研究的热点方向. 本地差分隐私(local differential privacy, LDP)[6]是差分隐私的重要分支, 它去除了传统差分隐私中对可信第三方的需求, 增强了模型的实用性. 目前, LDP 模型在工业界得到了广泛应用[7,8], 比如谷歌、苹果、华为、阿里等公司已将本地差分隐私技术应用于Chrome、iOS、华为终端云和DataTrust等产品. GRR (generalized randomized response)[9]和SUE (symmetric unary encoding)[10]是目前常用的两种本地差分隐私协议, 但当原始数据定义域很大时它们都有一些不足: GRR 协议的数据效用将急剧下降而SUE 协议的通信代价将急剧上升. 在这种情况下, OLH (optimized local hashing)[10]协议在拥有较高估计结果数据效用时拥有很低的通信代价, 是原始数据取值范围很大时的最优协议之一.

本地差分隐私模型中, 所有数据都以相同方式进行扰动, 很容易造成一部分数据保护力度不足, 或是另一部分数据受到过度保护, 从而降低数据效用. 因此Murakami 等人提出了效用优化本地差分隐私(utility-optimized local differential privacy, ULDP) 模型[11], 这是本地差分隐私模型的一个变型, 根据原始数据的敏感程度采用不同的扰动策略, 可以在保证敏感数据隐私安全的情况下提升数据效用. 但现有的ULDP 协议仅仅基于GRR 和SUE 这两个协议提出了uRR (utility-optimized randomized response)协议和uRAP (utility-optimized randomized aggregatable privacy-preserving ordinal response) 协议.与GRR 和SUE 相似, 当原始数据定义域很大时uRR 的数据效用很低; uRAP 的效用较高, 但通信代价很大.

针对原始数据定义域很大时现有的ULDP 协议无法兼顾通信代价和数据效用这一不足, 本文基于OLH 协议提出了符合ULDP 模型的uOLH (utility-optimized OLH) 协议, 该协议在原始数据定义域很大时可以同时具有低通信代价以及高数据效用. 这是本文的第一项工作.

之后, 对用户的个性化隐私保护需求进行考虑. 对于不同的用户, 即使他们拥有相同的原始数据, 他们对隐私保护力度也会具有不同的需求. 例如在统计疾病情况时, 一名即将比赛的运动员显然更不想让别人得知自己得过骨折.

但目前关于个性化差分隐私的工作都有着各自的使用限制. 现有的部分个性化差分隐私协议应用在位置隐私保护模型中[12,13],难以迁移至频率估计协议. Gedik 等人设计的具有k-匿名性的个性化协议[14]和马苏杭等人设计的应用于高维数据发布的个性化协议[15]均依赖于中心服务器实现个性化隐私, 因此用户无法自由选择隐私级别. Wang 等人提出的基于布隆过滤器的协议[16]和Chen 提出的私有空间数据聚合协议[17]只能输出单一结果, 难以服务于不同可信度的数据使用者. Nie 等人提出一种用户可自由选择隐私预算的模型[18], 但该模型只包含一元编码协议, 面对原始数据定义域很大的数据时通信开销难以承受.

针对用户的个性化隐私保护需求, 本文基于uOLH 协议提出了一种用户可以自由选择隐私级别, 控制自己的隐私保护力度, 并可为多种可信度的数据使用者服务的协议uOLH-DWC (utility-optimized OLH with data weighted combination). 该协议中的DWC 机制可对不同隐私级别估计值进行优化组合, 最小化估计频率误差. 这是本文的第二项工作.

本文的主要贡献如下:

(1) 本文基于OLH 协议提出了符合ULDP 模型的uOLH 协议, 证明了uOLH 协议满足ULDP 模型, 并计算了频率估计结果的理论方差. 该协议在原始数据定义域很大时可同时具有低通信代价和高数据效用.

(2) 本文考虑了用户的个性化隐私保护需求, 设计了不同隐私级别估计值的优化组合机制DWC. 将其与uOLH 协议相结合, 提出了uOLH-DWC 协议. 该协议在保证用户可以自由选择隐私预算的前提下可将多个隐私级别的估计结果加权组合, 最小化估计结果误差, 可输出多个隐私级别的频率估计结果.

(3) 本文在真实数据集与合成数据集上分别进行了实验, 从实验角度验证了当原始数据定义域很大时, uOLH 协议拥有与uRR 协议相似的低通信代价和与uRAP 协议相似的高数据效用; uOLHDWC 协议在不同隐私级别下均可以提高频率估计的数据效用.

本文结构如下: 第2 节介绍一些基础概念并给出uOLH 协议的模型定义; 第3 节给出uOLH 协议的具体内容, 对该协议的性质进行了理论证明; 第4 节中考虑了用户不同的个性化隐私需求, 基于uOLH 协议提出了uOLH-DWS 协议; 第5 节中在真实数据集和模拟数据集上进行了实验, 验证了上述方案的有效性; 第6 节为总结和展望.

2.1 符号描述

本文中的符号描述可见表1.

表1 符号描述Table 1 Notations

2.2 预备知识

2.2.1 本地差分隐私

在本地差分隐私模型中, 用户在本地对自己的原始数据进行扰动, 并将扰动数据上传至服务器. 服务器对扰动数据进行统计分析, 估计出所有原始数据的频率分布结果. 在上述过程中原始数据不会脱离用户的控制范围, 仅存在于用户本地, 因此避免了原始数据流经信道和服务器时所产生的隐私风险. 本地差分隐私的形式化定义如下:

定义1 (ϵ-LDP[6]) 给定ϵ >0. 对于输入域为X、输出域为Y的数据扰动算法f:X →Y, 该数据扰动算法f满足ϵ-LDP 定义当且仅当对于任意输入x1,x2∈X得到任意输出y ∈Y的概率满足式(1):

可以看出, 本地差分隐私对任意两个不同输入值的输出结果相似性进行了约束, 这一限制使得具有任意背景知识的攻击者都很难从输出结果推断出原始数据, 极大地保护了用户的隐私安全. 定义中的ϵ被称作隐私预算, 这个值具体地表明了隐私保护力度大小. 随着隐私预算的增长, 隐私保护力度增强, 但从扰动数据估计出的频率分布效用会降低. 在实际使用中要兼顾隐私保护力度和数据效用, 选择适当的隐私预算.

2.2.2 效用优化本地差分隐私

在本地差分隐私模型中, 所有的数据都是以相同的方式进行扰动的, 这忽视了数据之间的敏感性差异.例如在调查学生考试作弊情况时, “曾作弊” 这一回答比“未曾作弊” 更为敏感; 在调查用户所患疾病时,“艾滋”、“癌症” 这些回答比“感冒” 更为敏感. 如果对这些数据都以相同的方式进行保护, 很容易使得对敏感数据的保护力度过低, 产生额外隐私风险; 或对非敏感数据过度保护, 降低最终估计结果数据效用.

为解决上述问题, ULDP 这一模型被提出. 在ULDP 模型中, 数据的处理流程与LDP 一致, 但在数据扰动过程中有差异. 原始数据集合被划分为敏感数据XS和非敏感数据XN两部分, 扰动结果集合被划分为保护数据YP和可逆数据YI两部分. ULDP 的形式化定义如下:

定义2 ((XS,YP,ϵ)-ULDP[11]) 给定XS ∈X,YP ∈Y,ϵ >0. 对于输入域为X, 输出域为Y的数据扰动算法f:X →Y, 该数据扰动算法f满足(XS,YP,ϵ)-ULDP 定义当且仅当满足以下两条性质:

(1) 对于任意y ∈YI, 有且仅有一个x ∈XN满足式(2):

且对于任意x′/=x, 均满足式(3):

(2) 对于任意x1,x2∈X, 任意y ∈YP, 均满足式(4):

2.3 模型定义

该协议系统模型可见图1, 协议中参与方有三方: 用户、服务器和数据使用者. 有n个用户, 每人持有一个原始数据. 原始数据集合记为X, 该集合维度大小为d, 原始数据集合被划分为敏感数据集合XS和非敏感数据集合XN两部分, 二者不相交, 即d=|XS|+|XN|. 每个用户根据自身情况和行为特征, 选择一个隐私级别, 根据对应的隐私预算在本地将自己的原始数据编码并扰动, 将扰动结果发送至服务器. 服务器对所有用户的扰动数据聚合并进行统计分析, 估计出所有原始数据的频率分布结果. 之后, 服务器将这些频率估计结果发送至对应的数据使用者.

图1 系统模型Figure 1 System model

在第4 节中, 本文对此模型进行扩展, 使其可满足用户的个性化隐私保护需求, 允许用户在发布的隐私级别中任意挑选, 自行决定隐私保护力度.

2.4 敌手模型

本文在“半诚实模型” (又称诚实且好奇模型、被动攻击者模型) 下进行协议的构造. 该模型假定所有参与者都会遵守协议约束, 按照协议步骤执行, 但参与者会根据自身获取的信息尽可能地推断隐私数据.用户会将自己的真实数据编码扰动并提交, 不会上传伪造的数据; 收集者(服务器) 会严格遵循协议步骤对数据进行处理, 但会尝试从获取的扰动数据中推断用户的隐私信息; 数据使用者不会将获得的估计结果分发给其他角色, 不会与服务器共谋. 我们对攻击者的背景知识不做限制, 可以认为攻击者掌握了关于数据的任意范围背景知识.

2.5 效用评估

本文将采用均方误差(mean square error, MSE) 对协议和实验的效用进行评估. 均方误差的形式化定义如式(5):

其中c(i) 代表真实频率, ˆc(i) 代表估计频率.

在进行理论分析时, 上文中的MSE(ˆc) 很难得到一个确切值, 因此通常如式(6) 所示使用Var(ˆc(i)) 计算均方误差.

3.1 方案内容

使用本地哈希机制的LDP 协议目前主要有两种: BLH (binary local hashing) 和OLH (optimized local hashing), 它们之间的区别在于哈希函数的值域大小. BLH 中哈希结果只会为0 或1, 这虽然极大降低了通信代价, 但将原始数据哈希至1 个比特这一步骤一方面产生了大量哈希碰撞, 另一方面造成了很多信息损失, 使得最终统计结果的数据效用严重降低. 针对这一点, 有研究者提出了OLH 协议, 在该协议中扩大了哈希函数的输出范围, 使其可输出g个值, 并证明了当g=eϵ+1 时, 该协议可以取得数据效用最优的估计结果. 在本小节中我们基于OLH 协议, 提出一种符合ULDP 模型的uOLH 协议.

设置一个哈希函数集合H, 该集合里的所有哈希函数定义域均为d. 当输入值为敏感数据时被散列至g个值; 当输入值为非敏感数据时, 哈希函数直接输出原始值, 即不对输入值做任何操作, 直接保留非敏感数据. 函数集合H 中的函数数量以|H| 表示.

不失一般性, 假定非敏感数据不会为{1,2,··· ,g}中的任意一个数, 即XN ∩{1,2,··· ,g}=Ø. 敏感数据的哈希结果记为yp={1,2,··· ,g}, 非敏感数据的哈希结果记为yi=XN. 此协议中保护数据集合YP为{<H,y >|H ∈H,y ∈yp}, 可逆数据集合YI为{<H,y >|H ∈H,y ∈yi}. 若用户在扰动步骤生成的结果b′分别属于yp或yi, 则代表他们向服务器发送的扰动数据<H,b′>分别属于保护数据集合YP或可逆数据集合YI.

uOLH 方案共分为3 个步骤: 编码、扰动、聚合. 各步骤的详细内容如下:

步骤一 编码

假定有n个用户, 用户手中的原始数据记为x, 为了减少后续的通信代价, 采用哈希函数对其进行编码. 用户从H 中随机选择一个函数H对x进行哈希操作, 得到编码结果b, 即b=H(x). 根据上述对哈希函数的设置, 可以看出当x为敏感数据时, 它将被编码为{1,2,··· ,g}中的一个数据; 当x为非敏感数据时, 它的编码结果为它本身.

步骤二 扰动

用户将自己的原始数据编码后, 在本地利用随机扰动机制对其进行扰动, 扰动结果记为b′. 根据用户原始数据的敏感度差异, 需要选用不同的扰动方式对其进行处理.

如果用户的原始数据x为敏感数据, 扰动方式如式(7):

如果用户的原始数据x为非敏感数据, 扰动方式如式(8):

步骤三 聚合

在这一阶段服务器收集并聚合用户发送的扰动数据, 聚合后的集合记为G, 根据用户数量可知G中共有n条数据. 之后对扰动数据进行统计分析, 估计出每个原始数据的频率. 首先要介绍两个在频率估计时的辅助函数. 第一个辅助函数是B(x,y) 函数, 它的第一个参数是原始数据x, 第二个参数是扰动数据y(该扰动数据的格式是<H,b′>). 它的作用是判断某个扰动数据是否和某个原始数据之间存在关联. 函数具体内容可见式(9):

第二个辅助函数是BYI(y) 函数, 它的参数是扰动数据y. 它的作用是判断某个扰动数据是否是可逆数据. 函数具体内容可见式(10):

如果原始数据x是敏感数据, 根据式(11) 对其进行频率估计:

如果原始数据x是非敏感数据, 根据式(12) 对其进行频率估计:

3.2 理论分析

本小节将给出uOLH 的一些相关性质, 并进行理论证明. 本文在定理和证明过程中将保留g, 使得这些性质便于推广.

定理1uOLH 的扰动过程符合ULDP 模型.

对于任意x1∈XS,x2∈XN, 若要输出相同结果eϵ, 该结果只能属于保护数据YP, 最终输出相同结果的概率满足式(14):

对于任意x1,x2∈XN, 若要输出相同结果, 该结果只能属于保护数据YP, 最终输出相同结果的概率满足式(15):

因此满足ULDP 定义中式(4) 所规定的第二条性质.

综上所述, uOLH 的扰动过程符合ULDP 模型, uOLH 为ULDP 协议.

定理2uOLH 协议的通信代价为O(log|H|+log(g+|XN|)).

证明:在uOLH 协议中用户向服务器发送的扰动数据为<H,b′>, 该数据分为两部分. 第一部分H是用户选用的哈希函数, 可以通过事先约定的方法将每一个哈希函数映射至1 到|H| 中的一个数, 这一部分的通信代价为O(log|H|). 第二部分b′是用户经过编码扰动后得到的扰动数据, 这部分的通信代价为O(log(g+|XN|)). 综上, 整体的通信代价为(log|H|+log(g+|XN|)).

由uRR 协议和uRAP 协议的定义可知, 它们的通信代价分别是O(log(|XS|+|XN|)) 和O(|XS|+|XN|). 可以看出当原始数据定义域很大时, uOLH 和uRR 的通信代价接近, 而uRAP 的通信代价显著大于其余两个协议. 在5.2.1 节中会对各协议的通信代价进行实验对比.

定理3uOLH 频率估计得到的结果为无偏估计.

证明:对于原始数据x, 它的真实频率记为c(x). 非敏感数据的真实频率总和记为c(XN).

若x为敏感数据, 由扰动过程可知:

结合式(16)、式(17), 可知它的频率估计步骤满足式(18):

若x为非敏感数据, 由扰动过程可知:

结合式(19), 可知它的频率估计步骤满足式(20):

综上所述, 对于任意原始数据x, E[ˆc(x)]=c(x).

定理4 在uOLH 协议中, 估计频率ˆc(x) 的方差如式(21) 所示:

证明: 若原始数据x为敏感数据, 则ˆc(x) 的方差计算过程如式(22) 所示.

若原始数据x为非敏感数据, 则ˆc(x) 的方差计算过程如式(23) 所示:

本节将考虑协议的个性化问题. 基于uOLH, 我们提出了允许用户自由选择隐私预算的uOLH-DWC协议, 并对估计结果进行优化. 下面是进行了个性化扩展的模型定义.

4.1 模型定义

服务器在事前将原始数据集合X划分为敏感数据集合XS和非敏感数据集合XN两部分; 设置h个隐私级别, 每个隐私级别对应一个隐私预算.

有h个隐私级别, 每个隐私级别对应着一个隐私预算, 例如隐私级别t对应着隐私预算ϵt. 随着隐私级别增加, 隐私预算也会变大. 对于任意两个隐私级别i,j(i <j),ϵi必定小于ϵj. 原始数据的划分和隐私级别的设置对所有用户公开. 隐私级别示意图可见图2.

图2 隐私级别Figure 2 Privacy level

有n个用户, 每人持有一个原始数据. 用户自由选择一个隐私级别, 根据对应的隐私预算将自己的原始数据编码并扰动, 之后将扰动数据<H,b′>和自己选择的隐私级别一起发送给服务器.

数据使用者根据自身可信程度, 也被分配一个隐私级别. 这是为了对数据使用者的访问范围作出限制,若其隐私级别为t, 则只能获取到隐私级别1 到t的扰动数据生成的频率估计结果.

服务器按照隐私级别将所有的用户扰动数据聚合, 同一隐私级别下的数据聚合至一个集合中. 之后在每个集合下独立地进行频率估计, 得到h个频率估计结果. 服务器通过数据加权组合机制(DWC) 将这些频率结果加权组合, 为每个隐私级别生成一个频率估计结果, 并将这些频率估计结果发送至对应的数据使用者.

4.2 DWC 机制

不同隐私级别下的数据隐私预算不同, 因此很难一起进行频率估计, 只能在每个隐私级别下单独进行频率估计. 从隐私预算的设置可以看出, 随着隐私级别的扩大, 该级别对应的频率估计结果会更加精确, 这也与数据使用者隐私级别的设计思路相吻合, 隐私级别越高的数据使用者可以获取更精确的估计结果. 对于一个隐私级别为t的数据使用者, 他可以获得t个频率估计结果, 为了取得更高的数据效用他必然会选择隐私级别t对应的频率估计结果.

但在这种情况一个隐私级别t的数据使用者只使用了隐私级别t下的扰动数据, 前t-1 个隐私级别中的数据没有被利用, 这浪费了很大一部分数据, 也会降低数据使用者得到的数据效用.

因此本文提出数据加权组合(data weighted combination, DWC) 机制, 利用隐私级别为1 至t-1的扰动数据提高最终的数据效用.

为了尽可能多地利用这些数据, 我们将这t个频率分布结果进行加权组合, 得到最终的频率分布结果.

式(24) 中ωi为权重, DWC 的目标是找到合适的权重, 使得~ct(x) 的MSE 最小.

引理1 加权组合得到的最终频率分布结果~ct(x) 是真实频率c(x) 的无偏估计.

证明: 已知每个隐私级别下得到的频率估计结果 ˆci(x) 都是真实频率c(x) 的无偏估计, 即E[ˆci(x)]=c(x). 因此~ct(x) 满足式(25):

现在所要解决的问题, 就是如何选择权重, 使得最终的MSE 最小, 这是一个在约束条件下求最值的问题, 问题形式化定义如式(27) 所示:

证明: 本文采用拉格朗日乘数法来解决这一问题, 首先构造拉格朗日函数L.

之后对函数的每个变量求偏导, 使其等于0, 可以得到式(29):

由此得到了使MSE(~ct) 最小的权重. 易证Vi为一正数, 因此对于任意i(i= 1,2,···,t) 均满足0<ωi <1, 满足权重要求. 通过权重的构造过程可以得知, 若将前t个频率估计结果加权组合, 所得频率估计结果的数据效用必定不小于前t个频率估计结果中的任何一个. 在DWC 机制中计算Vi时需要使用c(XS) 与c(XN), 这两个参数分别是全体敏感数据的频率总和与全体非敏感数据的频率总和, 我们可使用估计值对其进行近似替代.

4.3 uOLH-DWC 协议

在找到了最佳权重后, DWC 机制就构建完成. 将其与uOLH 协议结合, 即为符合个性化拓展模型的的uOLH-DWC 协议.

uOLH-DWC 协议也分为三个步骤: 编码、扰动和聚合. 步骤一编码和步骤二聚合的内容与3.1 节中uOLH 协议的步骤一致, 只是用户需要在步骤一前先选择一个隐私级别, 拿到对应的隐私预算. 用户在执行步骤二后, 除了所选的哈希函数和扰动数据<H,b′>外, 还需要把选择的隐私级别发送给服务器.

可以注意到, 与uOLH 协议相比, uOLH-DWC 协议中会向服务器发送隐私级别这一信息, 即uOLHDWC 协议的通信代价为O(logh+log|H|+log(g+|XN|)). 隐私级别的数量通常不会太大, 因此对通信代价不会造成太大影响. 本文对现有ULDP 协议的通信代价进行了总结, 具体内容可见表2.

表2 现有ULDP 协议通信代价Table 2 Communication cost of existing ULDP protocol

5.1 实验设置

本文在两个数据集上进行了实验. 第一个数据集为“药物数据集”[19], 这是一个真实数据集, 包含了用户的药物购买情况, 共有215 063 条数据, 原始数据集合大小为3672. 第二个数据集为“模拟数据集”,这是按照正态分布生成的人工数据集, 共有95 482 条数据, 原始数据集合大小为1000. 在实验中本文令原始数据中50% 的数据为敏感数据, uOLH 中哈希函数数量为512 个.

在实验环节, 为避免随机性影响实验结果, 本文中每一项实验重复进行20 次, 并取平均值作为结果.

5.2 实验结果

5.2.1 通信代价实验评估

该节实验总结了uRR、uRAP、uOLH 和uOLH-DWC 在实验中的通信代价(计算uOLH 通信代价时隐私预算视为2), 具体数值见表3.

表3 不同协议的通信代价对比Table 3 Communication cost comparison of different protocols

可以看出, uRAP 的通信代价显著大于其他协议, 在药物数据集中是其他协议的153 到306 倍, 在模拟数据集中是其他协议的45 到100 倍. 而uRR 与uOLH 的通信代价接近, 远远小于uRAP. uOLHDWC 因为要额外传输用户的隐私级别, 因此通信代价比uOLH 稍高, 但仍然远小于uRAP, 与uRR 通信代价相差不大. 这从实验角度证明了uOLH 和uOLH-DWC 具有低通信量的优势.

5.2.2 uOLH 数据效用实验评估

该节实验对比了uRR、uRAP、uOLH 在不同隐私预算下的性能表现, 结果见图3. 其中图3(a) 为药物数据集的结果, 图3(b) 为模拟数据集的结果.

图3 不同ULDP 协议的MSE 对比Figure 3 MSE comparison of different ULDP protocols

首先可以看出, 随着隐私预算的扩大, 三个协议的误差都在缩小, 这与预期相符. uRR 的数据效用很差, 要明显低于另外两个协议, 这是因为实验使用的两个数据集原始数据定义域都很大, uRR 已不能适应这种情况. 而uOLH 协议有着和uRAP 协议接近的性能, 在隐私预算较高时甚至优于uRAP 协议. 结合上一节实验可知, 原始数据定义域很大时uRAP 的通信代价是uOLH 的45 到183 倍, 因此uOLH 协议在通信代价方面和数据效用方面都要优于现有的ULDP 协议.

5.2.3 uOLH-DWC 数据效用实验评估

该节实验测试了uOLH-DWC 协议对于估计结果的优化效果, 结果见图4. 其中图4(a) 为药物数据集的结果, 图4(b) 为模拟数据集的结果. 本文共设置了10 个隐私级别, 隐私级别1 的隐私预算为0.2, 隐私级别10 的隐私预算为2, 相邻隐私级别隐私预算间隔0.2. 图4 中“uOLH” 标签表示只进行隐私级别的划分, 不采用数据加权组合对估计值进行优化的结果, “uOLH-DWC” 标签表示uOLH-DWC 协议的结果.

图4 是否使用DWS 机制的MSE 对比Figure 4 MSE comparison of whether to use the DWS mechanism

可以看出, 对于隐私级别1 的数据使用者, 是否使用uOLH-DWC 协议对结果没有任何影响, 这是因为隐私级别1 的数据使用者无法获取其他级别的估计结果, 因此无法进行加权组合. 从实验结果可以看出, 其他的隐私级别在使用uOLH-DWC 协议后都缩减了估计结果的误差, 提高了数据效用. 这是因为经过加权组合后, 数据使用者相当于从其他的隐私级别获取到了更多的信息, 因此减少了估计误差.

本文针对现有ULDP 协议在原始数据定义域很大时, 无法兼顾通信代价和数据效用的不足, 提出了一种符合ULDP 模型的uOLH 协议, 从理论和实验的结果表明, 与现有协议相比该协议可在原始数据定义域很大时同时取得低通信代价与高数据效用.

进一步, 本文考虑了用户的个性化隐私需求, 提出了uOLH-DWC 协议, 该协议允许用户自由选择隐私预算, 并产生多个隐私级别的频率估计结果以服务于不同可信度的数据使用者. 从理论和实验的结果表明, 我们所提出的uOLH-DWC 协议可最小化输出结果误差, 提高数据效用.

我们未来的研究目标是如何在个性化模型下进一步提高数据效用.

猜你喜欢敏感数据原始数据效用GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATIONChina Report Asean(2022年8期)2022-09-02干扰条件下可检索数字版权管理环境敏感数据的加密方法上海电机学院学报(2022年4期)2022-08-29受特定变化趋势限制的传感器数据处理方法研究物联网技术(2020年12期)2021-01-27实现虚拟机敏感数据识别网络安全和信息化(2020年6期)2020-06-20小学美术课堂板书的四种效用少儿美术(2019年7期)2019-12-14基于透明加密的水下通信网络敏感数据防泄露方法周口师范学院学报(2019年5期)2019-10-16基于4A平台的数据安全管控体系的设计与实现网络安全和信息化(2018年12期)2018-12-24全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶汽车零部件(2017年4期)2017-07-12纳米硫酸钡及其对聚合物的改性效用中国塑料(2016年9期)2016-06-13几种常见叶面肥在大蒜田效用试验现代农业(2015年5期)2015-02-28

推荐访问:效用 隐私 机制