基于本地差分隐私的用户数据收集与分析算法已延伸到了键值数据类型.然而,该类数据值域大小与稀疏性以及本地扰动机制直接制约着收集与分析精度.针对现有机制难以有效应对该类数据收集的不足,提出了一种基于直方图技术的有效收集与分析...基于本地差分隐私的用户数据收集与分析算法已延伸到了键值数据类型.然而,该类数据值域大小与稀疏性以及本地扰动机制直接制约着收集与分析精度.针对现有机制难以有效应对该类数据收集的不足,提出了一种基于直方图技术的有效收集与分析算法HISKV(histogram-based key-value data collection),该算法首先结合用户分组策略寻找最优截断长度,利用最优截断抽样技术处理值域过大与稀疏性问题,然后结合截断结果随机抽取单个键值对进行离散化处理.针对离散化结果,设计一种高效的本地扰动机制LRR_KV(local random response for key-value data),该机制结合具体的键分配不同的本地扰动概率.每个用户利用LRR_KV机制扰动离散化的键值对之后发送给收集者,收集者结合用户的报告值对每个键的频率及其值所对应的均值进行估计.理论分析了HISKV算法的无偏性、所产生的方差以及最大偏差,并与现有的键值收集算法在真实与合成的数据集上进行比较,实验结果表明HISKV算法优于同类算法.展开更多
文摘基于本地差分隐私的用户数据收集与分析算法已延伸到了键值数据类型.然而,该类数据值域大小与稀疏性以及本地扰动机制直接制约着收集与分析精度.针对现有机制难以有效应对该类数据收集的不足,提出了一种基于直方图技术的有效收集与分析算法HISKV(histogram-based key-value data collection),该算法首先结合用户分组策略寻找最优截断长度,利用最优截断抽样技术处理值域过大与稀疏性问题,然后结合截断结果随机抽取单个键值对进行离散化处理.针对离散化结果,设计一种高效的本地扰动机制LRR_KV(local random response for key-value data),该机制结合具体的键分配不同的本地扰动概率.每个用户利用LRR_KV机制扰动离散化的键值对之后发送给收集者,收集者结合用户的报告值对每个键的频率及其值所对应的均值进行估计.理论分析了HISKV算法的无偏性、所产生的方差以及最大偏差,并与现有的键值收集算法在真实与合成的数据集上进行比较,实验结果表明HISKV算法优于同类算法.