摘要
针对面向聚类应用的隐私保护数据发布问题,引入邻域相关性概念,提出了一种基于邻域相关性的数据扰动算法NCDP,分析每个数据点邻域中与其邻域亲密的所有点以及邻域的平衡性,在不平衡情况下除去亲密集中可能的局部噪声数据点,向每个邻域亲密点进行一定长度的平移,得到扰动后的数据点.理论分析表明,扰动后的数据点不仅实现了对原始数值的保护,而且扰动前后数据点的邻域亲密点仍然维持亲密关系,从而保持了邻域的稳定性.实验采用k-means和DBSCAN聚类算法对扰动前后的数据进行聚类,并且与其他扰动算法进行了分析对比.实验结果表明,算法NCDP扰动前后的数据聚类结果有较高的相似度,可以较好地兼顾保护数据隐私与维持聚类可用性.
针对面向聚类应用的隐私保护数据发布问题,引入邻域相关性概念,提出了一种基于邻域相关性的数据扰动算法NCDP,分析每个数据点邻域中与其邻域亲密的所有点以及邻域的平衡性,在不平衡情况下除去亲密集中可能的局部噪声数据点,向每个邻域亲密点进行一定长度的平移,得到扰动后的数据点.理论分析表明,扰动后的数据点不仅实现了对原始数值的保护,而且扰动前后数据点的邻域亲密点仍然维持亲密关系,从而保持了邻域的稳定性.实验采用k-means和DBSCAN聚类算法对扰动前后的数据进行聚类,并且与其他扰动算法进行了分析对比.实验结果表明,算法NCDP扰动前后的数据聚类结果有较高的相似度,可以较好地兼顾保护数据隐私与维持聚类可用性.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S3期79-85,共7页
Journal of Computer Research and Development
基金
国家自然科学基金项目(61003057
60973023)
关键词
隐私保护数据发布
聚类分析
数据扰动
邻域相关性
邻域亲密
数据平移
privacy-preserving data publishing
cluster analysis
data perturbation
neighborhood correlation
neighborhood intimate
data shifting