随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息...随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息损失,因此如何在满足K-匿名的前提下,尽可能保证数据可用性、减少信息损失量则是一个值得研究的问题.对于此,针对数值型数据提出了一种基于迭代二分聚类的K-匿名算法KABIBC(K-anonymous algorithm based on iterative binary clustering)实现K-匿名.首先定义了组内距离之和WGSD(within-group sum of distance),并将数据表中的所有元组视为一个聚类,而后采用迭代的策略对其进行二分聚类,对于得到的子聚类采用同样的方式递归进行处理,并且在二分聚类时基于最小化信息损失量的原则合理调整2个子聚类的元组分配,直到得到满足K-匿名要求的最小子聚类,从而保证信息损失量趋于最优.给出了理论和实验分析,表明此机制有效减少了信息损失,同时有较高的运行效率.展开更多
文摘随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息损失,因此如何在满足K-匿名的前提下,尽可能保证数据可用性、减少信息损失量则是一个值得研究的问题.对于此,针对数值型数据提出了一种基于迭代二分聚类的K-匿名算法KABIBC(K-anonymous algorithm based on iterative binary clustering)实现K-匿名.首先定义了组内距离之和WGSD(within-group sum of distance),并将数据表中的所有元组视为一个聚类,而后采用迭代的策略对其进行二分聚类,对于得到的子聚类采用同样的方式递归进行处理,并且在二分聚类时基于最小化信息损失量的原则合理调整2个子聚类的元组分配,直到得到满足K-匿名要求的最小子聚类,从而保证信息损失量趋于最优.给出了理论和实验分析,表明此机制有效减少了信息损失,同时有较高的运行效率.
基金Foundation item:Supported by both the teaching and Research Award Fund for Outstanding Yong Teachers in Higher Education Istitutions of MOE and the National Natural Science Foundation(19801023)