期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
基于物联网的电力核心用户数据匿名化系统
1
作者 陈华锋 《信息技术》 2023年第3期150-154,160,共6页
电力核心用户匿名化处理过程中用于筛选属性特征的数据维度较高,且排序混乱,导致匿名化数据隐私性和可用性下降,提出基于物联网的电力核心用户数据匿名化系统。设计物联网数据采集器,根据物联网技术特性规划采集器控制板CPU电路,采集用... 电力核心用户匿名化处理过程中用于筛选属性特征的数据维度较高,且排序混乱,导致匿名化数据隐私性和可用性下降,提出基于物联网的电力核心用户数据匿名化系统。设计物联网数据采集器,根据物联网技术特性规划采集器控制板CPU电路,采集用户数据;通过用户IP向量的聚类变化,重新排序特征值的熵,获得数据集降维数据,利用降维数据属性特征匿名表示用户数据。实验结果表明,设计系统输出数据的记录链接和KL散度低于两组常规系统,降低了匿名数据被攻击概率和失真程度,提高了匿名化数据隐私性和可用性。 展开更多
关键词 物联网技术 电力用户 数据匿名 隐私性 可用性
下载PDF
一种基于聚类的数据匿名方法 被引量:49
2
作者 王智慧 许俭 +1 位作者 汪卫 施伯乐 《软件学报》 EI CSCD 北大核心 2010年第4期680-693,共14页
为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在... 为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失. 展开更多
关键词 数据匿名 准标识符 链接攻击 聚类 信息损失
下载PDF
一种基于Spark的大数据匿名化系统实现 被引量:7
3
作者 卞超轶 朱少敏 周涛 《电信科学》 2018年第4期156-161,共6页
分组匿名化框架是一类经典的数据匿名化技术,它通过构造匿名记录的组,使得同一组内的不同数据无法被识别区分,从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据,其数据敏感度更强,传统的数据匿名化系统... 分组匿名化框架是一类经典的数据匿名化技术,它通过构造匿名记录的组,使得同一组内的不同数据无法被识别区分,从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据,其数据敏感度更强,传统的数据匿名化系统已经无法满足电力行业大数据业务应用和安全防护的需要。基于此,设计并实现了一种基于Spark的新型大数据匿名化系统,提供对Hadoop平台上多种数据格式的支持,并有效提高对大数据的匿名化处理效率。 展开更多
关键词 数据匿名 隐私 电力行业 安全防护 SPARK
下载PDF
基于杂度增益与层次聚类的数据匿名方法 被引量:6
4
作者 熊平 朱天清 《计算机研究与发展》 EI CSCD 北大核心 2012年第7期1545-1552,共8页
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏... 数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性. 展开更多
关键词 隐私保护 数据匿名 准标识符 层次聚类 信息损失
下载PDF
基于局部聚类的数据匿名化算法 被引量:5
5
作者 焉凯 何贤芒 《计算机应用研究》 CSCD 北大核心 2012年第1期148-151,共4页
为提高匿名化后数据的可用性,给出了一种加权确定惩罚模型作为数据有用性的度量方法,提出了两种基于局部聚类的数据匿名化算法。通过真实数据实验评估,该算法能够很好地降低实现匿名保护时概化处理所带来的信息损失。
关键词 隐私保护 数据匿名 度量模型 聚类 信息损失 可用性
下载PDF
基于信息增益比例约束的数据匿名方法及其评估机制 被引量:2
6
作者 熊平 朱天清 顾霄 《计算机应用研究》 CSCD 北大核心 2014年第3期819-824,共6页
针对数据发布中的隐私泄露问题,分析了对数据集进行匿名保护需要满足的条件,提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理,将数据集中的元组划分到若干个等价群中,然后概化每个等价群中的元组使其具... 针对数据发布中的隐私泄露问题,分析了对数据集进行匿名保护需要满足的条件,提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理,将数据集中的元组划分到若干个等价群中,然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中,以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并,可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨,提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明,该方法是有效可行的。 展开更多
关键词 数据匿名 凝聚层次聚类 信息增益 准标志符 数据发布
下载PDF
基于混合式子树算法的大数据匿名化 被引量:2
7
作者 孙炯宁 《南京理工大学学报》 EI CAS CSCD 北大核心 2015年第5期609-613,共5页
自顶而下具体化(TDS)和自底向上泛化(BUG)是子树匿名化的主要方法,但其并行能力不足,易导致在云数据处理中缺乏可扩展性。当TDS和BUG分开使用时,很难准确确定K匿名参数。针对这一问题,该文提出一种在大数据中进行有效数据匿名化的基于TD... 自顶而下具体化(TDS)和自底向上泛化(BUG)是子树匿名化的主要方法,但其并行能力不足,易导致在云数据处理中缺乏可扩展性。当TDS和BUG分开使用时,很难准确确定K匿名参数。针对这一问题,该文提出一种在大数据中进行有效数据匿名化的基于TDS和BUG的混合方法,设计了基于该混合方法的MapReduce模型,以提高云计算能力的可扩展性。实验表明,与现有方法相比,该混合法可以显著提高扩展性和子树匿名化的效率。 展开更多
关键词 数据 云计算 数据匿名 隐私保护 MAPREDUCE
下载PDF
面向缺失数据的数据匿名方法 被引量:5
8
作者 龚奇源 杨明 罗军舟 《软件学报》 EI CSCD 北大核心 2013年第12期2883-2896,共14页
在数据发布过程中,为了防止隐私泄露,需要对数据的准标识符属性进行匿名化,以降低链接攻击风险,实现对数据所有者敏感属性的匿名保护.现有数据匿名方法都建立在数据无缺失的假设基础上,在数据存在缺失的情况下会直接丢弃相关的记录,造... 在数据发布过程中,为了防止隐私泄露,需要对数据的准标识符属性进行匿名化,以降低链接攻击风险,实现对数据所有者敏感属性的匿名保护.现有数据匿名方法都建立在数据无缺失的假设基础上,在数据存在缺失的情况下会直接丢弃相关的记录,造成了匿名化前后数据特性不一致.针对缺失数据匿名方法进行研究,基于k-匿名模型提出面向缺失数据的数据匿名方法 KAIM(k-anonymity for incomplete mircrodata),在保留包含缺失记录的前提下,使在同一属性上缺失的记录尽量被分配到同一分组参与泛化.该方法将分组泛化前后的信息熵变化作为距离,基于改进的k-member算法对数据进行聚类分组,最后通过基于泛化层次的局部泛化算法对组内数据进行泛化.实际数据集的大量实验结果表明,KAIM造成信息缺损仅为现有算法的43.8%,可以最大程度地保障匿名化前后数据特性不变. 展开更多
关键词 数据匿名 缺失数据 聚类 K-匿名
下载PDF
面向关系-事务数据的数据匿名方法 被引量:4
9
作者 龚奇源 杨明 罗军舟 《软件学报》 EI CSCD 北大核心 2016年第11期2828-2842,共15页
在发布同时包含关系和事务属性的数据(简称为关系-事务数据)时,由于关系数据和事务数据均有可能受到链接攻击,需要同时匿名这两部分的数据.现有的数据匿名技术在匿名化关系-事务数据时会造成严重的数据缺损,无法保障数据可用性.针对此问... 在发布同时包含关系和事务属性的数据(简称为关系-事务数据)时,由于关系数据和事务数据均有可能受到链接攻击,需要同时匿名这两部分的数据.现有的数据匿名技术在匿名化关系-事务数据时会造成严重的数据缺损,无法保障数据可用性.针对此问题,提出了(k,l)-多样化模型,通过等价类上的l-多样化约束和事务数据上的k-匿名约束来保证用户隐私不被泄露.在此基础上,设计并实现了APA和PAA两种满足该模型的匿名算法,以不同的顺序对关系-事务数据进行匿名,并提出了相应的数据缺损评估方法.实际公开数据集上的实验结果表明,与现有的数据匿名技术相比,APA和PAA能够在保护用户隐私的前提下,以更低的数据缺损和更高的效率完成对关系-事务数据的匿名. 展开更多
关键词 数据匿名 隐私泄露 K-匿名 l-多样化 关系-事务数据
下载PDF
生物医学数据匿名化工具ARX研究及启示 被引量:1
10
作者 唐明坤 钱庆 +2 位作者 张丽鑫 周佳茵 吴思竹 《中华医学图书情报杂志》 CAS 2022年第2期19-29,共11页
ARX工具是一款由德国慕尼黑工业大学开发,具有高效的全域匿名化算法、丰富的隐私模型、数据效用评估方法和重识别风险分析功能,被许多研究者和隐私政策制定者推荐的开源生物医学数据匿名化工具。通过梳理ARX工具的发展历史和相关研究,将... ARX工具是一款由德国慕尼黑工业大学开发,具有高效的全域匿名化算法、丰富的隐私模型、数据效用评估方法和重识别风险分析功能,被许多研究者和隐私政策制定者推荐的开源生物医学数据匿名化工具。通过梳理ARX工具的发展历史和相关研究,将ARX工具的功能架构归纳为数据导入导出模块、数据处理模块、隐私模型模块及其他参数模块、匿名化方案探索模块、效用分析模块及风险分析模块5个部分,并以Adult数据集的匿名化为例梳理了ARX工具的工作流程,总结形成5个步骤。然后通过与其他匿名化工具的功能进行比较和分析,归纳了ARX工具的4个特点并总结了各模型和指标的原理和含义及ARX工具应用的局限性。最后结合我国数据共享的实际需求,针对性地提出了我国数据匿名化工具研发时需要重点关注的内容,对我国生物医学数据匿名化工具的研发具有一定的参考价值。 展开更多
关键词 数据共享 数据匿名 统计披露控制 ARX
下载PDF
一种集合型数据匿名化的部分删除策略
11
作者 许信辉 潘超 《计算机工程》 CAS CSCD 2013年第11期139-142,共4页
针对集合型数据发布下的隐私保护问题,提出一种多轮迭代式的部分删除策略。该策略不假设数据接收者的使用场景,也不限制关联规则的先验知识数目,在减少信息损失的同时,保护可挖掘的安全强关联规则,避免匿名化后数据中出现关于敏感信息... 针对集合型数据发布下的隐私保护问题,提出一种多轮迭代式的部分删除策略。该策略不假设数据接收者的使用场景,也不限制关联规则的先验知识数目,在减少信息损失的同时,保护可挖掘的安全强关联规则,避免匿名化后数据中出现关于敏感信息的强关联规则。实验结果表明,相比于经典的泛化和整体删除策略,该策略平均可减少30%左右的信息损失,并保持至少25%原有的安全强关联规则,体现了其优越性。 展开更多
关键词 数据匿名 部分删除 整体删除 泛化 集合型数据 信息损失
下载PDF
大数据时代数据匿名化的法律规制 被引量:4
12
作者 高颖 杜娟 《情报理论与实践》 CSSCI 北大核心 2021年第10期50-56,共7页
[目的/意义]数据匿名化是产生于数据流通环节、隐匿个人数据特征的技术规则,在将个人数据转化为数据资产的过程中面临着数据收集合法性缺失以及数据再次被识别的现实风险,此类风险可以通过对立法的完善来加以规避。[方法/过程]通过对域... [目的/意义]数据匿名化是产生于数据流通环节、隐匿个人数据特征的技术规则,在将个人数据转化为数据资产的过程中面临着数据收集合法性缺失以及数据再次被识别的现实风险,此类风险可以通过对立法的完善来加以规避。[方法/过程]通过对域外数据匿名化的立法经验与司法实践进行探究,分析我国数据匿名化发展现状与现实困境,提出规制数据匿名化风险的可行性建议。[结果/结论]建议我国在专门数据保护立法中以利益平衡为基础构建数据匿名化最低法律标准,在具体场景立法中以最低法律标准为指导作出数据匿名化的具体规定,并提供数据匿名化的事后法律救济以应对个人数据被再次识别所产生的法律风险。 展开更多
关键词 数据 数据匿名 法律规制 利益平衡 场景化
下载PDF
数据匿名化的法律规制 被引量:43
13
作者 王融 《信息通信技术》 2016年第4期38-44,共7页
数据匿名化是兼顾隐私保护与数据利用的有效手段。随着大数据、数据开放运动的发展,数据匿名化的法律问题受到更多关注。文章从法律视角对匿名化数据的概念、认定的法律标准以及数据匿名化处理过程中应当遵循的法律规范进行了系统性论述... 数据匿名化是兼顾隐私保护与数据利用的有效手段。随着大数据、数据开放运动的发展,数据匿名化的法律问题受到更多关注。文章从法律视角对匿名化数据的概念、认定的法律标准以及数据匿名化处理过程中应当遵循的法律规范进行了系统性论述,提出匿名化区别于假名数据,对不可识别性有着更高的要求。对数据进行匿名化处理的机构,以及接收匿名化数据的第三方(在一般情形下),均不能实现数据的身份再识别。为此,采取匿名化处理的机构应当在事前、事中、事后的整个周期采取必要的技术手段、合同机制以及IT审计等方式保障数据真正实现匿名化。 展开更多
关键词 数据匿名 数据保护法 法律规范
下载PDF
数据匿名化的法律规制 被引量:2
14
作者 董新新 《濮阳职业技术学院学报》 2019年第2期46-50,共5页
Web2.0应用与大数据交易平台共同促生数据匿名化技术。欧盟发布的《关于匿名化技术的意见》与《通用数据保护条例》对数据匿名化技术的使用做出了规定,内容涉及匿名数据概念界定、法律标准认定、去匿名化技术、整个数据处理过程的风险... Web2.0应用与大数据交易平台共同促生数据匿名化技术。欧盟发布的《关于匿名化技术的意见》与《通用数据保护条例》对数据匿名化技术的使用做出了规定,内容涉及匿名数据概念界定、法律标准认定、去匿名化技术、整个数据处理过程的风险评估、技术规制等多个方面。我国目前并未出台专门的数据匿名化规范,为实现信息数据利用与隐私保护之间的平衡,应借鉴吸收欧盟经验,填补我国数据匿名化规制的法律空白。 展开更多
关键词 数据匿名 匿名 法律规制 技术规制
下载PDF
生命周期模型下数据匿名化处理的合法性探究——以患者医疗数据保护为例 被引量:3
15
作者 刘业 《信息安全与通信保密》 2020年第9期54-68,共15页
作为平衡医疗大数据应用与患者隐私保护二者价值之关键,匿名化技术愈来愈成为人们关注和研究的对象,数据匿名化处理行为的合法性也成为大数据发展在法律层面所亟需解决的问题。在欧盟和美国匿名化立法的基础之上,引入数据生命周期模型,... 作为平衡医疗大数据应用与患者隐私保护二者价值之关键,匿名化技术愈来愈成为人们关注和研究的对象,数据匿名化处理行为的合法性也成为大数据发展在法律层面所亟需解决的问题。在欧盟和美国匿名化立法的基础之上,引入数据生命周期模型,可实现对匿名化处理行为合法性问题的全面而系统的分析研判。在生命周期模型下,合法性问题应从三个阶段进行考量:事前行为合法是数据匿名化处理行为合法性之前提条件,匿名化处理行为合法是其合法性之核心要件,事后行为的风险管控是保持其合法性之必然要求。数据匿名化处理行为合法与否必须立足数据生命周期的整体,综合考虑三阶段的合法性,作出最终判断。 展开更多
关键词 数据匿名 患者医疗数据 隐私保护 数据生命周期
下载PDF
面向动态博弈的k-匿名隐私保护数据共享方案
16
作者 曹来成 后杨宁 +1 位作者 冯涛 郭显 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第4期170-179,共10页
针对训练深度学习模型时,存在缺少大量带标签训练数据和数据隐私泄露等问题,提出了一个面向动态博弈的k-匿名隐私保护数据共享(KPDSDG)方案。首先,引入动态博弈策略设计了最优数据k-匿名方案,在保护数据隐私的同时实现了数据的安全共享... 针对训练深度学习模型时,存在缺少大量带标签训练数据和数据隐私泄露等问题,提出了一个面向动态博弈的k-匿名隐私保护数据共享(KPDSDG)方案。首先,引入动态博弈策略设计了最优数据k-匿名方案,在保护数据隐私的同时实现了数据的安全共享。其次,提出了一个数据匿名化评估框架,以匿名数据的可用性、隐私性和信息丢失评估数据匿名化方案,可以进一步提高数据的隐私性和可用性,以降低重新识别的风险。最后,采用条件生成对抗网络生成数据,解决了模型训练缺少大量带标签样本的问题。安全性分析显示,整个共享过程能够保证数据拥有者隐私信息不被泄露。同时实验表明,该方案隐私化后生成的数据训练的模型准确率高于其他方案,最优情况高出8.83%。且与基于原始数据所训练的模型准确率基本一致,最优情况仅相差0.34%。同时该方案具有更低的计算开销。因此该方案同时满足了数据匿名、数据增广和数据安全共享。 展开更多
关键词 条件生成对抗网络 数据匿名 隐私评估 隐私保护 数据共享
下载PDF
匿名大数据访问风险精准监测与仿真
17
作者 陈云云 刘永山 《计算机仿真》 2024年第5期450-454,共5页
大数据已经成为一种经济资产,其包含大量的信息数据,服务器一旦遭到侵袭,就可能导致大量用户私人信息泄露。为实现大数据的安全共享与利用,提出基于深度对抗学习的匿名大数据访问风险监测研究。从主体、客体和环境三方面分析访问风险因... 大数据已经成为一种经济资产,其包含大量的信息数据,服务器一旦遭到侵袭,就可能导致大量用户私人信息泄露。为实现大数据的安全共享与利用,提出基于深度对抗学习的匿名大数据访问风险监测研究。从主体、客体和环境三方面分析访问风险因素,主要包括访问时间、权限、数据敏感性、网络延时等因素;利用生成器和判别器生成深度对抗学习网络,将风险因素相关数据作为网络输入,提取风险特征;利用信息熵算法计算风险值,设定风险阈值,建立判别函数,利用该函数即可实现匿名大数据访问风险监测。实验结果表明,所提方法具备较强的特征学习能力,避免了监测过程中系统吞吐量过高,且监测结果准确。 展开更多
关键词 深度对抗学习 匿名数据 访问风险监测 信息熵算法 判别函数
下载PDF
医学数据共享隐私保护中基于聚类的匿名化算法关键技术研究 被引量:2
18
作者 唐明坤 吴思竹 +3 位作者 周佳茵 段一凡 胡拯涌 钱庆 《医学信息学杂志》 CAS 2023年第6期65-71,78,共8页
目的/意义基于聚类的匿名化算法具有灵活性较高、适用范围较广、能够保留原始数据更多信息的特点。合理使用基于聚类的匿名化算法进行匿名化处理可以获得满足隐私保护需求的高质量医学数据。方法/过程通过文献调研法和比较分析法,梳理... 目的/意义基于聚类的匿名化算法具有灵活性较高、适用范围较广、能够保留原始数据更多信息的特点。合理使用基于聚类的匿名化算法进行匿名化处理可以获得满足隐私保护需求的高质量医学数据。方法/过程通过文献调研法和比较分析法,梳理面向医学数据共享、基于聚类的匿名化算法关键技术,概述该类算法的主要流程,归纳与之相关的隐私模型,包括具有代表性的传统隐私模型和个性化隐私模型,并分析代表性算法的优点和不足。结果/结论应当合理选择基于聚类的匿名化算法类型、灵活改进算法模型,加大算法工具研发力度,以推动医学数据安全便利和高质量共享。 展开更多
关键词 数据共享 隐私保护 聚类算法 数据匿名 隐私模型
下载PDF
基于敏感分级信息熵的匿名方法
19
作者 石昆正 张攀峰 董明刚 《计算机应用与软件》 北大核心 2024年第5期319-326,共8页
针对相似攻击所造成隐私泄露的问题,提出(H,p,k)-匿名模型,通过对敏感属性分级,使等价类中元组不同敏感级别的个数满足设定阈值H,并设计满足该模型的匿名算法MAA-SLIE(Micro-aggregation Algorithm based on Sensitive Level Informatio... 针对相似攻击所造成隐私泄露的问题,提出(H,p,k)-匿名模型,通过对敏感属性分级,使等价类中元组不同敏感级别的个数满足设定阈值H,并设计满足该模型的匿名算法MAA-SLIE(Micro-aggregation Algorithm based on Sensitive Level Information Entropy)。该算法基于贪心聚类思想,在聚类过程中保证等价类隐私安全指数最大,提高等价类中敏感属性多样性,降低隐私泄露风险,减少信息损失,通过实验验证了算法的合理性和有效性。 展开更多
关键词 数据匿名 信息熵 微聚集 隐私保护
下载PDF
基于FastText模型的匿名数据文本分类研究
20
作者 朱美瑶 张寅昊 +1 位作者 王宇喆 钟美君 《统计学与应用》 2023年第2期563-568,共6页
本文主要讨论在数据匿名化情况下,FastText模型相比其它机器学习模型,对文本分类问题是否是更优解。本文对公开新闻数据集的20万条中文文本数据进行匿名化处理,然后分别采用逻辑回归、LGBM、随机森林和FastText模型进行分类,并且针对结... 本文主要讨论在数据匿名化情况下,FastText模型相比其它机器学习模型,对文本分类问题是否是更优解。本文对公开新闻数据集的20万条中文文本数据进行匿名化处理,然后分别采用逻辑回归、LGBM、随机森林和FastText模型进行分类,并且针对结果,对FastText提出两方面的改进,通过多个评价指标进行评价后,FastText模型无论在准确率上,还是在运行效率上,均比其它模型更优秀。 展开更多
关键词 数据匿名 FastText TF-IDF 文本分类
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部