大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同...大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能.展开更多
支持等式测试的标识加密(identity-based encryption with equality test, IBEET)体制解决了传统等式测试方案中证书管理的问题,得到了广泛的关注.但现有的IBEET体制难以抵抗渗透攻击,且都是基于国外密码算法设计,不具有自主知识产权....支持等式测试的标识加密(identity-based encryption with equality test, IBEET)体制解决了传统等式测试方案中证书管理的问题,得到了广泛的关注.但现有的IBEET体制难以抵抗渗透攻击,且都是基于国外密码算法设计,不具有自主知识产权.基于此,提出一种支持等式测试并具有密码逆向防火墙的SM9标识加密方案(SM9 identity-based encryption scheme with equality test and cryptographic reverse firewalls, SM9-IBEET-CRF).该方案在用户与云服务器的上行信道间部署密码逆向防火墙(cryptographic reverse firewalls,CRF),对用户发出的信息执行重随机化以达到抵抗渗透攻击的作用.该方案拓展国密算法SM9至IBEET领域中,提升其运行效率并丰富国密算法在云计算领域的研究.给出了SM9-IBEET-CRF的形式化定义和安全模型,并在随机预言机模型中考虑2种不同的敌手将此方案在选择密文攻击下的不可区分性与单向性分别形式化地规约到BDH困难假设上.同时,该方案通过考虑第3种敌手证明CRF的部署为其带来维持功能性、保留安全性以及抵抗渗透性.实验仿真和分析结果展示了该方案的有效性.展开更多
联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与...联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与方,协作学习中全局模型的性能在很大程度上取决于参与方的选择.然而,现有研究在选择参与方时都没有对不同机构医疗数据中存在的异质性加以直接关注.导致包含稳定性在内的全局模型的性能难以得到保障.提出了从信誉的角度尝试探索求解该问题.以迭代协作学习的方式尽可能挑选出具有良好信誉的参与方进行协作学习,以获得稳定可靠的高性能全局模型.首先,提出了一个描述医疗机构数据质量的AI信誉值指标AMP(AI medical promise),以帮助其在医疗领域中形成良好的AI生态.其次,建立了一个基于后向选择的迭代协作学习(colback-learning)框架.在单次协作学习任务中,利用后向选择方法以多项式时间复杂度迭代计算出性能良好且稳定的全局模型,完成AMP计算和积累.在AMP信誉值计算中,制定了一个综合考虑全局性能指标的评分函数,以针对医疗领域更有效地指导全局模型的训练.最后,使用真实医疗数据模拟多样化的协作学习场景.实验表明,colback-learning能够选择可靠参与方训练得到性能良好的全局模型,模型的性能稳定性比现有最好的参与方选择方法提高了1.3~6倍.全局模型的可解释性与集中式学习保持了较高的一致性.展开更多
文摘大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能.
文摘支持等式测试的标识加密(identity-based encryption with equality test, IBEET)体制解决了传统等式测试方案中证书管理的问题,得到了广泛的关注.但现有的IBEET体制难以抵抗渗透攻击,且都是基于国外密码算法设计,不具有自主知识产权.基于此,提出一种支持等式测试并具有密码逆向防火墙的SM9标识加密方案(SM9 identity-based encryption scheme with equality test and cryptographic reverse firewalls, SM9-IBEET-CRF).该方案在用户与云服务器的上行信道间部署密码逆向防火墙(cryptographic reverse firewalls,CRF),对用户发出的信息执行重随机化以达到抵抗渗透攻击的作用.该方案拓展国密算法SM9至IBEET领域中,提升其运行效率并丰富国密算法在云计算领域的研究.给出了SM9-IBEET-CRF的形式化定义和安全模型,并在随机预言机模型中考虑2种不同的敌手将此方案在选择密文攻击下的不可区分性与单向性分别形式化地规约到BDH困难假设上.同时,该方案通过考虑第3种敌手证明CRF的部署为其带来维持功能性、保留安全性以及抵抗渗透性.实验仿真和分析结果展示了该方案的有效性.
文摘联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与方,协作学习中全局模型的性能在很大程度上取决于参与方的选择.然而,现有研究在选择参与方时都没有对不同机构医疗数据中存在的异质性加以直接关注.导致包含稳定性在内的全局模型的性能难以得到保障.提出了从信誉的角度尝试探索求解该问题.以迭代协作学习的方式尽可能挑选出具有良好信誉的参与方进行协作学习,以获得稳定可靠的高性能全局模型.首先,提出了一个描述医疗机构数据质量的AI信誉值指标AMP(AI medical promise),以帮助其在医疗领域中形成良好的AI生态.其次,建立了一个基于后向选择的迭代协作学习(colback-learning)框架.在单次协作学习任务中,利用后向选择方法以多项式时间复杂度迭代计算出性能良好且稳定的全局模型,完成AMP计算和积累.在AMP信誉值计算中,制定了一个综合考虑全局性能指标的评分函数,以针对医疗领域更有效地指导全局模型的训练.最后,使用真实医疗数据模拟多样化的协作学习场景.实验表明,colback-learning能够选择可靠参与方训练得到性能良好的全局模型,模型的性能稳定性比现有最好的参与方选择方法提高了1.3~6倍.全局模型的可解释性与集中式学习保持了较高的一致性.