联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与...联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与方,协作学习中全局模型的性能在很大程度上取决于参与方的选择.然而,现有研究在选择参与方时都没有对不同机构医疗数据中存在的异质性加以直接关注.导致包含稳定性在内的全局模型的性能难以得到保障.提出了从信誉的角度尝试探索求解该问题.以迭代协作学习的方式尽可能挑选出具有良好信誉的参与方进行协作学习,以获得稳定可靠的高性能全局模型.首先,提出了一个描述医疗机构数据质量的AI信誉值指标AMP(AI medical promise),以帮助其在医疗领域中形成良好的AI生态.其次,建立了一个基于后向选择的迭代协作学习(colback-learning)框架.在单次协作学习任务中,利用后向选择方法以多项式时间复杂度迭代计算出性能良好且稳定的全局模型,完成AMP计算和积累.在AMP信誉值计算中,制定了一个综合考虑全局性能指标的评分函数,以针对医疗领域更有效地指导全局模型的训练.最后,使用真实医疗数据模拟多样化的协作学习场景.实验表明,colback-learning能够选择可靠参与方训练得到性能良好的全局模型,模型的性能稳定性比现有最好的参与方选择方法提高了1.3~6倍.全局模型的可解释性与集中式学习保持了较高的一致性.展开更多
随着大数据应用的涌现,计算机系统需要更大容量的内存以满足大数据处理的高时效性需求.新型非易失性存储器(non-volatile memory,NVM)结合传统动态随机存储器(dynamic random access memory,DRAM)组成的混合内存系统具有内存容量大、功...随着大数据应用的涌现,计算机系统需要更大容量的内存以满足大数据处理的高时效性需求.新型非易失性存储器(non-volatile memory,NVM)结合传统动态随机存储器(dynamic random access memory,DRAM)组成的混合内存系统具有内存容量大、功耗低的优势,因而得到了广泛关注.大数据应用同时也面临着旁路转换缓冲器(translation lookaside buffer,TLB)缺失率过高的性能瓶颈.大页可以有效降低TLB缺失率,然而,在混合内存中支持大页面临着大页迁移开销过大的问题.因此,设计了一种支持大页和大容量缓存的层次化混合内存系统:DRAM和NVM分别使用4KB和2MB粒度的页面分别进行管理,同时在DRAM和NVM之间实现直接映射.设计了基于访存频率的DRAM缓存数据过滤机制,减轻了带宽压力.提出了基于内存实时信息的动态热度阈值调整策略,灵活适应应用访存特征的变化.实验显示:与使用大页的全NVM内存系统和缓存热页(caching hot page,CHOP)系统相比平均有69.9%和15.2%的性能提升,而与使用大页的全DRAM内存系统相比平均只有8.8%的性能差距.展开更多
文摘联邦学习和群智学习等协作学习技术,能够在保护数据隐私的条件下充分利用分布在各地的分布式数据深度挖掘数据中所蕴含的知识,拥有非常广阔的应用前景,尤其是在强调隐私惯例和道德约束的医疗健康领域.任何协作工作都需要选择可靠的参与方,协作学习中全局模型的性能在很大程度上取决于参与方的选择.然而,现有研究在选择参与方时都没有对不同机构医疗数据中存在的异质性加以直接关注.导致包含稳定性在内的全局模型的性能难以得到保障.提出了从信誉的角度尝试探索求解该问题.以迭代协作学习的方式尽可能挑选出具有良好信誉的参与方进行协作学习,以获得稳定可靠的高性能全局模型.首先,提出了一个描述医疗机构数据质量的AI信誉值指标AMP(AI medical promise),以帮助其在医疗领域中形成良好的AI生态.其次,建立了一个基于后向选择的迭代协作学习(colback-learning)框架.在单次协作学习任务中,利用后向选择方法以多项式时间复杂度迭代计算出性能良好且稳定的全局模型,完成AMP计算和积累.在AMP信誉值计算中,制定了一个综合考虑全局性能指标的评分函数,以针对医疗领域更有效地指导全局模型的训练.最后,使用真实医疗数据模拟多样化的协作学习场景.实验表明,colback-learning能够选择可靠参与方训练得到性能良好的全局模型,模型的性能稳定性比现有最好的参与方选择方法提高了1.3~6倍.全局模型的可解释性与集中式学习保持了较高的一致性.
文摘随着大数据应用的涌现,计算机系统需要更大容量的内存以满足大数据处理的高时效性需求.新型非易失性存储器(non-volatile memory,NVM)结合传统动态随机存储器(dynamic random access memory,DRAM)组成的混合内存系统具有内存容量大、功耗低的优势,因而得到了广泛关注.大数据应用同时也面临着旁路转换缓冲器(translation lookaside buffer,TLB)缺失率过高的性能瓶颈.大页可以有效降低TLB缺失率,然而,在混合内存中支持大页面临着大页迁移开销过大的问题.因此,设计了一种支持大页和大容量缓存的层次化混合内存系统:DRAM和NVM分别使用4KB和2MB粒度的页面分别进行管理,同时在DRAM和NVM之间实现直接映射.设计了基于访存频率的DRAM缓存数据过滤机制,减轻了带宽压力.提出了基于内存实时信息的动态热度阈值调整策略,灵活适应应用访存特征的变化.实验显示:与使用大页的全NVM内存系统和缓存热页(caching hot page,CHOP)系统相比平均有69.9%和15.2%的性能提升,而与使用大页的全DRAM内存系统相比平均只有8.8%的性能差距.