期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
功耗受限情况下多核处理器能效优化方案 被引量:3
1
作者 邱晓杰 安虹 +2 位作者 陈俊仕 迟孟贤 金旭 《计算机工程》 CAS CSCD 北大核心 2017年第4期39-45,共7页
将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调... 将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调整(DVFS)技术控制CPU功耗在预算内以提高处理器能效。同时,将功耗控制和功耗分配解耦合以提高灵活性。采用动态调整的线性模型估计功耗,通过反馈控制技术对其进行调节。以计算访存比为指标在应用间分配功耗,并考虑多线程应用特征进行线程间功耗分配。实验结果表明,PPCM比Priority算法速度平均提高10.7%,能耗平均降低5.1%,能量-延迟积平均降低14.3%。与PCM CA算法相比,其速度平均提高4.5%,能量-延迟积平均降低5.0%。 展开更多
关键词 功耗控制 功耗分配 能效优化 动态电压频率调整 计算访存比 线程关键度
下载PDF
循环神经网络在语音识别模型中的训练加速方法 被引量:9
2
作者 冯诗影 韩文廷 +2 位作者 金旭 迟孟贤 安虹 《小型微型计算机系统》 CSCD 北大核心 2018年第12期2561-2565,共5页
深度神经网络目前已被广泛应用于众多领域.尤其在自然语言处理领域,基于循环神经网络的模型训练效果明显优于其他传统方法.然而模型复杂度不断提高,有限存储空间成为进一步训练大规模任务的瓶颈,例如使用图形处理器(GPU)进行加速训练.... 深度神经网络目前已被广泛应用于众多领域.尤其在自然语言处理领域,基于循环神经网络的模型训练效果明显优于其他传统方法.然而模型复杂度不断提高,有限存储空间成为进一步训练大规模任务的瓶颈,例如使用图形处理器(GPU)进行加速训练.本文提出一种基于语音识别模型,对循环神经网络进行训练加速的有效方法.首先,基于输入训练集序列的长度分布,对每一批训练样本进行划分,并重新组织;其次,通过对GPU显存的高效使用,每一批次训练样本数增多,从而提升计算效率,减少训练时间.本文分别从不同的批样本数及不同序列组织方法,通过对比单位时间处理序列数衡量优化效果.实验表明,基于3层循环神经网络的语音识别模型训练中,单GPU训练可达到1. 7倍加速比. 展开更多
关键词 循环神经网络 语音识别 GPU 序列分组 存储
下载PDF
利用OpenCL设计并优化FPGA上的全连接神经网络 被引量:5
3
作者 周鑫 安虹 +2 位作者 迟孟贤 金旭 韩文廷 《小型微型计算机系统》 CSCD 北大核心 2019年第2期348-352,共5页
随着深度学习神经网络的发展,FPGA上的神经网络开发获得了广泛关注.本文利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并实现了完整的全连接神经网络的前向模型,并针对基准系统中的存储瓶颈,通过分组划分、数据复用、优化激活函数... 随着深度学习神经网络的发展,FPGA上的神经网络开发获得了广泛关注.本文利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并实现了完整的全连接神经网络的前向模型,并针对基准系统中的存储瓶颈,通过分组划分、数据复用、优化激活函数、单指令多数据流、浮点数半精化等策略进行优化,平衡了系统中的资源占用情况,扩大了电路规模,提升了系统性能;优化后的版本与基准版本相比,得到了2. 19x的加速.优化后,系统的主频达到380MHz,RAM占用率达到94%,DSP占用率达到42%. 展开更多
关键词 FPGA OPENCL 全连接神经网络 优化
下载PDF
基于Intel平台的Winograd快速卷积算法研究与优化 被引量:6
4
作者 武铮 安虹 +4 位作者 金旭 迟孟贤 吕国锋 文可 周鑫 《计算机研究与发展》 EI CSCD 北大核心 2019年第4期825-835,共11页
随着深度学习的快速发展,其在语音处理、图像识别和自然语言理解等领域被广泛应用,为科研产业以及日常生活带去了巨大的变革.Intel紧跟深度学习的浪潮,推出了第2代Xeon Phi处理器KNL(knights landing),其后又发布了第3代Xeon Phi处理器K... 随着深度学习的快速发展,其在语音处理、图像识别和自然语言理解等领域被广泛应用,为科研产业以及日常生活带去了巨大的变革.Intel紧跟深度学习的浪潮,推出了第2代Xeon Phi处理器KNL(knights landing),其后又发布了第3代Xeon Phi处理器KNM(knights mill),为深度学习的蓬勃发展带去了新的活力.通过在Intel平台上进行快速卷积算法Winograd的研究与优化,对比Intel MKL(math kernel library) DNN(deep neural network)中的卷积性能,推动Intel MKL DNN中深度神经网络接口的完善以及Intel平台上深度学习的发展.研究中结合Intel最新深度学习平台的AVX-512指令集、高速内存MCDRAM、多Memory/SNC模式、二维网格状内核结构等特性,并通过对内存分配、数据调度等情况的分析,设计优化Winograd算法,一方面选取典型的卷积神经网络(convolutional neural network, CNN)网络模型VGG19,测试对比Intel MKL DNN的卷积实现,最终取得了2倍多的性能加速比;另一方面,通过测试常用卷积类型,对比Intel MKL DNN和NVIDIA cuDNN,验证了实现的Winograd对于常用卷积类型具有很好的适用性且具有实际使用价值.该研究工作期望为Intel平台在深度学习领域的发展提供重要的指导意义. 展开更多
关键词 Winograd 深度学习 深度神经网络 卷积神经网络 向量化
下载PDF
基于分布式模拟机制的片上网络硬件模拟系统 被引量:1
5
作者 彭毅 安虹 +3 位作者 金旭 程亦超 迟孟贤 孙荪 《计算机工程》 CAS CSCD 北大核心 2016年第5期71-79,共9页
针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自... 针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自行处理,从而提高模拟速度。基于该机制,设计并实现片上网络硬件模拟系统。实验结果表明,该系统能达到与业界权威BookSim模拟器同级别的模拟精度,模拟速度可达BookSim模拟器的200倍,相比DART模拟器能获得21%的速度提升,并且具有较好的扩展性。 展开更多
关键词 片上网络 分布式模拟 现场可编程门阵列 多核处理器 时钟精确 动态路障同步
下载PDF
深度学习在组织病理学中的应用综述 被引量:14
6
作者 金旭 文可 +4 位作者 吕国锋 石军 迟孟贤 武铮 安虹 《中国图象图形学报》 CSCD 北大核心 2020年第10期1982-1993,共12页
组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人... 组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人才储备缺口巨大,病理科室普遍超负荷工作。近年来出现的基于深度学习的组织病理辅助诊断方法可以帮助医生提高诊断工作的精度与速度,缓解病理诊断资源不足的问题,引起了研究人员的广泛关注。本文初步综述深度学习方法在组织病理学中的相关研究工作。介绍了组织病理诊断的医学背景,整理了组织病理学领域的主要数据集,重点介绍倍受关注的乳腺癌、淋巴结转移癌、结肠癌的病理数据及其分析任务。本文归纳了数据的存储与处理、模型的设计与优化以及小样本与弱标注学习这3项需要解决的技术问题。围绕这些问题,本文介绍了包括数据存储、数据预处理、分类模型、分割模型、迁移学习和多示例学习等相关研究工作。最后总结了面向组织病理学诊断的深度学习方法研究现状,并指出当下研究工作可能的改进方向。 展开更多
关键词 组织病理学 深度学习 卷积神经网络 迁移学习 多示例学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部