期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
分簇处理器中分簇投机的L0 Cache设计
1
作者 杨兵 毛志刚 +1 位作者 陈晓 尹捷明 《微电子学与计算机》 CSCD 北大核心 2010年第7期15-20,共6页
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的L0 Cache结构,处理器在访存时投机访问各簇内... 处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的L0 Cache结构,处理器在访存时投机访问各簇内简单快速的L0 Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上. 展开更多
关键词 分簇处理器 CACHE结构 投机访问
下载PDF
分簇架构处理器上卷积并行计算算法的研究 被引量:3
2
作者 邓文齐 郑启龙 +1 位作者 盛鑫 杨振浩 《小型微型计算机系统》 CSCD 北大核心 2018年第3期520-524,共5页
在很多的嵌入式系统应用中,都有实现人工智能任务的需求.近年来,深度学习在人工智能领域取得了巨大的成功,它的成功给嵌入式系统中的人工智能应用带来了新的发展机遇.本文使用分簇架构32位DSP处理器BWDSP,对卷积神经网络中,计算时间超过... 在很多的嵌入式系统应用中,都有实现人工智能任务的需求.近年来,深度学习在人工智能领域取得了巨大的成功,它的成功给嵌入式系统中的人工智能应用带来了新的发展机遇.本文使用分簇架构32位DSP处理器BWDSP,对卷积神经网络中,计算时间超过90%的总计算时间的卷积计算的并行算法进行了研究.性能测试表明,本文设计的算法的性能能达到2.27GM ACS,是常规的GEM M算法的9.5倍和向量化算法的5.7倍.对比一些基于FPGA设计的卷积计算算法,算法的计算器件的平均性能是它们的1.63倍到10.85倍. 展开更多
关键词 分簇处理器 嵌入式系统 卷积神经网络 卷积 并行算法
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
3
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部