期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
分簇处理器中分簇投机的L0 Cache设计
1
作者
杨兵
毛志刚
+1 位作者
陈晓
尹捷明
《微电子学与计算机》
CSCD
北大核心
2010年第7期15-20,共6页
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的L0 Cache结构,处理器在访存时投机访问各簇内...
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的L0 Cache结构,处理器在访存时投机访问各簇内简单快速的L0 Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上.
展开更多
关键词
分簇处理器
CACHE结构
投机访问
下载PDF
职称材料
分簇架构处理器上卷积并行计算算法的研究
被引量:
3
2
作者
邓文齐
郑启龙
+1 位作者
盛鑫
杨振浩
《小型微型计算机系统》
CSCD
北大核心
2018年第3期520-524,共5页
在很多的嵌入式系统应用中,都有实现人工智能任务的需求.近年来,深度学习在人工智能领域取得了巨大的成功,它的成功给嵌入式系统中的人工智能应用带来了新的发展机遇.本文使用分簇架构32位DSP处理器BWDSP,对卷积神经网络中,计算时间超过...
在很多的嵌入式系统应用中,都有实现人工智能任务的需求.近年来,深度学习在人工智能领域取得了巨大的成功,它的成功给嵌入式系统中的人工智能应用带来了新的发展机遇.本文使用分簇架构32位DSP处理器BWDSP,对卷积神经网络中,计算时间超过90%的总计算时间的卷积计算的并行算法进行了研究.性能测试表明,本文设计的算法的性能能达到2.27GM ACS,是常规的GEM M算法的9.5倍和向量化算法的5.7倍.对比一些基于FPGA设计的卷积计算算法,算法的计算器件的平均性能是它们的1.63倍到10.85倍.
展开更多
关键词
分簇处理器
嵌入式系统
卷积神经网络
卷积
并行算法
下载PDF
职称材料
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化
被引量:
2
3
作者
黄胜兵
郑启龙
郭连伟
《计算机应用》
CSCD
北大核心
2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM...
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。
展开更多
关键词
编译优化
指令级并行
分
簇
体系数字信号
处理器
超长指令字
单指令多数据流
Open64编译器
下载PDF
职称材料
题名
分簇处理器中分簇投机的L0 Cache设计
1
作者
杨兵
毛志刚
陈晓
尹捷明
机构
哈尔滨工业大学微电子中心
出处
《微电子学与计算机》
CSCD
北大核心
2010年第7期15-20,共6页
文摘
处理器分簇技术是进一步提高超标量处理器性能的一种有效手段,实现了更大指令窗口和发射宽度的同时对Cache系统提出了严峻要求,需要一种访存延迟更小、扩展性更强的Cache结构.采用分簇投机的L0 Cache结构,处理器在访存时投机访问各簇内简单快速的L0 Cache,较好地隐藏了下级Cache的访问延迟.仿真结果显示在8簇的分簇处理器中,采用4kB,2路组相连的分簇L0 Cache后处理器性能平均提升5.6%,在部分测试程序中达到20%以上.
关键词
分簇处理器
CACHE结构
投机访问
Keywords
clustered processor
cache
speculative access
分类号
TP368.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
分簇架构处理器上卷积并行计算算法的研究
被引量:
3
2
作者
邓文齐
郑启龙
盛鑫
杨振浩
机构
中国科学技术大学计算机科学技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第3期520-524,共5页
基金
国家核高基重大专项项目(2012ZX01034-001-001)资助
文摘
在很多的嵌入式系统应用中,都有实现人工智能任务的需求.近年来,深度学习在人工智能领域取得了巨大的成功,它的成功给嵌入式系统中的人工智能应用带来了新的发展机遇.本文使用分簇架构32位DSP处理器BWDSP,对卷积神经网络中,计算时间超过90%的总计算时间的卷积计算的并行算法进行了研究.性能测试表明,本文设计的算法的性能能达到2.27GM ACS,是常规的GEM M算法的9.5倍和向量化算法的5.7倍.对比一些基于FPGA设计的卷积计算算法,算法的计算器件的平均性能是它们的1.63倍到10.85倍.
关键词
分簇处理器
嵌入式系统
卷积神经网络
卷积
并行算法
Keywords
multi-cluster processor
embedded system
CNN
convolution
parallel algorithm
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化
被引量:
2
3
作者
黄胜兵
郑启龙
郭连伟
机构
中国科学技术大学计算机科学与技术学院
安徽省高性能计算重点实验室(中国科学技术大学)
出处
《计算机应用》
CSCD
北大核心
2015年第8期2371-2374,共4页
基金
国家"核高基"重大专项(2012ZX01034-001-001)
文摘
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。
关键词
编译优化
指令级并行
分
簇
体系数字信号
处理器
超长指令字
单指令多数据流
Open64编译器
Keywords
compiler optimization
Instruction Level Parallelism (ILP)
multi-cluster Digital Signal Processor (DSP)
Very Long Instruction Word (VLIW)
Single Instruction Multiple Data (SIMD)
Open64 compiler
分类号
TP311.54 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
分簇处理器中分簇投机的L0 Cache设计
杨兵
毛志刚
陈晓
尹捷明
《微电子学与计算机》
CSCD
北大核心
2010
0
下载PDF
职称材料
2
分簇架构处理器上卷积并行计算算法的研究
邓文齐
郑启龙
盛鑫
杨振浩
《小型微型计算机系统》
CSCD
北大核心
2018
3
下载PDF
职称材料
3
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化
黄胜兵
郑启龙
郭连伟
《计算机应用》
CSCD
北大核心
2015
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部