期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种面向高性能计算机的超节点控制器的研究
被引量:
4
1
作者
王凯
陈飞
+3 位作者
李强
李晓民
安学军
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2011年第1期1-8,共8页
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高...
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性.
展开更多
关键词
高性能计算机
超节点控制器
全局地址空间
直接内存访问
远程读写
下载PDF
职称材料
一种类数据流驱动的分片式流处理器体系结构及其编程模型
被引量:
1
2
作者
徐光
安虹
+4 位作者
许牧
刘谷
姚平
任永青
汪芳
《计算机研究与发展》
EI
CSCD
北大核心
2010年第9期1643-1653,共11页
考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运...
考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比.
展开更多
关键词
线延迟
流处理器
分片式
类数据流驱动
处理器结构
下载PDF
职称材料
题名
一种面向高性能计算机的超节点控制器的研究
被引量:
4
1
作者
王凯
陈飞
李强
李晓民
安学军
孙凝晖
机构
中国科学院计算技术研究所
中国科学院
计算机
系统结构
重点
实验室
(
中国科学院计算技术研究所
)
中国科学院
研究
生院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第1期1-8,共8页
基金
国家自然科学基金重点项目(60633040)
国家"八六三"高技术研究发展计划基金项目(2006AA01A102)
文摘
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性.
关键词
高性能计算机
超节点控制器
全局地址空间
直接内存访问
远程读写
Keywords
high performance computer
hyper-node controller
global address space
direct memory access
remote load store
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种类数据流驱动的分片式流处理器体系结构及其编程模型
被引量:
1
2
作者
徐光
安虹
许牧
刘谷
姚平
任永青
汪芳
机构
中国科
学
技术
大学
计算机
科学
与
技术
学院
中国科学院
计算机
系统结构
重点
实验室
(
中国科学院计算技术研究所
)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第9期1643-1653,共11页
基金
国家自然科学基金重点项目(60633040)
国家自然科学基金项目(60736012)
+3 种基金
国家"九七三"重点基础研究发展计划基金项目(2005CB321601)
国家"八六三"重点基础研究发展计划重大项目(2006AA01A102)
国家"八六三"高技术研究发展计划基金项目(2009AA01Z106)
教育部-英特尔信息技术专项科研基金项目(MOE-INTEL-08-07)
文摘
考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比.
关键词
线延迟
流处理器
分片式
类数据流驱动
处理器结构
Keywords
wire delay
stream processor
tiled
data-flow-like driven
architecture
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种面向高性能计算机的超节点控制器的研究
王凯
陈飞
李强
李晓民
安学军
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2011
4
下载PDF
职称材料
2
一种类数据流驱动的分片式流处理器体系结构及其编程模型
徐光
安虹
许牧
刘谷
姚平
任永青
汪芳
《计算机研究与发展》
EI
CSCD
北大核心
2010
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部