期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
56
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
片上多核处理器存储一致性验证
被引量:
13
1
作者
王朋宇
陈云霁
+2 位作者
沈海华
陈天石
张珩
《软件学报》
EI
CSCD
北大核心
2010年第4期863-874,共12页
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执...
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具,LCHECK发现了一些存储系统的设计错误.
展开更多
关键词
存储一致性模型
验证
时间序
片上多核
处理器
缓存一致性
下载PDF
职称材料
片上多核处理器共享资源分配与调度策略研究综述
被引量:
9
2
作者
王磊
刘道福
+2 位作者
陈云霁
陈天石
李玲
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2212-2227,共16页
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问...
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望.
展开更多
关键词
片上多核
处理器
多线程
共享缓存
缓存分区
访存调度
下载PDF
职称材料
片上多核Cache资源管理机制研究
被引量:
6
3
作者
贾小敏
张民选
+1 位作者
齐树波
赵天磊
《计算机科学》
CSCD
北大核心
2011年第1期295-301,共7页
随着片上多核成为处理器发展的主流和片上Cache资源的持续增长,Cache资源的管理已成为片上多核的关键问题。介绍了片上多核Cache资源管理的研究进展,依据研究内容将Cache资源的管理分为Cache划分和Cache共享两类。对Cache划分,探讨了其...
随着片上多核成为处理器发展的主流和片上Cache资源的持续增长,Cache资源的管理已成为片上多核的关键问题。介绍了片上多核Cache资源管理的研究进展,依据研究内容将Cache资源的管理分为Cache划分和Cache共享两类。对Cache划分,探讨了其主要组成部分和一般形式,分析和比较了典型的片上多核Cache划分机制。对Cache共享,给出了其主要研究内容,并介绍和比较了几种主流的片上多核Cache共享机制。通过分析,认为软硬件协同管理的页划分应是未来片上多核Cache划分机制的研究重点;而片上多核Cache共享机制的研究则应从目标应用的Cache行为特征着手。
展开更多
关键词
片上多核
Cache资源管理
CACHE划分
Cache共享
非一致Cache
下载PDF
职称材料
Amdahl定律在层次化片上多核处理器中的扩展
被引量:
7
4
作者
陈书明
陈胜刚
尹亚明
《计算机研究与发展》
EI
CSCD
北大核心
2012年第1期83-92,共10页
层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务...
层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化.
展开更多
关键词
层次化结构
片上多核
处理器
数据通信
性能模型
AMDAHL定律
下载PDF
职称材料
片上多核处理器验证:挑战、现状与展望
被引量:
7
5
作者
郭阳
李思昆
屈婉霞
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2012年第12期1521-1532,共12页
随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出...
随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出问题,系统地总结了片上多核处理器模拟验证、硬件仿真、形式验证、硅后验证等方面的研究进展,并对该领域未来的发展方向进行了分析与展望.
展开更多
关键词
片上多核
处理器
模拟验证
形式验证
片上
网络
集成电路
下载PDF
职称材料
片上多核处理器Cache一致性协议优化研究综述
被引量:
5
6
作者
胡森森
计卫星
+3 位作者
王一拙
陈旭
付文飞
石峰
《软件学报》
EI
CSCD
北大核心
2017年第4期1027-1047,共21页
现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速...
现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向.
展开更多
关键词
片上多核
处理器
缓存一致性协议
性能优化
下载PDF
职称材料
求解N皇后问题的片上多核并行混合遗传算法
被引量:
4
7
作者
张步忠
程玉胜
王一宾
《计算机工程》
CAS
CSCD
北大核心
2015年第7期199-203,共5页
遗传算法求解大规模皇后问题的耗时长、速度慢。为此,在分析现有N皇后问题求解方案和并行遗传算法的基础上,将动态规划引入到局部搜索策略中,在多核平台实现粗粒度并行遗传算法(CPGA)用于求解N皇后问题,避免传统的粗粒度并行种群迁移、...
遗传算法求解大规模皇后问题的耗时长、速度慢。为此,在分析现有N皇后问题求解方案和并行遗传算法的基础上,将动态规划引入到局部搜索策略中,在多核平台实现粗粒度并行遗传算法(CPGA)用于求解N皇后问题,避免传统的粗粒度并行种群迁移、通信等开销。针对并行化后多个子种群解趋同、迭代慢等问题,提出改进的面向遗传算子并行化的遗传算法(OOPGA)。实验结果表明,改进后的OOPGA算法在运行时间、加速比等方面均比CPGA算法好。
展开更多
关键词
片上多核
遗传算法
并行计算
粗粒度
N皇后问题
遗传算子并行化
下载PDF
职称材料
片上多核处理器容软错误执行模型
被引量:
3
8
作者
龚锐
戴葵
王志英
《计算机学报》
EI
CSCD
北大核心
2008年第11期2047-2059,共13页
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了...
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽.
展开更多
关键词
片上多核
处理器
执行模型
软错误恢复
软错误屏蔽
双
核
冗余
三
核
冗余
下载PDF
职称材料
基于片上多核的频繁项集并行挖掘算法
被引量:
3
9
作者
张步忠
程玉胜
王则林
《计算机科学》
CSCD
北大核心
2014年第3期55-58,共4页
关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多...
关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多核共享内存计算环境,提出一种高效的并行频繁项集挖掘算法PEclat,算法实现了任务级并行挖掘频繁项集,并在大数据集上进行了多项测试。实验结果表明,无论数据稠密程度如何,该算法均能取得较好的性能。
展开更多
关键词
片上多核
频繁项集
并行处理
关联规则
下载PDF
职称材料
片上多核处理器的结构级功耗建模与优化技术研究
被引量:
3
10
作者
张戈
胡伟武
+2 位作者
黄琨
曾洪博
王君
《自然科学进展》
北大核心
2009年第12期1398-1409,共12页
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米...
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米级工艺下片上多核处理器的功耗建模与评估方法,及其不同构件的低功耗优化技术。通过提出创新高效的多核处理器结构级功耗评估方法及其模拟平台,提高多核结构功耗模拟的准确性与灵活性,并以此为依托,开展处理器核、片上网络、片上存储及其一致性协议的各方面优化,寻求提高多核处理器功耗有效性的微体系结构,为国产多核处理器的低功耗设计提供一定借鉴与参考。
展开更多
关键词
片上多核
处理器
功耗建模
功耗评估
低功耗结构
下载PDF
职称材料
片上多核中一种共享感知的数据主动推送Cache技术
被引量:
3
11
作者
王得利
高德远
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2010年第10期18-23,共6页
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,...
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,根据并行线程间读数据共享程度高以及共享读数据访问局部性好的特征,采用基于指令的方法来预测共享读数据流,在后行线程需要共享数据之前将其主动推送至该线程的一级Cache中去,从而减少较慢线程的数据访问延时,提高执行速率,降低较慢线程与先行线程间执行速率的差异.SAAPC技术避免了预取技术所带来的额外片外带宽增加的缺点.使用SESC模拟器对来自于SPLASH2测试程序集的5个存储敏感型并行程序进行了测试仿真,结果表明,与传统的共享Cache相比,使用SAAPC技术减少了并行线程间执行速率的差异,系统的每周期指令数平均提高了7%,最高达到13.1%.
展开更多
关键词
片上多核
处理器
并行程序
共享感知
主动推送
执行速率
下载PDF
职称材料
片上多核处理器共享Cache划分的公平性研究
被引量:
1
12
作者
方娟
蒲江
张欣
《计算机工程与设计》
CSCD
北大核心
2010年第15期3413-3415,3517,共4页
公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出...
公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出一个新的多线程公平性评价指标并改进了已有的公平划分策略,从而提高多线程运行的公平性。实验结果表明,该共享Cache划分方案显著提高了系统公平性,并且系统吞吐量也有提高。
展开更多
关键词
片上多核
处理器
共享CACHE划分
公平性
缺失
评价参数
下载PDF
职称材料
同构与异构片上多核系统的演进过程
被引量:
2
13
作者
黄乐天
别丽华
《电子技术应用》
北大核心
2017年第3期6-11,20,共7页
系统级芯片是高端电子系统的核心,而片上多核系统是近年来系统级芯片的主要实现形式。近十年来,片上多核系统一直是数字集成电路领域的热点,经过众多研究者的不断努力诞生了大量很有意义的研究成果。但由于片上多核系统的研究者背景和...
系统级芯片是高端电子系统的核心,而片上多核系统是近年来系统级芯片的主要实现形式。近十年来,片上多核系统一直是数字集成电路领域的热点,经过众多研究者的不断努力诞生了大量很有意义的研究成果。但由于片上多核系统的研究者背景和应用领域不同导致发展演进过程较为复杂而难以理解。为减少这一问题的影响,总结了片上多核系统的演进历史与现状,并对片上多核系统未来的发展提出了一些看法。
展开更多
关键词
片上多核
单芯
片
多处理器
多处理器
片上
系统
下载PDF
职称材料
基于π网的片上多核系统任务调度算法研究
14
作者
郭荣佐
樊相奎
郭进
《计算机应用研究》
CSCD
北大核心
2016年第11期3245-3250,共6页
为提高片上多核系统在任务调度方面的效率,基于先进的π网来研究其任务调度算法。在简单介绍π网之后,利用π网对片上多核系统的任务调度进行建模,并对模型进行动态演化、复杂度和子网划分等分析,然后对模型进行实验和仿真。通过实验和...
为提高片上多核系统在任务调度方面的效率,基于先进的π网来研究其任务调度算法。在简单介绍π网之后,利用π网对片上多核系统的任务调度进行建模,并对模型进行动态演化、复杂度和子网划分等分析,然后对模型进行实验和仿真。通过实验和仿真,得到的模型在调度成功率、平均调度时长和处理器核利用率等方面优于其他算法。
展开更多
关键词
片上多核
系统
任务调度
π网
调度算法
下载PDF
职称材料
层次化片上多核处理器性能研究
15
作者
侯宁
赵红梅
宋宇鲲
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第10期1226-1230,共5页
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点...
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。
展开更多
关键词
层次化结构
片上多核
处理器
建模
性能分析
下载PDF
职称材料
片上多核处理器Cache访问均衡性研究
被引量:
3
16
作者
王子聪
陈小文
郭阳
《计算机学报》
EI
CSCD
北大核心
2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网...
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%.
展开更多
关键词
片上多核
处理器
非一致缓存体系结构
片上
网络
均衡性
缓存访问
下载PDF
职称材料
片上多核处理器共享末级缓存动静结合地址映射机制
被引量:
1
17
作者
曹非
刘志勇
《计算机科学》
CSCD
北大核心
2012年第8期304-310,共7页
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加...
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。
展开更多
关键词
片上多核
处理器
共享末级高速缓存
地址映射机制
环
侦听顺序环协议
下载PDF
职称材料
基于FPGA模拟片上多核处理器的新方法
18
作者
陈新科
黄帅
+2 位作者
王焕东
吴瑞阳
曾露
《高技术通讯》
CAS
CSCD
北大核心
2014年第7期661-668,共8页
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA...
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。
展开更多
关键词
模拟
仿真
模型
现场可编程门阵列(FPGA)
片上多核
处理器
伪造的处理器
核
下载PDF
职称材料
基于片上多核的H.264编码的并行加速性研究
被引量:
1
19
作者
宋阳
章晓燕
《计算机时代》
2011年第4期1-4,共4页
针对便携设备上不断增强的视频处理要求和H.264编解码算法相对较高的计算复杂度之间的矛盾,提出了基于片上多核结构的H.264并行化方案,以达到实时编码的效果。该方案以FPGA为验证平台,通过硬件结构与软件算法协同优化的方式,在单总线双...
针对便携设备上不断增强的视频处理要求和H.264编解码算法相对较高的计算复杂度之间的矛盾,提出了基于片上多核结构的H.264并行化方案,以达到实时编码的效果。该方案以FPGA为验证平台,通过硬件结构与软件算法协同优化的方式,在单总线双核结构的MPSoC上实现了基于片的H.264并行编码。实验结果表明,在嵌入式环境下利用多核技术实现H.264并行编码可以取得良好的加速效果。
展开更多
关键词
H.264
片上多核
FPGA
片
并行编码
下载PDF
职称材料
面向多线程应用的片上多核处理器私有LLC优化
20
作者
吴建宇
彭蔓蔓
《计算机工程》
CAS
CSCD
北大核心
2015年第1期316-321,共6页
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处...
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。
展开更多
关键词
片上多核
处理器
存储墙
末级Cache
失效开销
缓冲器
下载PDF
职称材料
题名
片上多核处理器存储一致性验证
被引量:
13
1
作者
王朋宇
陈云霁
沈海华
陈天石
张珩
机构
中国科学院计算技术研究所计算机系统结构重点实验室
中国科学院研究生院
中国科学技术大学计算机科学技术系
出处
《软件学报》
EI
CSCD
北大核心
2010年第4期863-874,共12页
基金
国家自然科学基金Nos.60603049
60673146
+5 种基金
60736012
60721061
国家高技术研究发展计划(863)Nos.2007AA01Z112
2008AA110901
2007AA01Z114
国家重点基础研究发展计划(973)No.2005CB321600~~
文摘
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具,LCHECK发现了一些存储系统的设计错误.
关键词
存储一致性模型
验证
时间序
片上多核
处理器
缓存一致性
Keywords
memory consistency model
verification
time order
chip multi-processor
cache coherence
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
片上多核处理器共享资源分配与调度策略研究综述
被引量:
9
2
作者
王磊
刘道福
陈云霁
陈天石
李玲
机构
中国科学院计算机系统结构重点实验室
中国科学院大学
龙芯中科技术有限公司
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2212-2227,共16页
基金
中国科学院战略性先导科技专项基金项目(XDA06010401-02)
国家自然科学基金项目(61003064
+8 种基金
61100163
61173006
61133004
61173001)
国家"八六三"高技术研究发展计划基金项目(2012AA012202
2012AA010901)
"核高基"国家科技重大专项基金项目(2009ZX01028-002-003
2009ZX01029-001-003
2010ZX01036-001-002)
文摘
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望.
关键词
片上多核
处理器
多线程
共享缓存
缓存分区
访存调度
Keywords
chip multi-processor (CMP)
multi-thread
shared caches
cache partitioning
memoryaccess scheduling
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
片上多核Cache资源管理机制研究
被引量:
6
3
作者
贾小敏
张民选
齐树波
赵天磊
机构
国防科技大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2011年第1期295-301,共7页
基金
国家863高技术研究发展计划(No.2009AA01Z124)
国家自然科学基金(No.60970036)和国家自然科学基金(No.60873016)资助
文摘
随着片上多核成为处理器发展的主流和片上Cache资源的持续增长,Cache资源的管理已成为片上多核的关键问题。介绍了片上多核Cache资源管理的研究进展,依据研究内容将Cache资源的管理分为Cache划分和Cache共享两类。对Cache划分,探讨了其主要组成部分和一般形式,分析和比较了典型的片上多核Cache划分机制。对Cache共享,给出了其主要研究内容,并介绍和比较了几种主流的片上多核Cache共享机制。通过分析,认为软硬件协同管理的页划分应是未来片上多核Cache划分机制的研究重点;而片上多核Cache共享机制的研究则应从目标应用的Cache行为特征着手。
关键词
片上多核
Cache资源管理
CACHE划分
Cache共享
非一致Cache
Keywords
Chip multi-processors
Cache resource management
Cache partitioning
Cache sharing
Non-uniform cache architecture
分类号
TP368 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Amdahl定律在层次化片上多核处理器中的扩展
被引量:
7
4
作者
陈书明
陈胜刚
尹亚明
机构
国防科学技术大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第1期83-92,共10页
基金
国家"八六三"高技术研究发展计划基金项目(2007AA01Z108
2009AA011704)
+2 种基金
教育部"高性能微处理器设计技术"创新团队计划基金项目(IRT0614)
"核高基"国家科技重大专项基金项目(2009ZX01034-001-001-006)
国家自然科学基金项目(60676010)
文摘
层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化.
关键词
层次化结构
片上多核
处理器
数据通信
性能模型
AMDAHL定律
Keywords
hierarchical architecture
chip multicore processor
data communications
performance model
Amdahl's law
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
片上多核处理器验证:挑战、现状与展望
被引量:
7
5
作者
郭阳
李思昆
屈婉霞
机构
国防科学技术大学计算机学院
出处
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2012年第12期1521-1532,共12页
基金
国家自然科学基金重点项目(61133007)
文摘
随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出问题,系统地总结了片上多核处理器模拟验证、硬件仿真、形式验证、硅后验证等方面的研究进展,并对该领域未来的发展方向进行了分析与展望.
关键词
片上多核
处理器
模拟验证
形式验证
片上
网络
集成电路
Keywords
on-chip multi-core processor
simulation
formal verification
network on chip
integratedcircuit
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
片上多核处理器Cache一致性协议优化研究综述
被引量:
5
6
作者
胡森森
计卫星
王一拙
陈旭
付文飞
石峰
机构
北京理工大学计算机学院嵌入式高性能计算实验室
出处
《软件学报》
EI
CSCD
北大核心
2017年第4期1027-1047,共21页
基金
国家自然科学基金(61300010
61300011)
中国科学院计算技术研究所计算机体系结构国家重点实验室开放课题(CARCH201404)~~
文摘
现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向.
关键词
片上多核
处理器
缓存一致性协议
性能优化
Keywords
chip multi-processor
cache coherence protocol
performance optimization
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
求解N皇后问题的片上多核并行混合遗传算法
被引量:
4
7
作者
张步忠
程玉胜
王一宾
机构
安庆师范学院计算机与信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第7期199-203,共5页
基金
安徽省自然科学基金资助项目(10040606Q42)
安徽高校省级自然科学研究基金资助重点项目(KJ2013A177)
文摘
遗传算法求解大规模皇后问题的耗时长、速度慢。为此,在分析现有N皇后问题求解方案和并行遗传算法的基础上,将动态规划引入到局部搜索策略中,在多核平台实现粗粒度并行遗传算法(CPGA)用于求解N皇后问题,避免传统的粗粒度并行种群迁移、通信等开销。针对并行化后多个子种群解趋同、迭代慢等问题,提出改进的面向遗传算子并行化的遗传算法(OOPGA)。实验结果表明,改进后的OOPGA算法在运行时间、加速比等方面均比CPGA算法好。
关键词
片上多核
遗传算法
并行计算
粗粒度
N皇后问题
遗传算子并行化
Keywords
on-chip multi-core
Genetic Algorithm ( GA )
parallel computing
coarse-grained
N-queens problem
genetic operator parallelization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
片上多核处理器容软错误执行模型
被引量:
3
8
作者
龚锐
戴葵
王志英
机构
国防科学技术大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2008年第11期2047-2059,共13页
基金
国家"八六三"高技术研究发展计划项目基金(2007AA01Z101)
国家自然科学基金(60773024)资助.
文摘
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽.
关键词
片上多核
处理器
执行模型
软错误恢复
软错误屏蔽
双
核
冗余
三
核
冗余
Keywords
chip multiprocessor
execution model
soft error recovery
soft error masking
dual core redundancy
triple core redundancy
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于片上多核的频繁项集并行挖掘算法
被引量:
3
9
作者
张步忠
程玉胜
王则林
机构
安庆师范学院计算机与信息学院
南通大学计算机科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2014年第3期55-58,共4页
基金
安徽省自然科学基金(070412061
10040606Q42)
安庆师范学院青年科研基金项目(KJ201112)资助
文摘
关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多核共享内存计算环境,提出一种高效的并行频繁项集挖掘算法PEclat,算法实现了任务级并行挖掘频繁项集,并在大数据集上进行了多项测试。实验结果表明,无论数据稠密程度如何,该算法均能取得较好的性能。
关键词
片上多核
频繁项集
并行处理
关联规则
Keywords
Chip multi-core
Frequent itemsets
Parallel process
Association rule
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
片上多核处理器的结构级功耗建模与优化技术研究
被引量:
3
10
作者
张戈
胡伟武
黄琨
曾洪博
王君
机构
中国科学院计算技术研究所微处理器中心中国科学院计算机系统结构重点实验室
出处
《自然科学进展》
北大核心
2009年第12期1398-1409,共12页
基金
国家重点基础研究发展计划(批准号:2005CB321603)
国家高技术研究发展计划(批准号:2009AA01Z125)
国家自然科学基金(批准号:60803029)资助项目
文摘
功耗是导致片上多核处理器出现故障的重要诱因,也是片上多核处理器设计的重要制约因素。如何降低多核处理器的功耗并提高处理器能量效率,具有很大的研究意义与探索空间。文中主要从体系结构设计者的角度,并结合电路实现,研究并总结纳米级工艺下片上多核处理器的功耗建模与评估方法,及其不同构件的低功耗优化技术。通过提出创新高效的多核处理器结构级功耗评估方法及其模拟平台,提高多核结构功耗模拟的准确性与灵活性,并以此为依托,开展处理器核、片上网络、片上存储及其一致性协议的各方面优化,寻求提高多核处理器功耗有效性的微体系结构,为国产多核处理器的低功耗设计提供一定借鉴与参考。
关键词
片上多核
处理器
功耗建模
功耗评估
低功耗结构
分类号
TP332 [自动化与计算机技术—计算机系统结构]
TN402 [电子电信—微电子学与固体电子学]
下载PDF
职称材料
题名
片上多核中一种共享感知的数据主动推送Cache技术
被引量:
3
11
作者
王得利
高德远
机构
西北工业大学计算机学院
出处
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2010年第10期18-23,共6页
基金
国家自然科学基金资助项目(60773223
60736012)
国家"863计划"资助项目(2009AA01Z110)
文摘
针对片上多核处理器的二级Cache访问延时持续增加以及并行程序在运行时线程间执行速率差异大的问题,提出了一种基于共享感知的数据主动推送Cache技术(SAAPC).SAAPC技术充分考虑并行程序的系统性能由速度最慢的线程所决定这一重要特性,根据并行线程间读数据共享程度高以及共享读数据访问局部性好的特征,采用基于指令的方法来预测共享读数据流,在后行线程需要共享数据之前将其主动推送至该线程的一级Cache中去,从而减少较慢线程的数据访问延时,提高执行速率,降低较慢线程与先行线程间执行速率的差异.SAAPC技术避免了预取技术所带来的额外片外带宽增加的缺点.使用SESC模拟器对来自于SPLASH2测试程序集的5个存储敏感型并行程序进行了测试仿真,结果表明,与传统的共享Cache相比,使用SAAPC技术减少了并行线程间执行速率的差异,系统的每周期指令数平均提高了7%,最高达到13.1%.
关键词
片上多核
处理器
并行程序
共享感知
主动推送
执行速率
Keywords
chip multi-processor parallel program sharing aware active push progressive rate
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
片上多核处理器共享Cache划分的公平性研究
被引量:
1
12
作者
方娟
蒲江
张欣
机构
北京工业大学计算机学院
海军计算技术研究所
出处
《计算机工程与设计》
CSCD
北大核心
2010年第15期3413-3415,3517,共4页
基金
国家自然科学基金项目(60873145)
国家973重点基础研究发展计划基金项目(2007CB311100)
北京市优秀人才基金项目(Q0007013200801)
文摘
公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出一个新的多线程公平性评价指标并改进了已有的公平划分策略,从而提高多线程运行的公平性。实验结果表明,该共享Cache划分方案显著提高了系统公平性,并且系统吞吐量也有提高。
关键词
片上多核
处理器
共享CACHE划分
公平性
缺失
评价参数
Keywords
chip multiprocessors
shared cache partition
fairness
miss
evaluation metric
分类号
TP302.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
同构与异构片上多核系统的演进过程
被引量:
2
13
作者
黄乐天
别丽华
机构
电子科技大学
华中农业大学信息学院
出处
《电子技术应用》
北大核心
2017年第3期6-11,20,共7页
基金
国家自然科学基金重点项目(61534002)
文摘
系统级芯片是高端电子系统的核心,而片上多核系统是近年来系统级芯片的主要实现形式。近十年来,片上多核系统一直是数字集成电路领域的热点,经过众多研究者的不断努力诞生了大量很有意义的研究成果。但由于片上多核系统的研究者背景和应用领域不同导致发展演进过程较为复杂而难以理解。为减少这一问题的影响,总结了片上多核系统的演进历史与现状,并对片上多核系统未来的发展提出了一些看法。
关键词
片上多核
单芯
片
多处理器
多处理器
片上
系统
Keywords
multi-core system on chips
CMP
MPSoC
分类号
TN4 [电子电信—微电子学与固体电子学]
下载PDF
职称材料
题名
基于π网的片上多核系统任务调度算法研究
14
作者
郭荣佐
樊相奎
郭进
机构
四川师范大学计算机科学学院
西南交通大学信息科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2016年第11期3245-3250,共6页
基金
国家自然科学基金资助项目(61373162
61373163)
+1 种基金
国家科技支撑计划资助项目(2012BAH76F01)
四川省教育厅自然科学基金一般项目(15ZB0045)
文摘
为提高片上多核系统在任务调度方面的效率,基于先进的π网来研究其任务调度算法。在简单介绍π网之后,利用π网对片上多核系统的任务调度进行建模,并对模型进行动态演化、复杂度和子网划分等分析,然后对模型进行实验和仿真。通过实验和仿真,得到的模型在调度成功率、平均调度时长和处理器核利用率等方面优于其他算法。
关键词
片上多核
系统
任务调度
π网
调度算法
Keywords
on-chip multi-core systems
task scheduling
π-nets
scheduling algorithm
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
TP301.5 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
层次化片上多核处理器性能研究
15
作者
侯宁
赵红梅
宋宇鲲
机构
河南城建学院电气与信息工程系
合肥工业大学微电子设计研究所
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第10期1226-1230,共5页
基金
国家自然科学基金资助项目(61179036
61106020)
文摘
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。
关键词
层次化结构
片上多核
处理器
建模
性能分析
Keywords
hierarchy architecture
chip multicore processor
modeling
performance analysis
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
片上多核处理器Cache访问均衡性研究
被引量:
3
16
作者
王子聪
陈小文
郭阳
机构
国防科技大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2019年第11期2403-2416,共14页
基金
国家自然科学基金(61502508,61572025)
湖南省自然科学基金(2015JJ3017)资助~~
文摘
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%.
关键词
片上多核
处理器
非一致缓存体系结构
片上
网络
均衡性
缓存访问
Keywords
chip multi-processor
non-uniform cache architecture
networks-on-chip
equalization
cache access
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
片上多核处理器共享末级缓存动静结合地址映射机制
被引量:
1
17
作者
曹非
刘志勇
机构
西北工业大学计算机学院
中国科学院计算技术研究所前瞻研究中心
出处
《计算机科学》
CSCD
北大核心
2012年第8期304-310,共7页
基金
国家自然科学基金项目(60736012
60773223
+2 种基金
61003037
61173047)
国家"863"基金项目(2009AA01Z110)资助
文摘
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。
关键词
片上多核
处理器
共享末级高速缓存
地址映射机制
环
侦听顺序环协议
Keywords
CMP
Shared last level cache
Address mapping method
Ring
SOR cache coherence protocol
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于FPGA模拟片上多核处理器的新方法
18
作者
陈新科
黄帅
王焕东
吴瑞阳
曾露
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院计算技术研究所
中国科学院大学
龙芯中科技术有限公司
出处
《高技术通讯》
CAS
CSCD
北大核心
2014年第7期661-668,共8页
基金
国家"核高基"科技重大专项课题(2009ZX01028-002-003
2009ZX01029-001-003
+11 种基金
2010ZX01036-001-002
2012ZX01029-001-002-002)
国家自然科学基金(61221062
61100163
61133004
61173001
61232009
61222204)
863计划(2012AA010901
2012AA011002
2012AA012202
2013AA014301)资助项目
文摘
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。
关键词
模拟
仿真
模型
现场可编程门阵列(FPGA)
片上多核
处理器
伪造的处理器
核
Keywords
emulation, simuhion, modeling, field programmable gate arrays (FPGAs), chip multi-core processor, pseudo processor cores
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于片上多核的H.264编码的并行加速性研究
被引量:
1
19
作者
宋阳
章晓燕
机构
天津工业大学计算机与软件学院
中国农业银行
出处
《计算机时代》
2011年第4期1-4,共4页
文摘
针对便携设备上不断增强的视频处理要求和H.264编解码算法相对较高的计算复杂度之间的矛盾,提出了基于片上多核结构的H.264并行化方案,以达到实时编码的效果。该方案以FPGA为验证平台,通过硬件结构与软件算法协同优化的方式,在单总线双核结构的MPSoC上实现了基于片的H.264并行编码。实验结果表明,在嵌入式环境下利用多核技术实现H.264并行编码可以取得良好的加速效果。
关键词
H.264
片上多核
FPGA
片
并行编码
Keywords
H.264
MPSoC
FPGA
slice
parallel encoding
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向多线程应用的片上多核处理器私有LLC优化
20
作者
吴建宇
彭蔓蔓
机构
湖南大学信息科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第1期316-321,共6页
基金
国家自然科学基金资助项目(61173037)
文摘
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。
关键词
片上多核
处理器
存储墙
末级Cache
失效开销
缓冲器
Keywords
Chip Multi-processors(CMP)
memory wall
Last Level Cache(LLC)
failure overhead
buffer
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
片上多核处理器存储一致性验证
王朋宇
陈云霁
沈海华
陈天石
张珩
《软件学报》
EI
CSCD
北大核心
2010
13
下载PDF
职称材料
2
片上多核处理器共享资源分配与调度策略研究综述
王磊
刘道福
陈云霁
陈天石
李玲
《计算机研究与发展》
EI
CSCD
北大核心
2013
9
下载PDF
职称材料
3
片上多核Cache资源管理机制研究
贾小敏
张民选
齐树波
赵天磊
《计算机科学》
CSCD
北大核心
2011
6
下载PDF
职称材料
4
Amdahl定律在层次化片上多核处理器中的扩展
陈书明
陈胜刚
尹亚明
《计算机研究与发展》
EI
CSCD
北大核心
2012
7
下载PDF
职称材料
5
片上多核处理器验证:挑战、现状与展望
郭阳
李思昆
屈婉霞
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2012
7
下载PDF
职称材料
6
片上多核处理器Cache一致性协议优化研究综述
胡森森
计卫星
王一拙
陈旭
付文飞
石峰
《软件学报》
EI
CSCD
北大核心
2017
5
下载PDF
职称材料
7
求解N皇后问题的片上多核并行混合遗传算法
张步忠
程玉胜
王一宾
《计算机工程》
CAS
CSCD
北大核心
2015
4
下载PDF
职称材料
8
片上多核处理器容软错误执行模型
龚锐
戴葵
王志英
《计算机学报》
EI
CSCD
北大核心
2008
3
下载PDF
职称材料
9
基于片上多核的频繁项集并行挖掘算法
张步忠
程玉胜
王则林
《计算机科学》
CSCD
北大核心
2014
3
下载PDF
职称材料
10
片上多核处理器的结构级功耗建模与优化技术研究
张戈
胡伟武
黄琨
曾洪博
王君
《自然科学进展》
北大核心
2009
3
下载PDF
职称材料
11
片上多核中一种共享感知的数据主动推送Cache技术
王得利
高德远
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2010
3
下载PDF
职称材料
12
片上多核处理器共享Cache划分的公平性研究
方娟
蒲江
张欣
《计算机工程与设计》
CSCD
北大核心
2010
1
下载PDF
职称材料
13
同构与异构片上多核系统的演进过程
黄乐天
别丽华
《电子技术应用》
北大核心
2017
2
下载PDF
职称材料
14
基于π网的片上多核系统任务调度算法研究
郭荣佐
樊相奎
郭进
《计算机应用研究》
CSCD
北大核心
2016
0
下载PDF
职称材料
15
层次化片上多核处理器性能研究
侯宁
赵红梅
宋宇鲲
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2014
0
下载PDF
职称材料
16
片上多核处理器Cache访问均衡性研究
王子聪
陈小文
郭阳
《计算机学报》
EI
CSCD
北大核心
2019
3
下载PDF
职称材料
17
片上多核处理器共享末级缓存动静结合地址映射机制
曹非
刘志勇
《计算机科学》
CSCD
北大核心
2012
1
下载PDF
职称材料
18
基于FPGA模拟片上多核处理器的新方法
陈新科
黄帅
王焕东
吴瑞阳
曾露
《高技术通讯》
CAS
CSCD
北大核心
2014
0
下载PDF
职称材料
19
基于片上多核的H.264编码的并行加速性研究
宋阳
章晓燕
《计算机时代》
2011
1
下载PDF
职称材料
20
面向多线程应用的片上多核处理器私有LLC优化
吴建宇
彭蔓蔓
《计算机工程》
CAS
CSCD
北大核心
2015
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部