期刊文献+
共找到81篇文章
< 1 2 5 >
每页显示 20 50 100
多核处理器机群Memory层次化并行计算模型研究 被引量:16
1
作者 涂碧波 邹铭 +2 位作者 詹剑锋 赵晓芳 樊建平 《计算机学报》 EI CSCD 北大核心 2008年第11期1948-1955,共8页
多核处理器机群点对点通信同时具有memory纵向层次化特征和横向层次化的新特征.纵向层次化特征揭示了对不同大小和步长的消息进行点对点通信时消息通信中间件对其性能的影响;横向层次化的新特征由intra-CMPi、nter-CMP和inter-node消息... 多核处理器机群点对点通信同时具有memory纵向层次化特征和横向层次化的新特征.纵向层次化特征揭示了对不同大小和步长的消息进行点对点通信时消息通信中间件对其性能的影响;横向层次化的新特征由intra-CMPi、nter-CMP和inter-node消息通信性能的显著差异引起,目前缺少有效的分析模型.文中提出一种新的memory层次化并行计算模型,对多核处理器机群memory横向、纵向层次化特征进行了统一的抽象.在对多核处理器机群点对点通信和集合通信的开销进行模型分析和实际测试中,新模型的精确性优于现有的未引入memory横向层次化特征的模型. 展开更多
关键词 多核处理器机群 memory层次化 并行计算模型 MPI 多核意识
下载PDF
swLLVM:面向神威新一代超级计算机的优化编译器
2
作者 沈莉 周文浩 +5 位作者 王飞 肖谦 武文浩 张鲁飞 安虹 漆锋滨 《软件学报》 EI CSCD 北大核心 2024年第5期2359-2378,共20页
异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申... 异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro.为了发挥新一代众核处理器的性能优势,支撑新兴科学计算应用的开发和优化,设计并实现面向SW26010Pro平台的优化编译器swLLVM.该编译器支持Athread和SDAA双模态异构编程模型,提供多级存储层次描述及向量操作扩展,并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化.测试结果表明,所设计并实现的编译优化效果显著,其中,控制流向量化和节点合并优化的平均加速比分别为1.23和1.11,而访存相关优化最高可获得2.49倍的性能提升.最后,使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估,相较于SWGCC的相同优化级别,swLLVM整型课题性能平均下降0.12%,浮点型课题性能平均提升9.04%,整体性能平均提升5.25%,编译速度平均提升79.1%,代码尺寸平均减少1.15%. 展开更多
关键词 异构众核 编译系统 编程模型 存储层次 向量化 节点合并 访存优化
下载PDF
Efficient cache replacement framework based on access hotness for spacecraft processors
3
作者 GAO Xin NIAN Jiawei +1 位作者 LIU Hongjin YANG Mengfei 《中国空间科学技术(中英文)》 CSCD 北大核心 2024年第2期74-88,共15页
A notable portion of cachelines in real-world workloads exhibits inner non-uniform access behaviors.However,modern cache management rarely considers this fine-grained feature,which impacts the effective cache capacity... A notable portion of cachelines in real-world workloads exhibits inner non-uniform access behaviors.However,modern cache management rarely considers this fine-grained feature,which impacts the effective cache capacity of contemporary high-performance spacecraft processors.To harness these non-uniform access behaviors,an efficient cache replacement framework featuring an auxiliary cache specifically designed to retain evicted hot data was proposed.This framework reconstructs the cache replacement policy,facilitating data migration between the main cache and the auxiliary cache.Unlike traditional cacheline-granularity policies,the approach excels at identifying and evicting infrequently used data,thereby optimizing cache utilization.The evaluation shows impressive performance improvement,especially on workloads with irregular access patterns.Benefiting from fine granularity,the proposal achieves superior storage efficiency compared with commonly used cache management schemes,providing a potential optimization opportunity for modern resource-constrained processors,such as spacecraft processors.Furthermore,the framework complements existing modern cache replacement policies and can be seamlessly integrated with minimal modifications,enhancing their overall efficacy. 展开更多
关键词 spacecraft processors cache management replacement policy storage efficiency memory hierarchy MICROARCHITECTURE
下载PDF
申威众核处理器访存与通信融合编译优化
4
作者 方燕飞 李雁冰 +2 位作者 董恩铭 王云飞 刘齐 《软件学报》 EI CSCD 北大核心 2024年第6期2648-2667,共20页
申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻... 申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻用户编程优化负担,提出一种多级存储层次访存与通信融合的编译优化方法.该方法首先设计融合编译指示,将程序高层信息传递给编译器.其次构建编译优化收益模型并设计启发式循环优化方案迭代求解框架,并由编译器完成循环优化方案的求解和优化代码的变换.通过编译生成的DMA和RMA批量数据传输操作,将较低存储层次空间中高访问延迟的核心数据批量缓冲进低访问延迟的更高存储层次空间中.在3个典型测试用例上进行优化实验测试与分析,结果表明所提出的优化在性能上与手工优化相当,较未优化版程序性能有显著提升. 展开更多
关键词 申威众核处理器 多级存储层次 RMA通信 并行语言 编译优化
下载PDF
基于Flash混合存储的数据迁移技术研究
5
作者 周海 周子强 《电子设计工程》 2024年第11期51-54,59,共5页
混合存储系统内的数据结构较为混乱,为提高数据迁移效率,减少其响应时间,设计基于Flash混合存储的数据迁移技术。综合比较Flash存储器、固态硬盘存储器以及磁盘存储器的存储效果,对存储介质进行缓存分层,整理其在同层结构与分层结构中... 混合存储系统内的数据结构较为混乱,为提高数据迁移效率,减少其响应时间,设计基于Flash混合存储的数据迁移技术。综合比较Flash存储器、固态硬盘存储器以及磁盘存储器的存储效果,对存储介质进行缓存分层,整理其在同层结构与分层结构中的读写顺序;计算文件的时间长度值,获取文件读写频率以及单位时间内的文件访问量,计算文件预期价值,并得到相应的约束条件,由此建立数据价值评定模型,设计数据迁移算法。实验结果表明,在邮件负载条件下效果更好,在不同时段内,响应时间均不超过3 s,因此该数据迁移技术的响应时间较短,性能较好。 展开更多
关键词 FLASH存储器 混合存储 数据迁移技术 缓存分层结构 数据价值评定 磁盘寻道距离
下载PDF
一种新型GPU芯片Hierarchy Z架构的设计方案
6
作者 王渊峰 武凤霞 阙恒 《集成电路应用》 2017年第6期14-17,共4页
在图形处理芯片GPU芯片架构设计中,Hierarchy Z是一种Tile粒度的Z Buffer技术,Graphics Pipeline中,它处于Z Buffer之前,经过它剔除掉的Tile,可以省掉后继Z Buffer的读写,并提高图形渲染的效率和性能。但是对于Hierarchy Z不能剔除的Ti... 在图形处理芯片GPU芯片架构设计中,Hierarchy Z是一种Tile粒度的Z Buffer技术,Graphics Pipeline中,它处于Z Buffer之前,经过它剔除掉的Tile,可以省掉后继Z Buffer的读写,并提高图形渲染的效率和性能。但是对于Hierarchy Z不能剔除的Tile,如何有效的节省它们的Z Buffer的读写,业界还鲜有研究。通过对传统Hierarchy Z硬件算法研究改进,一个双层次的基于Z Slope的Z Range方案被提出。新的Hierarchy Z不仅可以全精度恢复Tile中所有Z值,还能提高Tile的Reject率和Accept率。经过Bench测试,最终能节省约88%Accept Tile的Z Buffer读写,并进一步节省10%~40%的Z Buffer Memory开销。 展开更多
关键词 图形处理芯片 GPU Z缓存 层次Z 像素块 存储开销
下载PDF
基于用户记忆矩阵的长序列推荐算法 被引量:2
7
作者 鹿祥志 孙福振 +2 位作者 王绍卿 董家玮 吴相帅 《智能系统学报》 CSCD 北大核心 2023年第3期517-524,共8页
传统的循环神经网络,如长短期记忆网络和门控循环单元,记忆能力有限而且记忆数据的存取不够灵活,对较长序列的特征捕捉有着先天的不足。记忆网络具有存储长时记忆的特点,而且对于记忆数据的存取更加灵活多变,因此本文在基于会话的推荐... 传统的循环神经网络,如长短期记忆网络和门控循环单元,记忆能力有限而且记忆数据的存取不够灵活,对较长序列的特征捕捉有着先天的不足。记忆网络具有存储长时记忆的特点,而且对于记忆数据的存取更加灵活多变,因此本文在基于会话的推荐算法中引入了记忆网络。本文设计了一个层次化的推荐模型,模型分为2层。第1层为会话级的GRU模型,此模型用来刻画当前会话的序列特征,从而预测下一个项目。第2层为用户级的记忆网络模型,这个模型用来刻画用户长期兴趣的变化。本文提出的模型能有效地捕捉到用户的短期和长期兴趣,进而提升推荐的性能。公开数据集上的实验证明,在会话个数为10相对于会话个数为5的性能提升对比中,本文所提带有用户记忆矩阵的分层网络算法在召回率和平均倒数排名的提升度上相对于分层门控循环单元都有4%的增加。 展开更多
关键词 记忆网络 层次化 长期兴趣 短期兴趣 长短期记忆网络 门控循环单元 长序列推荐 会话推荐
下载PDF
一种识别作战意图的层次聚合模型
8
作者 李颖 武君胜 +2 位作者 李伟刚 董玮 房爱青 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第2期400-408,共9页
作战意图识别是指对敌方目标的状态信息进行分析,从而解释和判断敌方想要达到的目的。随着作战平台信息化程度的不断提高,这些具有时序性的敌方状态信息呈现多维、海量的特点。面对这样的特点,提出基于神经网络的方法学习敌方状态信息... 作战意图识别是指对敌方目标的状态信息进行分析,从而解释和判断敌方想要达到的目的。随着作战平台信息化程度的不断提高,这些具有时序性的敌方状态信息呈现多维、海量的特点。面对这样的特点,提出基于神经网络的方法学习敌方状态信息。由于作战意图具有层次性,并且意图行为之间具有依赖关系,设计了一种层次聚合模型,模型底层基于卷积神经网络感知行为特征,中间层基于双向长短时记忆网络聚合子意图之间的长时依赖信息,表达意图内部关系。顶层通过注意力机制将特征聚焦于对识别意图有更高贡献的高级特征,最终感知全局信息以识别目标作战意图。实验数据表明,相比其他网络结构,提出的模型可以表达意图的层次性以及意图之间的长时依赖关系,识别准确率可以达到88.83%,适用于现代战场空中目标意图的识别问题。 展开更多
关键词 意图识别 卷积神经网络 双向长短时记忆网络 注意力机制 层次聚合
下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
9
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 众核处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
Fuzzy pattern recognition model of geological sweetspot for coalbed methane development
10
作者 LIU Gaofeng LIU Huan +3 位作者 XIAN Baoan GAO Deli WANG Xiaoming ZHANG Zhen 《Petroleum Exploration and Development》 SCIE 2023年第4期924-933,共10页
From the perspective of geological zone selection for coalbed methane(CBM) development, the evaluation parameters(covering geological conditions and production conditions) of geological sweetspot for CBM development a... From the perspective of geological zone selection for coalbed methane(CBM) development, the evaluation parameters(covering geological conditions and production conditions) of geological sweetspot for CBM development are determined, and the evaluation index system of geological sweetspot for CBM development is established. On this basis, the fuzzy pattern recognition(FPR) model of geological sweetspot for CBM development is built. The model is applied to evaluate four units of No.3 Coal Seam in the Fanzhuang Block, southern Qinshui Basin, China. The evaluation results are consistent with the actual development effect and the existing research results, which verifies the rationality and reliability of the FPR model. The research shows that the proposed FPR model of geological sweetspot for CBM development does not involve parameter weighting which leads to uncertainties in the results of the conventional models such as analytic hierarchy process and multi-level fuzzy synthesis judgment, and features a simple computation without the construction of multi-level judgment matrix. The FPR model provides reliable results to support the efficient development of CBM. 展开更多
关键词 coalbed methane development geological sweetspot evaluation index system analytic hierarchy process multi-level fuzzy synthesis judgment fuzzy pattern recognition
下载PDF
基于序贯波形的DRFM干扰机行为参数测试技术
11
作者 胡婉婉 张劲东 +1 位作者 王超宇 柏磊 《现代雷达》 CSCD 北大核心 2023年第4期75-80,共6页
有源干扰机的行为参数测试是雷达抗干扰技术的前提和基础,具有重要的研究价值。针对数字射频存储器(DRFM)干扰机行为参数测试问题,文中设计了一种基于序贯波形的DRFM干扰机行为参数测试方案。该方案针对干扰机信道化、瞄频、转发、分选... 有源干扰机的行为参数测试是雷达抗干扰技术的前提和基础,具有重要的研究价值。针对数字射频存储器(DRFM)干扰机行为参数测试问题,文中设计了一种基于序贯波形的DRFM干扰机行为参数测试方案。该方案针对干扰机信道化、瞄频、转发、分选以及策略方式设计了行为参数集合,并根据行为参数对干扰机干扰能力进行了划分,同时提出了一种基于序贯波形的DRFM干扰机行为参数测试方法,该方法基于层次分析法(AHP)和逼近理想解的排序方法(TOPSIS)进行干扰能力识别。仿真结果表明,在干噪比为2 dB时,干扰机行为的识别正确率达到90%以上。 展开更多
关键词 数字射频存储器 参数测试 序贯波形 层次分析法 逼近理想解的排序方法
下载PDF
基于工作记忆模型的老年康复类产品界面层级设计研究
12
作者 王创 杨爱慧 《工业设计》 2023年第9期77-80,共4页
为改善老年人康复训练体验,加强老年康复类产品界面层级间联系的科学性与紧密性,顺应老年人记忆认知规律与操作习惯。文章根据工作记忆理论及模型特点,以及老年人在使用康复类产品时存在的问题与障碍,研究分析康复类产品界面层级设计思... 为改善老年人康复训练体验,加强老年康复类产品界面层级间联系的科学性与紧密性,顺应老年人记忆认知规律与操作习惯。文章根据工作记忆理论及模型特点,以及老年人在使用康复类产品时存在的问题与障碍,研究分析康复类产品界面层级设计思路,即基于工作记忆模型里中枢执行系统、视觉空间模板和情景缓冲器三个阶段的界面层级设计思路,运用信息编码的方法进行系统化组合,构建界面层级框架。希望通过文章的研究,能够提升老年人与康复类产品界面交互过程中的使用体验。 展开更多
关键词 工作记忆模型 老年群体 康复类产品 界面层级设计
下载PDF
An efficient labeled memory system for learned indexes
13
作者 Yuxuan Mo Jingnan Jia +1 位作者 Pengfei Li Yu Hua 《Fundamental Research》 CAS CSCD 2024年第3期651-659,共9页
The appearance and wide use of memory hardware bring significant changes to the conventional vertical memory hierarchy that fails to handle contentions for shared hardware resources and expensive data movements.To dea... The appearance and wide use of memory hardware bring significant changes to the conventional vertical memory hierarchy that fails to handle contentions for shared hardware resources and expensive data movements.To deal with these problems,existing schemes have to rely on inefficient scheduling strategies that also cause extra temporal,spatial and bandwidth overheads.Based on the insights that the shared hardware resources trend to be uniformly and hierarchically offered to the requests for co-located applications in memory systems,we present an efficient abstraction of memory hierarchies,called Label,which is used to establish the connection between the application layer and underlying hardware layer.Based on labels,our paper proposes LaMem,a labeled,resource-isolated and cross-tiered memory system by leveraging the way-based partitioning technique for shared resources to guarantee QoS demands of applications,while supporting fast and low-overhead cache repartitioning technique.Besides,we customize LaMem for the learned index that fundamentally replaces storage structures with computation models as a case study to verify the applicability of LaMem.Experimental results demonstrate the efficiency and efficacy of LaMem. 展开更多
关键词 Heterogeneous memory system Cache hierarchy Data movement Resource contention Learned index
原文传递
嵌入式处理器中访存部件的低功耗设计研究 被引量:11
14
作者 黄海林 范东睿 +1 位作者 许彤 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第5期815-821,共7页
以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次... 以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次数,使得TLB部件功耗平均降低了28.1%,Cache部件功耗平均降低了54.3%,处理器总功耗平均降低了23.2%,而关键路径延时反而减少,处理器性能略有提高. 展开更多
关键词 访存部件 TLB CACHE 低功耗 龙芯1号
下载PDF
面向Cell宽带引擎架构的异构多核访存技术 被引量:10
15
作者 冯国富 董小社 +1 位作者 丁彦飞 王旭昊 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第2期1-5,共5页
针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批... 针对Cell宽带引擎架构(CBEA)多核高性能处理器要求软件显式地对分层存储结构进行管理,带来架构的可编程性及性能等问题,提出了一种基于CBEA的异构多核访存技术.将CBEA访存分为批量访存和按需访存;通过合理部署数据缓冲区来减小批量访存计算中的片内访存开销,利用支持粗粒度访问的软件管理cache及数据预取来降低按需访存的片外访存开销;以访存接口库的方式来改善软件的可编程性.实验结果表明,所提技术的访存接口库在批量访存方式下的性能比ALF和CellSs提高了30%~50%,按需访存中软件管理cache性能比CBE软件开发工具包提高了20%~30%,4路数据预取访存比单路缓存的性能提高约50%. 展开更多
关键词 异构多核 访存技术 分层存储结构 Cell宽带引擎架构
下载PDF
GPU异构系统中的存储层次和负载均衡策略研究 被引量:11
16
作者 马安国 成玉 +1 位作者 唐遇星 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期38-43,共6页
GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提... GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提出三种基本负载均衡优化策略:预取、流化、任务划分。试验结果揭示了不同的优化因子与优化效率之间的具体关联。 展开更多
关键词 GPGPU 存储层次 负载均衡策略 流计算 任务划分
下载PDF
一种基于两级存储结构的网络流量测量算法 被引量:3
17
作者 张进 刘勤让 +1 位作者 司亮 邬江兴 《计算机工程》 CAS CSCD 北大核心 2007年第10期10-12,21,共4页
为了准确而完备地测量高速骨干网中各条流的流量,需要容量大且速度快的存储器来保存所有流的状态信息,因而代价极高。该文提出了一种基于两级存储结构的网络流量测量算法。两级存储结构由容量小但速度快的一级存储器和容量大但速度慢的... 为了准确而完备地测量高速骨干网中各条流的流量,需要容量大且速度快的存储器来保存所有流的状态信息,因而代价极高。该文提出了一种基于两级存储结构的网络流量测量算法。两级存储结构由容量小但速度快的一级存储器和容量大但速度慢的二级存储器构成。考虑到网络流量分布的Quasi-Zipf法则,测量算法尽量将大流量流的状态信息保存在一级存储器中,将小流量流的状态信息保存在二级存储器中,较好地解决了存储器容量和速度之间的矛盾。仿真结果表明,与抽样测量相比,该算法具有较小、较平均的测量误差。 展开更多
关键词 流量测量 分级存储结构 网络监测
下载PDF
一种高效GPU存储系统体系架构设计 被引量:7
18
作者 卢俊 颜哲 田泽 《计算机技术与发展》 2015年第4期6-9,共4页
图形处理技术被广泛应用于电影、视频、游戏以及动画的制作,而图形处理系统(GPU)的出现极大地减轻了CPU日益繁重的图形处理任务,使得其能更专注于通用控制。文中阐述了制约GPU性能提升的重要因素,指出提高带宽利用率是应对这一问题的关... 图形处理技术被广泛应用于电影、视频、游戏以及动画的制作,而图形处理系统(GPU)的出现极大地减轻了CPU日益繁重的图形处理任务,使得其能更专注于通用控制。文中阐述了制约GPU性能提升的重要因素,指出提高带宽利用率是应对这一问题的关键措施。通过局部性原理的分析,提出了一种基于层次化架构的高效GPU存储系统的设计。文中介绍了4层结构的存储系统,并逐层说明了各自的功能和架构,评估了基于层次化存储架构的GPU在典型应用中的带宽。文中还描述了Cache以及显存管理等子模块的功能。通过仿真可知,该GPU存储系统能充分利用共享和复用等手段尽量减少外部存储器的访问次数,从而提高了带宽利用率。 展开更多
关键词 图形处理系统 层次化存储 带宽 存储管理模块
下载PDF
面向存储层次设计优化的GPU程序性能分析 被引量:2
19
作者 唐滔 彭林 +1 位作者 黄春 杨灿群 《计算机科学》 CSCD 北大核心 2017年第12期1-10,共10页
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有... 图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。 展开更多
关键词 异构系统 图形处理器 存储层次 性能分析 优化
下载PDF
基于经典存储器的量子计算机存储系统 被引量:1
20
作者 吴俊杰 姜晶菲 +1 位作者 潘晓辉 杨学军 《计算机工程与应用》 CSCD 北大核心 2006年第30期98-101,共4页
量子计算机具有许多与经典计算机不同的量子特性,其性能远远优于经典计算机,但量子力学特有的性质也使得量子计算机的设计方法不同于经典计算机。在量子计算机中应用经典计算机的存储层次将会遇到一些前所未有的困难,文章提出了一种解... 量子计算机具有许多与经典计算机不同的量子特性,其性能远远优于经典计算机,但量子力学特有的性质也使得量子计算机的设计方法不同于经典计算机。在量子计算机中应用经典计算机的存储层次将会遇到一些前所未有的困难,文章提出了一种解决方案,以便能够在量子计算机的存储系统中应用与经典计算机类似的层次结构来提高访存性能。最后,文章给出了这种层次结构下访存性能的分析结果,指出了在何种条件下才能最大程度地发挥层次结构的性能。 展开更多
关键词 量子计算机 存储层次 量子存储器
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部