期刊文献+
共找到103篇文章
< 1 2 6 >
每页显示 20 50 100
Adaptive Cache Allocation with Prefetching Policy over End-to-End Data Processing
1
作者 Hang Qin Li Zhu 《Journal of Signal and Information Processing》 2017年第3期152-160,共9页
With the speed gap between storage system access and processor computing, end-to-end data processing has become a bottleneck to improve the total performance of computer systems over the Internet. Based on the analysi... With the speed gap between storage system access and processor computing, end-to-end data processing has become a bottleneck to improve the total performance of computer systems over the Internet. Based on the analysis of data processing behavior, an adaptive cache organization scheme is proposed with fast address calculation. This scheme can make full use of the characteristics of stack space data access, adopt fast address calculation strategy, and reduce the hit time of stack access. Adaptively, the stack cache can be turned off from beginning to end, when a stack overflow occurs to avoid the effect of stack switching on processor performance. Also, through the instruction cache and the failure behavior for the data cache, a prefetching policy is developed, which is combined with the data capture of the failover queue state. Finally, the proposed method can maintain the order of instruction and data access, which facilitates the extraction of prefetching in the end-to-end data processing. 展开更多
关键词 END-TO-END data Processing STORAGE System CACHE prefetching
下载PDF
Research on data pre-deployment in information service flow of digital ocean cloud computing
2
作者 SHI Suixiang XU Lingyu +4 位作者 DONG Han WANG Lei WU Shaochun QIAO Baiyou WANG Guoren 《Acta Oceanologica Sinica》 SCIE CAS CSCD 2014年第9期82-92,共11页
Data pre-deployment in the HDFS (Hadoop distributed file systems) is more complicated than that in traditional file systems. There are many key issues need to be addressed, such as determining the target location of... Data pre-deployment in the HDFS (Hadoop distributed file systems) is more complicated than that in traditional file systems. There are many key issues need to be addressed, such as determining the target location of the data prefetching, the amount of data to be prefetched, the balance between data prefetching services and normal data accesses. Aiming to solve these problems, we employ the characteristics of digital ocean information service flows and propose a deployment scheme which combines input data prefetching with output data oriented storage strategies. The method achieves the parallelism of data preparation and data processing, thereby massively reducing I/O time cost of digital ocean cloud computing platforms when processing multi-source information synergistic tasks. The experimental results show that the scheme has a higher degree of parallelism than traditional Hadoop mechanisms, shortens the waiting time of a running service node, and significantly reduces data access conflicts. 展开更多
关键词 HDFS data prefetching cloud computing service flow digital ocean
下载PDF
深度学习在多核缓存预取中的应用研究综述
3
作者 张建勋 乔欣雨 林炳辉 《计算机应用研究》 CSCD 北大核心 2024年第2期341-347,共7页
当前人工智能技术应用于系统结构领域的研究前景广阔,特别是将深度学习应用于多核架构的数据预取研究已经成为国内外的研究热点。针对基于深度学习的缓存预取任务进行了研究,形式化地定义了深度学习缓存预取模型。在介绍当前常见的多核... 当前人工智能技术应用于系统结构领域的研究前景广阔,特别是将深度学习应用于多核架构的数据预取研究已经成为国内外的研究热点。针对基于深度学习的缓存预取任务进行了研究,形式化地定义了深度学习缓存预取模型。在介绍当前常见的多核缓存架构和预取技术的基础上,全面分析了现有基于深度学习的典型缓存预取器的设计思路。深度学习神经网络在多核缓存预取领域的应用主要采用了深度神经网络、循环神经网络、长短期记忆网络和注意力机制等机器学习方法,综合对比分析现有基于深度学习的数据预取神经网络模型后发现,基于深度学习的多核缓存预取技术在计算成本、模型优化和实用性等方面还存在着局限性,未来在自适应预取模型以及神经网络预取模型的实用性方面还有很大的研究探索空间和发展前景。 展开更多
关键词 深度学习 数据预取 多核架构 缓存优化 神经网络 研究综述
下载PDF
Taxonomy of Data Prefetching for Multicore Processors 被引量:1
4
作者 Surendra Byna 陈勇 孙贤和 《Journal of Computer Science & Technology》 SCIE EI CSCD 2009年第3期405-417,共13页
Data prefetching is an effective data access latency hiding technique to mask the CPU stall caused by cache misses and to bridge the performance gap between processor and memory. With hardware and/or software support,... Data prefetching is an effective data access latency hiding technique to mask the CPU stall caused by cache misses and to bridge the performance gap between processor and memory. With hardware and/or software support, data prefetching brings data closer to a processor before it is actually needed. Many prefetching techniques have been developed for single-core processors. Recent developments in processor technology have brought multicore processors into mainstream. While some of the single-core prefetching techniques are directly applicable to multicore processors, numerous novel strategies have been proposed in the past few years to take advantage of multiple cores. This paper aims to provide a comprehensive review of the state-of-the-art prefetching techniques, and proposes a taxonomy that classifies various design concerns in developing a prefetching strategy, especially for multicore processors. We compare various existing methods through analysis as well. 展开更多
关键词 taxonomy of prefetching strategies multicore processors data prefetching memory hierarchy
原文传递
I/O Acceleration via Multi-Tiered Data Buffering and Prefetching 被引量:2
5
作者 Anthony Kougkas Hariharan Devarajan Xian-He Sun 《Journal of Computer Science & Technology》 SCIE EI CSCD 2020年第1期92-120,共29页
Modern High-Performance Computing(HPC)systems are adding extra layers to the memory and storage hierarchy,named deep memory and storage hierarchy(DMSH),to increase I/O performance.New hardware technologies,such as NVM... Modern High-Performance Computing(HPC)systems are adding extra layers to the memory and storage hierarchy,named deep memory and storage hierarchy(DMSH),to increase I/O performance.New hardware technologies,such as NVMe and SSD,have been introduced in burst buffer installations to reduce the pressure for external storage and boost the burstiness of modern I/O systems.The DMSH has demonstrated its strength and potential in practice.However,each layer of DMSH is an independent heterogeneous system and data movement among more layers is significantly more complex even without considering heterogeneity.How to efficiently utilize the DMSH is a subject of research facing the HPC community.Further,accessing data with a high-throughput and low-latency is more imperative than ever.Data prefetching is a well-known technique for hiding read latency by requesting data before it is needed to move it from a high-latency medium(e.g.,disk)to a low-latency one(e.g.,main memory).However,existing solutions do not consider the new deep memory and storage hierarchy and also suffer from under-utilization of prefetching resources and unnecessary evictions.Additionally,existing approaches implement a client-pull model where understanding the application's I/O behavior drives prefetching decisions.Moving towards exascale,where machines run multiple applications concurrently by accessing files in a workflow,a more data-centric approach resolves challenges such as cache pollution and redundancy.In this paper,we present the design and implementation of Hermes:a new,heterogeneous-aware,multi-tiered,dynamic,and distributed I/O buffering system.Hermes enables,manages,supervises,and,in some sense,extends I/O buffering to fully integrate into the DMSH.We introduce three novel data placement policies to efficiently utilize all layers and we present three novel techniques to perform memory,metadata,and communication management in hierarchical buffering systems.Additionally,we demonstrate the benefits of a truly hierarchical data prefetcher that adopts a server-push approach to data prefetching.Our evaluation shows that,in addition to automatic data movement through the hierarchy,Hermes can significantly accelerate I/O and outperforms by more than 2x state-of-the-art buffering platforms.Lastly,results show 10%-35%performance gains over existing prefetchers and over 50%when compared to systems with no prefetching. 展开更多
关键词 I/O BUFFERING heterogeneous BUFFERING layered BUFFERING deep memory hierarchy BURST BUFFERS hierarchical data prefetching data-CENTRIC architecture
原文传递
Web预取技术综述 被引量:19
6
作者 班志杰 古志民 金瑜 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期202-210,共9页
Web预取是减少用户访问延时、提高网络服务质量的关键技术之一,近年来已成为国内外的研究热点.通过利用WWW访问的空间局部性,Web预取使缓存机制从时间局部性向空间局部性扩展.归纳了Web预取技术的分类,概括和比较了不同类别的优势和局限... Web预取是减少用户访问延时、提高网络服务质量的关键技术之一,近年来已成为国内外的研究热点.通过利用WWW访问的空间局部性,Web预取使缓存机制从时间局部性向空间局部性扩展.归纳了Web预取技术的分类,概括和比较了不同类别的优势和局限性,给出了预取模型的基本框架及每部分的主要功能,并对各种评价标准进行了详细介绍.同时,深入分析和探讨了现有的几种典型预取算法,系统地比较了这些算法的优缺点.最后从在线性、协作预取、动态流行度、划分用户会话和基于语义与基于路径相结合等方面指出了Web预取技术的研究方向. 展开更多
关键词 WEB预取 WEB缓存 预取控制 PPM 数据挖掘
下载PDF
移动环境下支持实时事务处理的数据预取 被引量:8
7
作者 李国徽 杨兵 +1 位作者 陈辉 杜建强 《计算机学报》 EI CSCD 北大核心 2008年第10期1841-1847,共7页
随着移动通信技术的迅速发展,人们提出了新的应用要求:在移动环境下处理实时事务.而移动通信带宽有限性引起较大的数据访问延迟,有时甚至由于网络传输的断接使得事务得不到所需要的数据,数据预取能够很好地解决这个问题.已有的移动环境... 随着移动通信技术的迅速发展,人们提出了新的应用要求:在移动环境下处理实时事务.而移动通信带宽有限性引起较大的数据访问延迟,有时甚至由于网络传输的断接使得事务得不到所需要的数据,数据预取能够很好地解决这个问题.已有的移动环境下数据预取没有考虑到数据的流行性和事务的时间特性.该文分析影响实时事务数据预取的因素,首先考虑数据易变性、活跃性等因素,获得高价值预取数据集合;然后考虑访问预取数据的事务优先级、数据流行性等因素,构造预取数据的选择函数,通过该函数在前面选取的集合中筛选出对满足实时事务截止期更有价值的数据对象进行预取.实验表明,该数据预取策略能降低移动实时事务满足截止期的比率,更好地支持移动实时事务处理. 展开更多
关键词 数据预取 移动实时事务 缓存失效 预取策略
下载PDF
指令级并行编译器的数据预取及优化方法 被引量:8
8
作者 连瑞琦 张兆庆 乔如良 《计算机学报》 EI CSCD 北大核心 2000年第6期576-584,共9页
微处理器芯片的处理能力越来越强 .但是 ,存储器的速度却远远不能与其匹配 ,造成了整个系统的性能不理想 .为解决这个问题 ,编译器发展了局部性优化、数据预取等多种技术 .文中将介绍一种用于 IL P(Instructionlevel Parallelism)优化... 微处理器芯片的处理能力越来越强 .但是 ,存储器的速度却远远不能与其匹配 ,造成了整个系统的性能不理想 .为解决这个问题 ,编译器发展了局部性优化、数据预取等多种技术 .文中将介绍一种用于 IL P(Instructionlevel Parallelism)优化编译器的数据预取技术以及一种利用寄存器堆减少主存访问次数、对程序进行优化的方法 .利用它们可以提高平均存储性能 。 展开更多
关键词 数据预取 寄存器堆 预取优化 指令级并行编译器
下载PDF
一种自适应的数据预取与缓冲算法 被引量:6
9
作者 朱鸿宇 刘瑰 +1 位作者 唐福华 陈左宁 《计算机工程与应用》 CSCD 北大核心 2006年第24期13-15,42,共4页
在海量数据中进行的直接查找往往耗时巨大,在实际应用中很难满足实时性的需求,因此采用数据预取和缓冲技术实现对查找操作的优化成为实际系统中的重要环节。自适应的数据预取和缓冲算法是通过使用人工智能中的技术来分析用户的查询习惯... 在海量数据中进行的直接查找往往耗时巨大,在实际应用中很难满足实时性的需求,因此采用数据预取和缓冲技术实现对查找操作的优化成为实际系统中的重要环节。自适应的数据预取和缓冲算法是通过使用人工智能中的技术来分析用户的查询习惯,从而实现动态的预取策略并对预取的数据进行缓冲,以达到提高查询速度的目的。文章根据不同的数据查询需求提出了两类智能算法以适应不同的应用场合。在实验中分别针对单个用户的历史查询应用和多用户的并发查询应用分别进行了分析,证明了这两类智能算法分别对不同的应用场合拥有较好的性能。 展开更多
关键词 自适应 数据预取 人工智能
下载PDF
基于龙芯2F体系结构的BLAS库优化 被引量:13
10
作者 顾乃杰 李凯 +1 位作者 陈国良 吴超 《中国科学技术大学学报》 CAS CSCD 北大核心 2008年第7期854-859,共6页
在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测... 在KD-50-I平台上,基于常用优化技术,根据龙芯2F体系结构的特点,在数据预取、指令调度方面,针对高性能计算机系统中能有效解决线性代数问题的子程序集合BLAS,提出了新的优化技术,充分发挥龙芯2F处理器的性能,实现了高性能的BLAS.实际测试表明,高性能BLAS在750 MHz的龙芯2F处理器(双精度浮点峰值3 Gflops)上HPL实测峰值达到1.47 GHz,比原始BLAS提高了6倍以上,比ATLAS提高了45%. 展开更多
关键词 BLAS 龙芯2F KD-50-Ⅰ 数据预取 指令调度
下载PDF
基于马尔可夫模型的数据值预取方案 被引量:5
11
作者 谢学军 叶以正 +1 位作者 邱善勤 喻明艳 《电子学报》 EI CAS CSCD 北大核心 2007年第2期307-310,共4页
根据程序中Load指令的行为特征构造马尔可夫模型,进而提出预取器的结构方案.SPEC仿真结果表明,与采用二级值预测方案以及基于程序语句相关的预取方案相比,在预测指令的覆盖率上分别提高了9.51%和2.02%,在预测精度上分别提高了12.9%和8.... 根据程序中Load指令的行为特征构造马尔可夫模型,进而提出预取器的结构方案.SPEC仿真结果表明,与采用二级值预测方案以及基于程序语句相关的预取方案相比,在预测指令的覆盖率上分别提高了9.51%和2.02%,在预测精度上分别提高了12.9%和8.2%,而在IPC上,则分别提高了16.7%和7.4%. 展开更多
关键词 数据相关 马尔可夫模型 数据值预取
下载PDF
多维数据的Z-Ordering存储映射算法及其缓存调度优化 被引量:8
12
作者 侯昉 陆寄远 黄承慧 《计算机工程与科学》 CSCD 北大核心 2016年第5期877-884,共8页
多维数据以线性形式在存储系统中进行访问操作,二维及以上维度空间中的相邻节点被不同的映射算法映射到一维空间的不相邻位置。高维空间中进行相邻节点访问时,其一维存储映射位置有着不同的访问距离和访问延迟。提出了基于空间填充曲线Z... 多维数据以线性形式在存储系统中进行访问操作,二维及以上维度空间中的相邻节点被不同的映射算法映射到一维空间的不相邻位置。高维空间中进行相邻节点访问时,其一维存储映射位置有着不同的访问距离和访问延迟。提出了基于空间填充曲线Z-Ordering的存储映射方法及其访问距离的度量指标,并和常规优先算法进行了对比,发现能更好地将高维相邻的数据节点簇集到一维存储位置,加强了局部性。调整缓存空间中用于预取的空间大小,可以利用增强的局部性,提高了缓存命中率。实验结果表明,改善了多维数据的访问速度,优化了系统性能。 展开更多
关键词 多维数据 存储映射 缓存 预取 命中率
下载PDF
面向龙芯3B1500体系结构的DGEMM函数优化 被引量:3
13
作者 刘刚 张恒 +1 位作者 毛睿 陆克中 《小型微型计算机系统》 CSCD 北大核心 2014年第7期1523-1527,共5页
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现... 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上. 展开更多
关键词 龙芯3B1500处理器 BLAS DGEMM 矩阵乘法 数据预取
下载PDF
面向非规则大数据分析应用的多核帮助线程预取方法 被引量:4
14
作者 张建勋 古志民 +1 位作者 胡潇涵 蔡旻 《通信学报》 EI CSCD 北大核心 2014年第8期137-146,共10页
大数据分析应用往往采用基于大型稀疏图的遍历算法,其主要特点是非规则数据密集访存。以频繁使用的具有大型稀疏图遍历特征的介度中心算法为例,提出一种基于帮助线程的多参数预取控制模型和参数优化方法,从而达到提高非规则数据密集程... 大数据分析应用往往采用基于大型稀疏图的遍历算法,其主要特点是非规则数据密集访存。以频繁使用的具有大型稀疏图遍历特征的介度中心算法为例,提出一种基于帮助线程的多参数预取控制模型和参数优化方法,从而达到提高非规则数据密集程序性能的目的。在商用多核平台Q6600和I7上运用该方法后,介度中心算法在不同规模输入下平均性能加速比分别为1.20和1.11。实验结果表明,帮助线程预取能够有效提升该类非规则应用程序的性能。 展开更多
关键词 帮助线程预取 非规则数据密集应用 介度中心性
下载PDF
p-HPF并行编译系统核外计算的实现及优化策略 被引量:4
15
作者 丁文魁 汪剑平 +2 位作者 向华 李晓明 许卓群 《计算机学报》 EI CSCD 北大核心 1999年第10期1042-1049,共8页
文中阐述了p-HPF编译系统中对核外计算的支持以及采取的优化策略.通过对编程模型的扩充和并行I/O模型的构造,p-HPF编译系统已能对核外数组进行有效的处理.通过采用数据筛选、行列优先、预取、文件与数组的一一映射等优... 文中阐述了p-HPF编译系统中对核外计算的支持以及采取的优化策略.通过对编程模型的扩充和并行I/O模型的构造,p-HPF编译系统已能对核外数组进行有效的处理.通过采用数据筛选、行列优先、预取、文件与数组的一一映射等优化策略,使并行程序执行核外计算的效率得到了大幅度地提高.文中叙述了核外计算模型及其优化的设计思想与实现。 展开更多
关键词 核外计算 核外数组 数据筛选 并行编译系统
下载PDF
网络化移动应用的全局适应性数据预取机制 被引量:4
16
作者 张晓薇 曹东刚 +1 位作者 田刚 陈向群 《软件学报》 EI CSCD 北大核心 2010年第8期1783-1794,共12页
提出一种多目标的数据预取方法(multiple goals oriented data prefetching,简称MGODP)来满足不同用户的数据预取需求.MGODP不仅从用户偏好出发为其预取合适量的数据,而且从服务器角度出发,对于Client/Server模式下的数据访问提出全局... 提出一种多目标的数据预取方法(multiple goals oriented data prefetching,简称MGODP)来满足不同用户的数据预取需求.MGODP不仅从用户偏好出发为其预取合适量的数据,而且从服务器角度出发,对于Client/Server模式下的数据访问提出全局合作的方法,以大幅度提高服务质量.另外,MGODP提供了移动客户端和服务器之间平衡工作负载的合作机制,合理分配系统资源,保障系统性能.通过一系列实验可以看出,MGODP方法能够很好地满足不同用户的需求,并通过全局合作和负载均衡机制在保证用户性能需求的前提下,尽可能地减小对电池电量和网络带宽的消耗. 展开更多
关键词 数据预取 用户偏好 上下文可感知 移动计算 全局协作
下载PDF
一种基于资源预取的Hadoop作业调度算法 被引量:4
17
作者 万兵 黄梦醒 段茜 《计算机应用研究》 CSCD 北大核心 2014年第6期1639-1643,共5页
Hadoop原有的作业调度算法在任务级调度阶段均采用简单考虑数据本地性的任务分配策略,并不能保证良好的数据本地性,而相应的改进算法改进目标不一,也不完全适用于所有作业调度场合。针对以上问题,结合数据预取理念提出一种基于资源预取... Hadoop原有的作业调度算法在任务级调度阶段均采用简单考虑数据本地性的任务分配策略,并不能保证良好的数据本地性,而相应的改进算法改进目标不一,也不完全适用于所有作业调度场合。针对以上问题,结合数据预取理念提出一种基于资源预取的作业调度算法。通过估算节点上正在运行任务的剩余执行时间,并与传输一个数据块所需时间进行比较,预选出待预取的候选节点;并从当前正在运行作业的未分配任务中选取非本地map任务作为待预取任务;最后,为该任务在候选节点上预取其所需数据。实验结果表明该改进算法有效地提高了作业的数据本地性,并在一定程度上减少了作业执行时间。 展开更多
关键词 作业调度 数据本地性 资源预取 HADOOP MAPREDUCE 云计算
下载PDF
核外计算中的几种I/O优化方法 被引量:4
18
作者 唐剑琪 方滨兴 +1 位作者 胡铭曾 王威 《计算机研究与发展》 EI CSCD 北大核心 2005年第10期1820-1825,共6页
大数据量应用问题引入核外计算模式,由于访问磁盘数据的速度比较慢,I/O成为核外计算性能重要的限制因素·提出了一种使用运行库进行I/O优化的方法,给出了3种有效的优化策略:规则区域筛选、数据预取和边缘重用·编程人员可针对... 大数据量应用问题引入核外计算模式,由于访问磁盘数据的速度比较慢,I/O成为核外计算性能重要的限制因素·提出了一种使用运行库进行I/O优化的方法,给出了3种有效的优化策略:规则区域筛选、数据预取和边缘重用·编程人员可针对不同的应用问题使用相应的优化API来缩短程序执行时间·实验结果表明,通过减少I/O操作次数和内外存交换的数据量以及隐藏部分I/O操作延迟,有效提高了核外计算的性能· 展开更多
关键词 核外计算 规则区域筛选 预取 边缘重用
下载PDF
基于CMP的指针数据预取方法 被引量:4
19
作者 朱会东 黄永丽 宋宝卫 《计算机工程》 CAS CSCD 北大核心 2011年第6期71-73,共3页
针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理... 针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理器共享高速缓存中以隐藏主线程的存储器延迟。实验结果证明该方法在CMP架构下对以链式结构为主的内存受限程序的性能有一定的改进。 展开更多
关键词 存储墙 链式数据结构 多核多线程 数据预取
下载PDF
基于龙芯3B处理器的Linpack优化实现 被引量:3
20
作者 刘刚 张恒 +1 位作者 张滇 毛睿 《深圳大学学报(理工版)》 EI CAS 北大核心 2014年第3期286-292,共7页
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B... HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右. 展开更多
关键词 计算机系统结构 龙芯3B处理器 线性系统软件包 矩阵乘法 数据预取
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部