期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
SpMT WaveCache:开发数据流计算机中的推测多线程 被引量:3
1
作者 裴颂文 吴百锋 《计算机学报》 EI CSCD 北大核心 2009年第7期1382-1392,共11页
推测多线程技术(Speculative Multithreading,SpMT)是通过推测地执行多个线程来开发线程级并行性,提高超标量处理器性能.通过增加额外的硬件单元,比如线程同步单元(Thread Synchronization Unit,TSU)、线程上下文表(Thread Context Tabl... 推测多线程技术(Speculative Multithreading,SpMT)是通过推测地执行多个线程来开发线程级并行性,提高超标量处理器性能.通过增加额外的硬件单元,比如线程同步单元(Thread Synchronization Unit,TSU)、线程上下文表(Thread Context Table,TCT)和线程内存历史表(Thread Memory History,TMH),扩展了事务性内存系统,提高了基于波标量指令集系统结构(WaveScalar ISA)实现的WaveCache模拟器的性能.同时,还提出了一种新的两级线程级事务提交机制.最后,采用了6个来自SPEC、Media和Mibench测试程序集的真实测试程序,评估了推测多线程WaveCache(SpMT WaveCache)的性能.实验表明,SpMT WaveCache比超标量系统结构提高了2~3倍的性能,是一种有效的开发动态数据流计算机性能的方法. 展开更多
关键词 动态数据流计算机 推测多线程 事务性内存 波标量指令集
下载PDF
Optimization of thread partitioning parameters in speculative multithreading based on artificial immune algorithm 被引量:1
2
作者 Yu-xiang LI Yin-liang ZHAO +1 位作者 Bin LIU Shuo JI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第3期205-216,共12页
Thread partition plays an important role in speculative multithreading (SpMT) for automatic parallelization of ir- regular programs. Using unified values of partition parameters to partition different applications l... Thread partition plays an important role in speculative multithreading (SpMT) for automatic parallelization of ir- regular programs. Using unified values of partition parameters to partition different applications leads to the fact that every ap- plication cannot own its optimal partition scheme. In this paper, five parameters affecting thread partition are extracted from heuristic rules. They are the dependence threshold (DT), lower limit of thread size (TSL), upper limit of thread size (TSU), lower limit of spawning distance (SDL), and upper limit of spawning distance (SDU). Their ranges are determined in accordance with heuristic rules, and their step-sizes are set empirically. Under the condition of setting speedup as an objective function, all com- binations of five threshold values form the solution space, and our aim is to search for the best combination to obtain the best thread granularity, thread dependence, and spawning distance, so that every application has its best partition scheme. The issue can be attributed to a single objective optimization problem. We use the artificial immune algorithm (AIA) to search for the optimal solution. On Prophet, which is a generic SpMT processor to evaluate the performance of multithreaded programs, Olden bench- marks are used to implement the process. Experiments show that we can obtain the optimal parameter values for every benchmark, and Olden benchmarks partitioned with the optimized parameter values deliver a performance improvement of 3.00% on a 4-core platform compared with a machine learning based approach, and 8.92% compared with a heuristics-based approach. 展开更多
关键词 Speculative multithreading Thread partitioning Artificial immune algorithm
原文传递
SMA:前瞻性多线程体系结构 被引量:4
3
作者 肖刚 周兴铭 +1 位作者 徐明 邓鹍 《计算机学报》 EI CSCD 北大核心 1999年第6期582-590,共9页
提出了一种新的ILP处理器体系结构——前瞻性多线程体系结构,简称SMA.它结合了前瞻性执行机制和多线程执行机制,以整个线程为步长进行前瞻性执行,多个线程并行执行并且共享处理器硬件资源.这样,处理器既通过组合每个线程的... 提出了一种新的ILP处理器体系结构——前瞻性多线程体系结构,简称SMA.它结合了前瞻性执行机制和多线程执行机制,以整个线程为步长进行前瞻性执行,多个线程并行执行并且共享处理器硬件资源.这样,处理器既通过组合每个线程的指令窗口形成一个大的动态指令窗口,开发出程序中更大的ILP,又利用多线程执行机制屏蔽各种长延迟操作,达到较高的资源利用率;介绍了SMA执行模型,并讨论了SMA处理器的实现和其中的关键技术.这些关键技术包括:线程控制、分布式寄存器重命名、指令发射执行、中断处理和处理器对编译优化的要求.性能分析结果表明SMA处理器可以适应各种不同类型的程序,以达到高性能,如果采用较好的编译支持和线程预测算法。 展开更多
关键词 前瞻性执行 多线程 SMA 体系结构 微处理器
下载PDF
基于模糊聚类的推测多线程划分算法 被引量:19
4
作者 李远成 阴培培 赵银亮 《计算机学报》 EI CSCD 北大核心 2014年第3期580-592,共13页
推测多线程(Speculative Multithreading,SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,如何有效评估由诸如控制、数据依赖等因素导致的多种并行开销并实现最优线程划分一直是制约加速比性能提升的关键问题.基于启发式规则... 推测多线程(Speculative Multithreading,SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,如何有效评估由诸如控制、数据依赖等因素导致的多种并行开销并实现最优线程划分一直是制约加速比性能提升的关键问题.基于启发式规则的传统划分方法虽然可以取得一定的加速效果,但由于启发式规则只能对多种并行开销进行定性评估,因而导致只能得到经验上较优的线程划分.针对传统划分方法的局限性,文中首次提出并实现了一种基于模糊聚类的线程划分方法.在该方法中,作者首先提出一种评估模型来定量评估各种并行开销,然后通过深入分析各种并行开销来确定最佳的线程解搜索空间,最终利用聚类方法实现有效线程解空间搜索以求取更优的线程划分.基于Olden程序集的测试结果表明,文中提出的线程划分方法可以有效地对非规则程序进行划分,其平均加速比可达到1.85. 展开更多
关键词 推测多线程 线程划分 模糊聚类 自动并行化 代价评估中图法
下载PDF
一种应用代价评估的推测多线程路径预测方法 被引量:2
5
作者 李远成 赵银亮 +1 位作者 阴培培 韩博 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第12期22-27,共6页
推测多线程技术对于自动并行化非规则程序是有效的,然而基于控制流图和分支预测方法的线程划分方法,不可避免地受到划分路径上存在的控制依赖和数据依赖制约.针对现有的路径预测方法在考虑控制依赖影响的同时却不能有效地综合考虑数据... 推测多线程技术对于自动并行化非规则程序是有效的,然而基于控制流图和分支预测方法的线程划分方法,不可避免地受到划分路径上存在的控制依赖和数据依赖制约.针对现有的路径预测方法在考虑控制依赖影响的同时却不能有效地综合考虑数据依赖影响的问题,提出一种新的基于代价评估的路径预测方法,通过引入数据依赖模型,综合评估控制和数据依赖两种影响因素,寻求一条具有近似最小推测开销的推测划分路径.实验结果表明,文中提出的路径预测方法能够计算出代价更小的推测划分路径,并取得了更好的加速比性能,总体上系统可以得到2.43%的加速比性能提升. 展开更多
关键词 推测多线程 代价评估模型 路径预测技术 数据依赖模型
下载PDF
SMA:一种新的多线程处理器模型 被引量:2
6
作者 肖刚 徐明 周兴铭 《计算机工程与科学》 CSCD 1999年第4期7-12,共6页
本文提出了一种新的多线程处理器模型,它结合了前瞻性执行机制和多线程执行机制,既能从更大的指令窗口中开发出更多的ILP,又能屏蔽各种长延迟操作,达到较高的资源利用率。本文深入讨论了SMA模型及其特点,并进行了初步的性能... 本文提出了一种新的多线程处理器模型,它结合了前瞻性执行机制和多线程执行机制,既能从更大的指令窗口中开发出更多的ILP,又能屏蔽各种长延迟操作,达到较高的资源利用率。本文深入讨论了SMA模型及其特点,并进行了初步的性能分析。 展开更多
关键词 前瞻性执行 多线程 体系结构 处理器
下载PDF
一种基于路径优化的推测多线程划分算法 被引量:1
7
作者 李远成 赵银亮 +1 位作者 李美蓉 杜延宁 《软件学报》 EI CSCD 北大核心 2012年第8期1950-1964,共15页
推测多线程(speculative multithreading,简称SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,基于控制流图和分支预测技术的线程划分方法,不可避免地会受到划分路径上所存在的控制依赖和数据依赖的制约.目前,在传统的线程划... 推测多线程(speculative multithreading,简称SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,基于控制流图和分支预测技术的线程划分方法,不可避免地会受到划分路径上所存在的控制依赖和数据依赖的制约.目前,在传统的线程划分算法中存在的一个重要问题是,在对划分路径进行选取时只考虑了控制依赖影响却不能有效地综合考虑数据依赖的影响,进而导致不能选取最佳的划分路径.因此,针对传统方法中这种依赖评估方法效率低下的问题,设计并实现了一种基于路径优化的线程划分算法.该算法通过引入基于程序切片技术的预计算方法,建立一种路径评估方法来评估程序间的控制和数据依赖.同时,引入控制线程体大小的启发式规则,以便有效地解决负载不平衡的问题.基于Olden测试集的测试结果表明,所提出的算法可以有效地对非规则程序进行划分,其平均加速比可以达到1.83. 展开更多
关键词 推测多线程 线程级并行 线程划分 路径优化 自动并行化
下载PDF
SMA处理器中的持续优化技术
8
作者 邓鹍 窦勇 周兴铭 《计算机研究与发展》 EI CSCD 北大核心 2002年第9期1087-1092,共6页
前瞻多线程结构 (SMA)是在超标量前瞻执行技术和多线程技术的基础上结合了二者的优点而发展起来的 .首先研究了 SMA模型的特点 ,指出了 3个关键性能要素 :现场负载不均衡、线程间控制前瞻失效与线程间数据前瞻失效 .为了有效地开发 SMA... 前瞻多线程结构 (SMA)是在超标量前瞻执行技术和多线程技术的基础上结合了二者的优点而发展起来的 .首先研究了 SMA模型的特点 ,指出了 3个关键性能要素 :现场负载不均衡、线程间控制前瞻失效与线程间数据前瞻失效 .为了有效地开发 SMA结构的潜能 ,引入了若干启发式规则 ,设计了基于线程的动态轮廓采样机制 ,并在此基础上实现了一个持续优化框架原型 .对上述优化规则的模拟表明 ,该优化原型能够较好地完成线程优化任务 ,有效地开发 SMA结构的性能潜力 . 展开更多
关键词 SMA处理器 持续优化技术 前瞻多线程结构 动态Profile 微处理器 指令级并行技术
下载PDF
Prophet推测多线程系统设计与实现 被引量:2
9
作者 李钟 赵银亮 杜延宁 《计算机科学》 CSCD 北大核心 2011年第2期296-301,共6页
推测多线程技术通过推测执行的方式开发应用程序的线程级并行性,以提高程序执行性能。该技术一般通过执行模型来检测运行时可能的线程推测错误情况,并采取合适的机制恢复程序正确运行。描述的Prophet是一种基于硬件实现的推测多线程执... 推测多线程技术通过推测执行的方式开发应用程序的线程级并行性,以提高程序执行性能。该技术一般通过执行模型来检测运行时可能的线程推测错误情况,并采取合适的机制恢复程序正确运行。描述的Prophet是一种基于硬件实现的推测多线程执行模型。重点描述了Prophet执行模型针对执行模型设计的关键问题的解决方案,包括Prophet的线程状态控制和多版本的Cache系统,Prophet的多版本Cache系统提供了推测数据缓存功能,并使用基于总线监听的Cache协议实现了数据依赖违规检测。还给出了使用Olden基准程序对Prophet执行模型进行功能和性能测试的结果,并分析说明了Prophet系统可以有效地开发应用程序的线程级并行性。 展开更多
关键词 推测多线程 线程级并行 推测多线程执行模型 推测多线程体系结构
下载PDF
利用连续两阶段在线剖析优化多线程推测执行 被引量:2
10
作者 刘圆 安虹 +2 位作者 汪芳 王莉 王耀彬 《小型微型计算机系统》 CSCD 北大核心 2009年第3期385-390,共6页
针对当前推测多线程优化中使用的离线剖析受到训练输入集限制的问题,提出一种根据在线剖析结果自动变换推测多线程程序的动态优化方法.该方法在程序运行时执行剖析和优化工作,不需要单独的剖析过程以及通用的训练输入集.该方法也适用于... 针对当前推测多线程优化中使用的离线剖析受到训练输入集限制的问题,提出一种根据在线剖析结果自动变换推测多线程程序的动态优化方法.该方法在程序运行时执行剖析和优化工作,不需要单独的剖析过程以及通用的训练输入集.该方法也适用于那些运行时行为特征呈阶段性变化的程序.实验表明,在指导事务划分和选择并行循环方面,动态优化方法能够达到和静态优化方法相似的效果,完全可以在离线剖析失效时被使用. 展开更多
关键词 推测多线程 事务存储 剖析技术 动态优化
下载PDF
一种数据结构制导的线程划分方法与执行模型 被引量:2
11
作者 杜延宁 赵银亮 +1 位作者 韩博 李远成 《软件学报》 EI CSCD 北大核心 2013年第10期2432-2459,共28页
在对程序进行并行化时,为了保证结果的正确性,并行编译器只能采取一种保守的策略,也就是,如果它不能确定两段代码在并行执行时是否会发生冲突,它就不允许这两段代码并行执行.虽然这种做法保证了正确性,但同时也限制了对并行性的开发.在... 在对程序进行并行化时,为了保证结果的正确性,并行编译器只能采取一种保守的策略,也就是,如果它不能确定两段代码在并行执行时是否会发生冲突,它就不允许这两段代码并行执行.虽然这种做法保证了正确性,但同时也限制了对并行性的开发.在这种背景下,许多推测多线程方法被提了出来,这些方法通过允许可能冲突的代码段并行执行来把握更多的并行机会,同时,通过从冲突中恢复来保证结果的正确性.然而,传统推测多线程方法所使用的"沿控制流将串行程序划分为多个线程"的做法并不适合不同数据结构上的操作在控制流中相互交错的情况,因为如果沿控制流将程序线性地划分为多个线程,则同一个数据结构上的操作将被分到不同的线程中,从而非常容易发生冲突.为了有效地对这些程序进行并行化,提出了一种基于数据结构的线程划分方法与执行模型.在这种方法中,程序中的对象被划分成多个组,同一组中对象上的操作被分派到同一个线程中去执行,从而降低了在同一个数据结构上发生冲突的可能性. 展开更多
关键词 推测多线程 并行化 数据结构 划分方法 执行模型
下载PDF
面向片上多核处理器的推测多线程机制下的独立栈模型 被引量:1
12
作者 韦远科 赵银亮 +3 位作者 宋少龙 王旭昊 阴培培 李挺 《西安交通大学学报》 EI CAS CSCD 北大核心 2010年第12期10-15,共6页
在推测多线程并行执行时,各线程中借助共享栈来实现函数调用的过程存在互斥访问问题,为此提出了一种采用片上多处理器(CMP)的推测多线程机制下的独立栈函数调用模型,核栈采用一对一方式,栈之间的有机配合支持推测多线程中的函数调用.通... 在推测多线程并行执行时,各线程中借助共享栈来实现函数调用的过程存在互斥访问问题,为此提出了一种采用片上多处理器(CMP)的推测多线程机制下的独立栈函数调用模型,核栈采用一对一方式,栈之间的有机配合支持推测多线程中的函数调用.通过在模拟器端添加两条指令实现栈空间的管理,从而消除了共享栈模型中的加锁问题.为了保证程序正常运行,编译器对生成的代码作相应的调整,模拟器方面则增添了get和update两条指令,以便管理相应的栈空间.因为独立栈函数调用方法消除了共享栈模型中的栈加锁问题,使得成功线程发起的数目有不同程度的提高,从而提高了程序的并行加速比.Olden基准程序的测试表明,独立栈模型相对于共享栈模型使程序的平均并行加速比提高了3.85%.但是,由于影响程序推测并行加速比的因素复杂,某些测试程序也出现了独立栈的加速比低于共享栈的情况. 展开更多
关键词 推测多线程 函数调用栈 代码生成 存储管理
下载PDF
一种基于推测代价评估的推测多线程并行粒度调节方法 被引量:4
13
作者 李美蓉 赵银亮 《计算机应用与软件》 北大核心 2019年第4期29-36,90,共9页
传统的推测多线程技术总是假定程序的并行粒度大小应该随着处理器核资源数目的增加而增大,未考虑不同数目的处理器核资源对程序自身并行性能的影响作用。针对这个问题,提出一种自适应的循环并行粒度调节方法用于优化处理器核资源的分配... 传统的推测多线程技术总是假定程序的并行粒度大小应该随着处理器核资源数目的增加而增大,未考虑不同数目的处理器核资源对程序自身并行性能的影响作用。针对这个问题,提出一种自适应的循环并行粒度调节方法用于优化处理器核资源的分配过程。以推测级为单位,通过动态收集循环中所有推测线程的性能量化分析结果,进行推测代价评估。并利用评估结果动态调整循环的并行粒度大小,优化所分配到的处理器核资源的数目,以减少不必要的推测代价。实验表明,该方法不但在SPEC CPU基准测试程序集上能取得较好的性能提升,而且进一步优化了推测时的能耗开销。 展开更多
关键词 推测多线程 代价评估 并行粒度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部