期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
Level set函数快速步进重构并行算法的改进 被引量:4
1
作者 黄筱云 董国海 +1 位作者 常佳夫 蒋学炼 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第6期836-842,共7页
为提高level set函数快速步进重构过程的并行计算效率,本文提出一种改进的分区并行重构算法。与原有分区并行算法相比,优化了子区域间的同步方案,缩短了level set函数并行重构的计算时间。运用OpenMP多线程技术,建立了相应的并行计算模... 为提高level set函数快速步进重构过程的并行计算效率,本文提出一种改进的分区并行重构算法。与原有分区并行算法相比,优化了子区域间的同步方案,缩短了level set函数并行重构的计算时间。运用OpenMP多线程技术,建立了相应的并行计算模型,实现了圆球、圆环管和哑铃等值面并行重构。并行重构数值结果表明:只要子区域均分初始表面边界,level set函数全局或局部并行重构均具有良好加速比,8线程的最大加速比可接近6。 展开更多
关键词 level set函数 快速步进法 重构 并行算法 多线程技术 OpenMP多线程技术
下载PDF
Simultaneous Multithreading Fault Tolerance Processor
2
作者 DONGLan HUMing-zeng +3 位作者 JIZhen-zhou CUIGuang-zuo TANGXin-min HEFeng 《Wuhan University Journal of Natural Sciences》 EI CAS 2005年第1期17-20,共4页
Transient fault detection mechanism is added to simultaneous multithreading architecture. By exploiting both ILP (Instruction Level Parallelism) and TLP (Thread Level Parallelism), Simultaneous Multithreading (SMT) Fa... Transient fault detection mechanism is added to simultaneous multithreading architecture. By exploiting both ILP (Instruction Level Parallelism) and TLP (Thread Level Parallelism), Simultaneous Multithreading (SMT) Fault Tolerance Processor can be expected to achieve better tradeoff between performance and hardware cost than traditional Fault Tolerance Processors. Detailed simulations of 3 of SPEC95 benchmarks show that executing two redundant programs on the fault-tolerant microarchitecture takes only 40%–61%longer than running a single version of the program. The new instruction fetch algorithm enhances the performance by 0.4%~1%to most of the benchmarks we choose randomly. 展开更多
关键词 Key words simultaneous multithreading rault tolerance tlp (thread level parallelism) fetch policy
下载PDF
Study on Cache Configuration of A Muitithreaded Approach
3
作者 Lan Dong Xinmin Tang +2 位作者 Zhenzhou Ji Mingzeng Hu Guangzuo Cui 《通讯和计算机(中英文版)》 2006年第7期13-15,共3页
关键词 cache[ kAF ]n.隐藏处所 隐藏的粮食或物资 贮藏物vt.隐藏 窖藏高速缓冲存储器 多线程 指令级并行性 内部处理器并行运算
下载PDF
萤火虫2:一种多态并行机的硬件体系结构 被引量:16
4
作者 李涛 杨婷 +5 位作者 易学渊 蒲林 钱博文 黄光新 黄虎才 韩俊刚 《计算机工程与科学》 CSCD 北大核心 2014年第2期191-200,共10页
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机... 提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算。尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌。该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务。 展开更多
关键词 阵列机 多态处理器 计算机图形 图像处理 信号处理 数据级并行 线程级并行
下载PDF
单片多处理器的研究 被引量:7
5
作者 史莉雯 樊晓桠 张盛兵 《计算机应用研究》 CSCD 北大核心 2007年第9期46-49,共4页
单片多处理器结构支持较高线程级的并行,能显著提高性能。介绍了单片多处理器的结构,对一些结构模型和实际的商用处理器进行举例,并对关键技术进行了研究分析。
关键词 单片多处理器 线程级并行 存储层次 核间互连 多核任务调度
下载PDF
基于性能预测的推测多线程循环选择方法 被引量:7
6
作者 刘斌 赵银亮 +4 位作者 韩博 李玉祥 吉烁 冯博琴 武万杰 《电子与信息学报》 EI CSCD 北大核心 2014年第11期2768-2774,共7页
线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很... 线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很难决定的问题。为了解决该问题,该文提出一种基于性能预测的循环选择方法。基于输入训练集获取程序预执行的剖析信息,同时结合各种推测因素,构建了循环结构的性能预测模型。预测结果定量评估了循环推测并行的加速比并决定该循环在运行时是否适合并行。实验结果表明,该文提出的方法能有效地预测循环并行时所蕴含的并行性,并依据预测结果准确地选择具有并行收益的循环推测并行,最终Olden基准测试集加速比性能平均提升了12.34%。 展开更多
关键词 并行处理 线程级推测 循环选择 性能预测
下载PDF
大数据文件和混合文件的多线程并行下载 被引量:7
7
作者 韦兴柳 钟诚 +2 位作者 李智 蔡德霞 陈清媛 《计算机工程与应用》 CSCD 2012年第14期84-89,共6页
在应用计算机模拟病例训练与考试系统的过程中,客户端时常需要在线下载许多大数据文件、音频和视频混合文件,系统响应速度是一个关键问题。研究了在RIA中实现多线程的技术方案,提出在多核计算机上有效实现多线程并行下载大数据文件、音... 在应用计算机模拟病例训练与考试系统的过程中,客户端时常需要在线下载许多大数据文件、音频和视频混合文件,系统响应速度是一个关键问题。研究了在RIA中实现多线程的技术方案,提出在多核计算机上有效实现多线程并行下载大数据文件、音频和视频混合文件的优化方法。算法分析与实验结果表明,提出的多线程并行下载技术能够加速计算机模拟病例系统模块的在线下载,显著优化了系统运行性能。 展开更多
关键词 多线程下载 性能优化 富互联网应用(RIA) 多核计算机 线程级并行性
下载PDF
H.264并行编码算法的研究 被引量:9
8
作者 蒋兴昌 周军 罗传飞 《电视技术》 北大核心 2008年第2期33-35,共3页
以X264编码器作为研究对象,在指令集并行的基础上对其进行线程级并行优化,在Intel双核处理器平台上,针对非实时编码应用得到近2倍的加速比,针对实时编码应用得到1.5倍的加速比。
关键词 H.264 指令级并行 线程级并行 多核
下载PDF
多态并行机上的3D图形渲染 被引量:7
9
作者 韩俊刚 姚静 +4 位作者 李涛 黄虎才 乔虹 延酉玫 王鹏博 《西安邮电大学学报》 2015年第2期1-6,15,共7页
针对多态同构阵列处理器,提出一种图形算法并行化的实现方法。该方法通过分析图形流水线中渲染算法的控制依赖、数据依赖关系,并对各个算法计算量进行估计,利用多态阵列处理机的能够结合不同类型的并行计算的特点,以处理器的负载均衡为... 针对多态同构阵列处理器,提出一种图形算法并行化的实现方法。该方法通过分析图形流水线中渲染算法的控制依赖、数据依赖关系,并对各个算法计算量进行估计,利用多态阵列处理机的能够结合不同类型的并行计算的特点,以处理器的负载均衡为依据,实现图形渲染的并行化计算。实验结果表明,该方法所实现的加速比按线性增长。 展开更多
关键词 多态阵列机 并行计算 图形渲染 线程并行 操作并行 数据并行
下载PDF
针对子程序结构的线程级推测并行性分析 被引量:6
10
作者 梁博 安虹 +1 位作者 王莉 王耀彬 《小型微型计算机系统》 CSCD 北大核心 2009年第2期230-235,共6页
线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的,但推测执行子程... 线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的,但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:1无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.2简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.3访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 展开更多
关键词 线程级推测 串行程序自动并行化 子程序结构 动态剖析 数据依赖分析
下载PDF
一种基于路径优化的推测多线程划分算法 被引量:1
11
作者 李远成 赵银亮 +1 位作者 李美蓉 杜延宁 《软件学报》 EI CSCD 北大核心 2012年第8期1950-1964,共15页
推测多线程(speculative multithreading,简称SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,基于控制流图和分支预测技术的线程划分方法,不可避免地会受到划分路径上所存在的控制依赖和数据依赖的制约.目前,在传统的线程划... 推测多线程(speculative multithreading,简称SpMT)技术是一种实现非规则程序自动并行化的有效途径.然而,基于控制流图和分支预测技术的线程划分方法,不可避免地会受到划分路径上所存在的控制依赖和数据依赖的制约.目前,在传统的线程划分算法中存在的一个重要问题是,在对划分路径进行选取时只考虑了控制依赖影响却不能有效地综合考虑数据依赖的影响,进而导致不能选取最佳的划分路径.因此,针对传统方法中这种依赖评估方法效率低下的问题,设计并实现了一种基于路径优化的线程划分算法.该算法通过引入基于程序切片技术的预计算方法,建立一种路径评估方法来评估程序间的控制和数据依赖.同时,引入控制线程体大小的启发式规则,以便有效地解决负载不平衡的问题.基于Olden测试集的测试结果表明,所提出的算法可以有效地对非规则程序进行划分,其平均加速比可以达到1.83. 展开更多
关键词 推测多线程 线程级并行 线程划分 路径优化 自动并行化
下载PDF
面向线程级前瞻的线程划分方法浅析 被引量:1
12
作者 鲁建壮 王志英 张春元 《计算机科学》 CSCD 北大核心 2006年第5期270-272,281,共4页
正确合理的线程划分方法是提取线程级并行性的必要前提,线程级前瞻技术是简化线程划分复杂度提高系统性能的重要手段。本文讨论了几种支持线程级前瞻的典型线程划分方法,在此基础上提出了线程级划分需要解决的关键问题,并结合一典型自... 正确合理的线程划分方法是提取线程级并行性的必要前提,线程级前瞻技术是简化线程划分复杂度提高系统性能的重要手段。本文讨论了几种支持线程级前瞻的典型线程划分方法,在此基础上提出了线程级划分需要解决的关键问题,并结合一典型自动线程划分算法进行了具体分析,提出了线程划分需要进一步研究的问题。 展开更多
关键词 线程级并行性 线程划分 线程级前瞻
下载PDF
基于网络处理器的入侵检测方法 被引量:1
13
作者 魏利华 张晓明 +1 位作者 唐玉华 孙志刚 《计算机工程》 EI CAS CSCD 北大核心 2006年第7期160-162,共3页
入侵检测是网络安全的核心技术。随着网络速度的不断提升,现有NIDS的检测速度已不适应千兆位以上网络,漏检率和误检率越来越高。网络处理器以高度并行、硬件多线程、多级存储和灵活可编程等先进技术提供高速的数据包处理性能。该文对利... 入侵检测是网络安全的核心技术。随着网络速度的不断提升,现有NIDS的检测速度已不适应千兆位以上网络,漏检率和误检率越来越高。网络处理器以高度并行、硬件多线程、多级存储和灵活可编程等先进技术提供高速的数据包处理性能。该文对利用网络处理器解决入侵检测的速度瓶颈提出了观点、方法和策略,设计和实现了一个面向入侵检测的高速网络处理器原型。 展开更多
关键词 网络处理器 入侵检测 多级并行 硬件线程 调度策略
下载PDF
基于Syntax级分组和多线程处理的HEVC熵编码并行算法 被引量:1
14
作者 邸金红 张克新 +1 位作者 祁跻 张鑫明 《电讯技术》 北大核心 2014年第10期1435-1440,共6页
新一代视频编码标准HEVC获得了较高的编码效率,但是同时需要较大的计算量。HEVC并行算法能够提高编码速度,如何开发适用于多核处理器的并行编码算法对于满足高清视频实时传输和大规模共享具有十分重要的意义。提出了一种基于Syntax级... 新一代视频编码标准HEVC获得了较高的编码效率,但是同时需要较大的计算量。HEVC并行算法能够提高编码速度,如何开发适用于多核处理器的并行编码算法对于满足高清视频实时传输和大规模共享具有十分重要的意义。提出了一种基于Syntax级分组和多线程处理的HEVC熵编码并行算法。该算法首先将HEVC中一个编码树单元的编码信息按照语法元素进行分组;其次,根据编码块数据间的相关性构建Syntax级并行编码器;然后结合多线程技术实现HEVC帧级编码的并行计算。实验结果表明,在编码图像的主客观质量上没有太大损失的情况下,该并行算法框架与传统的串行算法框架相比具有65%~70%的加速效果。 展开更多
关键词 高效视频编码 并行算法 Syntax级 多线程
下载PDF
基于多核集群的RTI并行优化技术 被引量:2
15
作者 杨勇 姚益平 梁洪波 《系统仿真学报》 CAS CSCD 北大核心 2012年第9期1785-1789,共5页
随着基于高层体系结构HLA(High Level Architecture)仿真应用的不断深入,系统仿真规模不断扩大,仿真模型越来越复杂,仿真节点之间的交互更加频繁,使得仿真系统对通信资源与计算资源的需求不断提高。多核集群能够提供数据并行处理和高效... 随着基于高层体系结构HLA(High Level Architecture)仿真应用的不断深入,系统仿真规模不断扩大,仿真模型越来越复杂,仿真节点之间的交互更加频繁,使得仿真系统对通信资源与计算资源的需求不断提高。多核集群能够提供数据并行处理和高效通信的性能潜力,因此通过在多核集群上进行仿真加速正成为提高HLA仿真运行效率的重要途径。然而传统的仿真运行支撑平台RTI(Run Time Infrastructure)主要面向分布式网络环境,一般不支持并行通信和消息并行处理,从而难以发挥多核集群的高效通信和并行计算的性能优势。因此,为了提高多核集群下大规模HLA仿真的运行效率,提出了基于多通道的并行通信结构和基于消息分类的多线程处理技术,并已经应用于正在开发的并行shmRTI中,与国际同类商业软件pRTI1516进行的对比测试结果表明,性能可提升30%以上。 展开更多
关键词 多核集群 HLA RTI 并行通信 多线程
下载PDF
基于多核并行遗传算法并行生成测试用例 被引量:1
16
作者 陈清媛 钟诚 李智 《微电子学与计算机》 CSCD 北大核心 2013年第11期149-153,共5页
通过将种群划分为多个子种群,对每个子种群执行遗传操作,p个核心并行执行遗传算法搜索测试路径,以加速测试用例的生成;通过在处理核心之间迁移子种群的个体,使得交叉变异后得到的种群个体变得丰富,算法能更好地全局寻优,可以寻找到较多... 通过将种群划分为多个子种群,对每个子种群执行遗传操作,p个核心并行执行遗传算法搜索测试路径,以加速测试用例的生成;通过在处理核心之间迁移子种群的个体,使得交叉变异后得到的种群个体变得丰富,算法能更好地全局寻优,可以寻找到较多能够覆盖全部路径的测试用例.实验结果表明,与基于串行遗传算法生成测试用例相比,多核并行遗传算法并行生成测试用例能够生成较多覆盖全都路径的测试用例且运行时间少. 展开更多
关键词 测试用例生成 并行遗传算法 多核系统 线程级并行
下载PDF
选择性循环的并行方法 被引量:1
17
作者 吴悦 雷超付 杨洪斌 《计算机工程》 CAS CSCD 北大核心 2010年第9期35-37,40,共4页
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明... 针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明,相对于一般的简单内部循环或外部循环并行方法,该方案使9种基准代码的加速比平均上升23.8%,从而提高串行程序并行运行的效率。 展开更多
关键词 线程级前瞻 循环选择 并行运行 单片多核处理器
下载PDF
非规则串行程序隐式线程级推测并行发展综述 被引量:2
18
作者 李远成 刘斌 《西安邮电大学学报》 2017年第1期99-105,共7页
基于片上多核处理器体系结构,概述在非规则串行程序自动并行化领域中,隐式线程级推测并行技术的特点、研究现状、以及所面临的挑战。从程序特征分析、多线程划分、软硬件协同加速方法和性能功耗评估等4个方面,探讨线程级推测技术未来的... 基于片上多核处理器体系结构,概述在非规则串行程序自动并行化领域中,隐式线程级推测并行技术的特点、研究现状、以及所面临的挑战。从程序特征分析、多线程划分、软硬件协同加速方法和性能功耗评估等4个方面,探讨线程级推测技术未来的发展趋势和研究方向。 展开更多
关键词 线程级推测 自动化并行 片上多核处理器 软硬件协同设计 非规则程序
下载PDF
GPGPU上基于运行时特征的动态并行度调度算法
19
作者 于玉龙 王宇新 郭禾 《小型微型计算机系统》 CSCD 北大核心 2015年第12期2798-2802,共5页
调度算法对于保障GPGPU内大规模并发线程的高效运行至关重要.调度器需要根据程序的计算特征和GPGPU内各种逻辑单元的设置情况选择合理的线程并行度.然而现有调度算法或采用静态固化并行度、或调整粒度过粗,均无法在动态调整的同时保持... 调度算法对于保障GPGPU内大规模并发线程的高效运行至关重要.调度器需要根据程序的计算特征和GPGPU内各种逻辑单元的设置情况选择合理的线程并行度.然而现有调度算法或采用静态固化并行度、或调整粒度过粗,均无法在动态调整的同时保持合理的并行度参数.基于两层次调度算法TL,通过对GPGPU运行时特征的动态监测,针对细粒度Warp调度提出了结合运行时资源使用特征和指令特征的动态并行度调度算法DTL和D2TL.在性能模拟器GPGPU-Sim上的仿真实验证明,相对传统TL调度算法,DTL和D2TL分别达到平均14.4%和19.6%的性能加速. 展开更多
关键词 GPGPU 两层次调度 线程级并行 动态并行度
下载PDF
BESⅢ实验数据并行处理的研究
20
作者 田浩来 李卫东 +8 位作者 邹佳恒 何苗 毛泽普 刘春秀 袁野 黄彬 毛虎 邓子艳 马秋梅 《核电子学与探测技术》 CAS CSCD 北大核心 2012年第2期132-135,140,共5页
北京谱仪Ⅲ(BESⅢ)是北京正负电子对撞机Ⅱ(BEPCⅡ)上的一台大型通用磁谱仪,用于τ-粲物理实验研究。BESⅢ离线数据处理系统将实验获取的探测器原始数据转换为适合于物理分析的数据。主要研究了BESⅢ实验数据的并行计算处理。针对目前... 北京谱仪Ⅲ(BESⅢ)是北京正负电子对撞机Ⅱ(BEPCⅡ)上的一台大型通用磁谱仪,用于τ-粲物理实验研究。BESⅢ离线数据处理系统将实验获取的探测器原始数据转换为适合于物理分析的数据。主要研究了BESⅢ实验数据的并行计算处理。针对目前计算机的多核CPU硬件结构,采用多线程编程技术,实现了BESⅢ离线数据处理事例级别的多线程并行计算。性能测试表明多线程并行处理能够有效地提高运算速度,同时减少内存消耗。 展开更多
关键词 北京谱仪III 离线数据处理 多线程 事例级并行计算
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部