题名 基于GPU的GRAPES模型并行加速及性能优化
被引量:7
1
作者
王卓薇
许先斌
赵武清
何水兵
张玉萍
机构
广东工业大学计算学院
武汉大学计算机学院
广东电网公司信息中心
高可信软件技术教育部重点实验室(北京大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第2期401-411,共11页
基金
中央高校基本科研业务费专项基金项目(3101012)
高可信软件技术教育部重点实验室开放课题基金项目(HCST201104)
文摘
GRAPES(global/regional assimilation and prediction system)数值天气预报模式作为地球大气一个典型的非线性化离散系统,计算量非常巨大,因此利用低成本、低功耗和高性能的GPU对GRAPES模式进行并行加速成为目前的研究热点.首先通过实现GRAPES模式在GPU中的并行加速,发现系统性能提升并不理想.在此基础上,提出了性能优化策略,包括缓解数据传输时间、降低设备内存加载和存储的数量和避免线程控制流分支,实验结果表明,利用GPU的性能优化策略有效地提升了GRAPES系统性能.
关键词
GRAPES
GPU
数据传输时间
设备内存加载和存储
线程控制流
Keywords
GRAPES
GPU
data transmission time
memory load and store
thread control flow
分类号
TP399
[自动化与计算机技术—计算机应用技术]
题名 一种Java并发程序死锁动态检测的新方法
被引量:1
2
作者
毛澄映
卢炎生
张金隆
卢超
机构
华中科技大学计算机科学与技术学院
江西财经大学软件学院
华中科技大学管理学院
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第12期2258-2261,共4页
基金
国家自然科学基金项目(70571025)资助
教育部高等学校博士点基金项目(20060487005)资助
+3 种基金
湖北省自然科学基金项目(2005ABA266)资助
江西省教育厅科学技术研究项目(赣高教技字[2007]-267)资助
中国博士后科学基金项目(20070410946)资助
江西财经大学校级青年课题资助
文摘
死锁是并发程序中最为常见的一类错误,直到现在并没有得到很好地解决.本文以Java并发程序为例,重点研究针对资源死锁较为有效的动态检测算法:根据并发程序的动态执行追踪信息,分析出加锁控制依赖关系,再根据死锁所应满足的条件在该依赖关系集上作适量演算便得到潜在死锁关系对.进一步地,结合线程间控制流图所反映的部分静态依赖关系,剔除假性死锁关系对,提高了计算结果的精度.该算法显著的特点是简单易于实现,且无需构造锁树或锁图等图形表示.
关键词
死锁
执行追踪信息
加锁控制依赖
线程间控制流图
动态检测
Keywords
deadlock
execution trace information
locking control dependency
inter-thread control flow graph (ITCFG)
dynamic detection
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
题名 基于ARM指针认证的信息流控制系统
被引量:3
3
作者
张立强
陈青松
严飞
机构
武汉大学国家网络安全学院
出处
《郑州大学学报(理学版)》
北大核心
2021年第3期42-49,共8页
基金
国家自然科学基金项目(61272452)
国家重点基础研究发展计划(973计划)项目(2014CB340601)
+1 种基金
湖北省重点研发计划项目(2020BAA003)
苏州市前瞻性应用研究项目(SYG201845)。
文摘
为了解决物联网设备中的安全隔离和隐私数据泄露问题,对类Unix操作系统线程中的信息流控制进行研究,基于ARM指针认证的硬件安全扩展和分散式信息流控制模型,通过对线程添加安全标签和完整性标签,实现进程地址空间的细粒度安全隔离,内存共享保护和安全多线程;通过内核安全原语和安全检查钩子有效防止线程间未授权的数据访问。实验结果表明,基于硬件辅助的信息流控制系统可以获得显著的性能提升,原型系统在实际的物联网程序用例(OpenSSL和Apache HTTP服务器)中,运行时内存占用增加了210 kB,平均性能开销不超过3.66%。
关键词
指针认证
分散式信息流控制
线程标签
安全隔离
隐私保护
Keywords
pointer authentication
decentralized information flow control
thread label
security isolation
privacy protection
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 基于线程的多路径数据预取技术研究
4
作者
欧国东
王永文
张民选
机构
国防科学技术大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S1期328-334,共7页
基金
国家"八六三"高技术研究发展计划基金项目(2009AA01Z124)
国家自然科学基金项目(60970036)
文摘
多核多线程处理器应用日益广泛,但传统应用多为单线程的串行程序,不能充分利用多线程处理器提供的多个现场,难以通过并行执行来提高执行速度.如何使用空闲现场加速单线程应用成为多线程微处理器领域研究的一个热点.基于线程的数据预取方法利用空闲现场执行数据预取线程,计算关键指令访存地址并发起预取,可以改善系统存储行为、加速单线程执行、提高系统吞吐率.在数据流分析的基础上,扩充了控制流分析,提出了一种基于线程的多路径数据预取方法,研究了多种执行控制策略.模拟结果表明:根据路径信息进行数据预取,可以提高预取效率、减少预取开销.
关键词
多线程
基于线程的数据预取方法
控制流
数据流
多路径
Keywords
multi-thread ed
thread -based data prefetching
control flow
data flow
multi-path
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 基于静态调度的多线程程序分析方法
被引量:4
5
作者
周卿
李炼
冯晓兵
机构
中国科学院计算技术研究所计算机系统结构国家重点实验室
中国科学院大学
出处
《高技术通讯》
EI
CAS
北大核心
2018年第7期575-582,共8页
基金
国家自然科学基金(61432018)资助
文摘
静态多线程程序分析是一种在编译时刻分析多线程程序的执行行为和特征的有效方法。本文通过分析多线程程序实际执行的特点,提出了一种基于静态调度的多线程分析方法。该方法通过模拟多线程程序的动态执行方式,从而在不运行程序的情况下也能较准确地获得多线程的行为特征。实验表明,该分析方法可以有效地提高多线程程序中同步关系的识别和匹配精度,为分析和检测多线程性能瓶颈以及程序错误等信息奠定了基础。
关键词
静态多线程程序分析
多线程控制流图
调度
同步关系
可能并行分析
Keywords
static multi-thread ed program analysis
multi-thread ed control flow graph (CFG)
schedule
synchronization relation
may-happen-in-parallel analysis
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
题名 网络流媒体服务器的机制与实现研究
被引量:9
6
作者
张兴明
耿晨歌
汪乐宇
机构
浙江大学仪器系数字技术及仪器研究所
出处
《计算机工程与设计》
CSCD
2004年第1期61-64,共4页
文摘
网络流媒体服务器是指在IP网络上提供实时视频(音频)流服务的网络服务器,对服务器的机制与实现进行了深入研究,在RTP/RTCP协议和RTSP协议基础上,提出了“生产者线程-消费者线程”的架构,用面向对象的方法和事件驱动的机制实现服务器异步工作方式,充分利用系统资源,提高了服务器的并发性和实时性。基于反馈报文的流服务器流量自调节,解决了网络拥塞时实时数据传输的问题。
关键词
流媒体
网络服务器
事件驱动
流量控制
RTP
RTCP
RTSP
生产者线程-消费者线程
Keywords
streaming-media-server
RTSP/RTP/RTCP
producer thread - consumer thread
event driven
flow control
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
TP368.5
[自动化与计算机技术—计算机系统结构]
题名 面向DCU非一致控制流的编译优化
被引量:2
7
作者
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
基金
河南省重大科技专项(221100210600)。
文摘
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
关键词
DCU
单指令多线程
线程束分化
复杂控制流
编译优化
Keywords
Deep Computer Unit(DCU)
Single Instruction Multiple thread (SIMT)
warp divergence
complex control flow
compilation optimization
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 烟草制丝线上调节阀流量特性的选择
8
作者
何洋
机构
贵州中烟工业有限责任公司贵阳卷烟厂一车间
出处
《自动化应用》
2012年第3期1-2,5,共3页
文摘
介绍调节阀的控制原理,分析调节阀流量特性对控制系统的影响,结合烟草设备的工艺特性,提出烟草制丝设备上调节阀流量特性选择的原则。
关键词
调节阀
制丝设备
流通能力
流量系数
流量特性
Keywords
control valve
thread production device
flow capacity
flow coefficient
flow characteristic
分类号
TP23
[自动化与计算机技术—检测技术与自动化装置]