期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于拉丁方的短消息全交换通信算法
1
作者 刘勇 刘丽 何王全 《计算机工程》 CAS CSCD 北大核心 2010年第24期12-14,共3页
并行算法中的全交换通信类似于方阵转置变换,拉丁方在这个变换中可起着重要的承接作用。为此,提出一种基于拉丁方有效实现短消息全交换通信的软件方法。利用拉丁方将全交换通信划分为本地内存拷贝和集合消息2个部分。通过模型分析出短... 并行算法中的全交换通信类似于方阵转置变换,拉丁方在这个变换中可起着重要的承接作用。为此,提出一种基于拉丁方有效实现短消息全交换通信的软件方法。利用拉丁方将全交换通信划分为本地内存拷贝和集合消息2个部分。通过模型分析出短消息全交换通信优于直接通信的消息量的上界。实验验证了该方法的有效性。 展开更多
关键词 拉丁方 全交换 短消息
下载PDF
神威超级计算机运行时故障定位方法
2
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
下载PDF
硬件集合通信中聚合树构建方法
3
作者 陈淑平 尉红梅 +3 位作者 王飞 李祎 何王全 漆锋滨 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期503-517,共15页
传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通... 传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通信性能的因素,提出了硬件集合通信开销模型,并以此为基础提出了构建硬件集合通信聚合树的方法.该方法主要包括3个部分:1)根据操作类型、聚合数据包大小等确定聚合树类型及聚合树宽度,从而在网络传输开销与数据计算开销之间取得平衡;2)提出了最小高度分层k项Ⅰ型聚合树构建方法,降低了跨组聚合包的个数;3)提出了构建最小代价Ⅱ型聚合树的方法,减少所使用的交换机数量.在神威互连网络中对聚合树构建方法进行了全面测试,当存在网络噪声的情况及分层k项Ⅰ型聚合树构建方法下的消息延迟相比传统构建方法下降了24%~89%;典型通信模式时,最小代价Ⅱ型聚合树使用的交换机聚合条目数相比优化前下降了约90%. 展开更多
关键词 MPI集合通信 聚合树 开销模型 高速互连 高性能计算
下载PDF
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
4
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 PARALLEL C 编译器 消息传递
下载PDF
基于排队理论的动态任务调度模型及容错 被引量:1
5
作者 何王全 魏迪 +2 位作者 权建校 吴伟 漆锋滨 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1271-1280,共10页
高效的动态任务调度和容错机制是高性能计算面临的挑战之一,已有的方法难以高效扩展到大规模环境.针对该问题,提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关... 高效的动态任务调度和容错机制是高性能计算面临的挑战之一,已有的方法难以高效扩展到大规模环境.针对该问题,提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威蓝光32 768核环境下测试表明,对于平均执行时间为3.4s的短任务,基于N层排队理论的动态任务调度模型可扩展性很好,调度开销是传统模型的7.2%;药物软件DOCK在16 384核环境下的整体性能比该软件原有的任务调度提升34.3%;局部感知的轻量级降级模型具有故障后损失小的特点,DOCK的测试表明比传统容错方法执行时间减少3.75%~5.13%. 展开更多
关键词 排队理论 动态任务调度 编程框架 容错 轻量级降级
下载PDF
Parallel C语言级容错机制的设计与实现
6
作者 何王全 方燕飞 +2 位作者 魏迪 董恩铭 漆锋滨 《计算机工程与应用》 CSCD 北大核心 2018年第17期41-49,61,共10页
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针... 大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 展开更多
关键词 容错 降级 检查点 PARALLEL C语言
下载PDF
F2^m上并行Pollard rho算法的优化实现
7
作者 何王全 漆锋滨 韩文报 《计算机应用与软件》 CSCD 北大核心 2005年第12期15-18,38,共5页
并行Pollard rho算法是目前攻击椭圆曲线密码体制(E lliptic Curve Cryptosystem,简称ECC)的最好算法,国内外的研究十分活跃。本文首先介绍了攻击F2m上ECC的并行Pollard rho算法及我们的实现流程,然后给出了核心基本运算(包括求逆、一... 并行Pollard rho算法是目前攻击椭圆曲线密码体制(E lliptic Curve Cryptosystem,简称ECC)的最好算法,国内外的研究十分活跃。本文首先介绍了攻击F2m上ECC的并行Pollard rho算法及我们的实现流程,然后给出了核心基本运算(包括求逆、一般乘法、平方、求模等)的优化算法。实验数据表明,根据本文优化算法编制的MPI并行程序在多机上加速比良好,运算速度优于互联网上公开的程序。 展开更多
关键词 ECC 并行Pollard rho算法 F2^m上的乘法 平方和逆
下载PDF
NERC在循环流化床燃烧技术领域的研究与开发 被引量:8
8
作者 李光华 徐正泉 +6 位作者 何王全 吕怀安 马丽锦 高洪培 蒋敏华 孙献斌 张敏 《热力发电》 CAS 北大核心 1999年第2期10-14,共5页
简述电站锅炉煤清洁燃烧国家工程研究中心(NERC)近年来对循环流化床(CFB)燃烧技术的研究概况。对其开发工作、试验研究和工业装置设计的技术关键进行了较详细的介绍,并对已进行的国产CFB锅炉的启动调试和试验研究概况及... 简述电站锅炉煤清洁燃烧国家工程研究中心(NERC)近年来对循环流化床(CFB)燃烧技术的研究概况。对其开发工作、试验研究和工业装置设计的技术关键进行了较详细的介绍,并对已进行的国产CFB锅炉的启动调试和试验研究概况及CFB锅炉大型化技术未来的开发步骤作了阐述。 展开更多
关键词 循环流化床 燃烧技术 NERC 锅炉 CFB锅炉
下载PDF
循环流化床传热特性的试验研究 被引量:9
9
作者 孙献斌 何王全 +8 位作者 吕怀安 张敏 徐正泉 高洪培 肖平 潘栋 张康道 马丽锦 张清莲 《热力发电》 北大核心 2000年第1期20-21,57,共3页
在 1MW循环流化床燃烧试验台上对炉内水冷壁的传热特性进行了试验研究 ,分析了循环床运行参数对传热的影响规律 。
关键词 循环流化床锅炉 传热 水冷壁 试验
下载PDF
国产化100MW CFB锅炉的设计研究 被引量:4
10
作者 孙献斌 蒋敏华 +12 位作者 李光华 张敏 吕怀安 肖平 高洪培 何王全 袁颖 于龙 林旭东 马明华 张缦 陈济榕 李文健 《中国电力》 CSCD 北大核心 2000年第2期14-17,47,共5页
循环流化床锅炉(CFB)的大型化发展要求从设计、制造及辅机配套等方面实现国产化。文中介绍哈尔滨锅炉有限责任公司和电站锅炉煤清洁燃烧国家工程研究中心在总结大量试验研究、设计制造经验及消化吸收内江100MW CFB锅炉技... 循环流化床锅炉(CFB)的大型化发展要求从设计、制造及辅机配套等方面实现国产化。文中介绍哈尔滨锅炉有限责任公司和电站锅炉煤清洁燃烧国家工程研究中心在总结大量试验研究、设计制造经验及消化吸收内江100MW CFB锅炉技术的基础上联合设计的100 MW CFB锅炉,对其设计思想、炉型技术特点以及锅炉岛辅机设备的设计进行详细讨论。 展开更多
关键词 循环流化床锅炉 设计 国产化 炉膛
下载PDF
国产410t/h循环流化床锅炉底灰处理系统技术研究 被引量:7
11
作者 吕怀安 徐正泉 +6 位作者 马丽锦 张敏 孙献斌 何王全 高洪培 王海涛 蒋敏华 《热力发电》 北大核心 2000年第3期2-5,19,共5页
分析了四川内江高坝电厂 41 0t/h循环流化床 (CFB)锅炉底灰处理系统设计及运行特性 ,总结了FAC - 80 0 0 / 2 0 0型冷渣器设计和现场运行性能 ,在此基础上提出了国产 41
关键词 循环流化床锅炉 冷渣器 底灰处理系统
下载PDF
可重构计算及可重构编译技术研究 被引量:5
12
作者 漆锋滨 王珊珊 +1 位作者 姜小成 何王全 《微电子学与计算机》 CSCD 北大核心 2007年第10期36-38,42,共4页
可重构计算是未来高性能计算的发展趋势,它兼具了通用计算的灵活性和专用计算的高效性,充分利用系统资源的同时,又能发挥应用程序的效率。可重构编译是推广可重构计算的关键技术,可重构编译系统能够为传统的软件编程人员提供一个体系结... 可重构计算是未来高性能计算的发展趋势,它兼具了通用计算的灵活性和专用计算的高效性,充分利用系统资源的同时,又能发挥应用程序的效率。可重构编译是推广可重构计算的关键技术,可重构编译系统能够为传统的软件编程人员提供一个体系结构透明的开发平台,并让用户真正灵活利用可重构计算平台。 展开更多
关键词 可重构计算 可重构编译 可重构编程语言
下载PDF
基于多层MD5消息摘要的文件完整性实时检测技术 被引量:7
13
作者 方燕飞 王俊 何王全 《计算机应用与软件》 CSCD 2015年第1期20-23,共4页
在大规模并行系统上,并行应用涉及的文件操作的可靠性和文件数据的完整性验证很重要。基于传统串行MD5摘要的文件验证手段无法满足大规模并行应用的需求,提出一种多层MD5并行摘要思想。基于此实现了文件完整性实时检测接口,并测试了串行... 在大规模并行系统上,并行应用涉及的文件操作的可靠性和文件数据的完整性验证很重要。基于传统串行MD5摘要的文件验证手段无法满足大规模并行应用的需求,提出一种多层MD5并行摘要思想。基于此实现了文件完整性实时检测接口,并测试了串行MD5摘要和多层MD5摘要的性能,以及相应的文件完整性检测技术的性能。 展开更多
关键词 MD5消息摘要 文件完整性 实时检测
下载PDF
面向众核多级访存资源的静态数据布局优化模型 被引量:3
14
作者 刘勇 刘丽 何王全 《计算机应用与软件》 CSCD 2011年第7期53-56,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显示管理应用程序中的数据存储和传输。为此,提出了一种众核多级访存资源的静态数据布局优化模型。... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显示管理应用程序中的数据存储和传输。为此,提出了一种众核多级访存资源的静态数据布局优化模型。该模型首先选择应用程序中可进行访存优化的数组变量,对这些变量进行优化收益的评估,然后建立一个类0-1背包优化问题的目标模型,最后针对该优化模型提出了一个实用的近似算法。实验结果验证了该模型的有效性。 展开更多
关键词 SPM 多级访存资源 数据布局 数据传输
下载PDF
OpenCL的动态执行模式在静态编译支持下的实现 被引量:1
15
作者 文延华 何王全 尉红梅 《计算机应用与软件》 CSCD 北大核心 2014年第10期16-19,共4页
OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境... OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境下实现OpenCL的动态执行模式。 展开更多
关键词 动态执行模式 函数更名技术 执行流 predo策略
下载PDF
一种简便的栈式片上内存动态管理方法 被引量:1
16
作者 刘勇 陆林生 何王全 《计算机工程与科学》 CSCD 北大核心 2010年第9期111-114,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方法首先选择应用程序中可进行访存优化的数组变量,分析这些数组变量的生存周期,根据生存周期相干情况提出一种栈式的动态片上内存管理方法,将更多的数组变量动态存储在片上内存中,同时结合数组变量的优化收益评估将那些访存密度高的变量有限布局在片上内存中。实验结果验证了该方法的有效性。 展开更多
关键词 SPM 栈式内存动态分配 访存优化
下载PDF
内江410 t/h CFB示范锅炉技术研究 被引量:2
17
作者 张敏 蒋敏华 +9 位作者 孙献斌 何王全 吕怀安 李光华 徐正泉 马丽锦 高洪培 肖平 张康道 潘栋 《锅炉制造》 2000年第2期12-16,共5页
通过对内江高坝发电厂410 t/h引进锅炉技术资料的分析,现场实际设备和运行情况的考查及相关的试验研究,完成了对引进锅炉设备关键技术的消化吸收工作。其研究成果可供国内研制发展 100 MW
关键词 CFB 发电厂 燃煤锅炉
下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
18
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 众核处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
异构多核系统中编译器指导的I/O代理技术 被引量:1
19
作者 王珊珊 魏迪 +1 位作者 文延华 何王全 《计算机工程》 CAS CSCD 北大核心 2011年第21期282-284,共3页
在异构多核系统中,精简设计的从处理器核无法运行操作系统,且不支持终端打印和读写文件等常用I/O操作。为此,提出编译器指导、主处理器代理执行的I/O操作技术,采用信息交互、中断处理等方法,实现聚合代理并优化从处理器代码中的I/O操作... 在异构多核系统中,精简设计的从处理器核无法运行操作系统,且不支持终端打印和读写文件等常用I/O操作。为此,提出编译器指导、主处理器代理执行的I/O操作技术,采用信息交互、中断处理等方法,实现聚合代理并优化从处理器代码中的I/O操作功能。实验证明,编译器指导的I/O代理性能比系统级I/O代理高5倍以上。 展开更多
关键词 异构多核系统 I/O代理 聚合优化 编译器指导 主处理器 从处理器
下载PDF
一种基于深度学习的性能分析框架设计与实现 被引量:4
20
作者 冯赟龙 刘勇 何王全 《计算机工程与科学》 CSCD 北大核心 2018年第6期984-991,共8页
高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带... 高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带来了契机。提出一种基于深度学习的程序性能智能分析框架,其核心思想是将程序的性能分析问题抽象成可用机器学习技术描述的分类问题,使用处理器支持的PMU采集分类所需的性能数据并标准化,使用簇评估技术结合簇的实际含义确定性能问题类别,通过稀疏编码自动学习性能数据特征并构建性能问题分类模型。在神威太湖之光超级计算机上实现了程序性能分析框架原型。实验结果表明,该性能分析方法能够直观地指导程序员快速把握当前应用最为突出的性能瓶颈问题,提高应用优化的效率,降低用户调优代码的成本。 展开更多
关键词 性能分析 深度学习 神威太湖之光
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部