期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
swLLVM:面向神威新一代超级计算机的优化编译器
1
作者 沈莉 周文浩 +5 位作者 王飞 肖谦 武文浩 张鲁飞 安虹 漆锋滨 《软件学报》 EI CSCD 北大核心 2024年第5期2359-2378,共20页
异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申... 异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro.为了发挥新一代众核处理器的性能优势,支撑新兴科学计算应用的开发和优化,设计并实现面向SW26010Pro平台的优化编译器swLLVM.该编译器支持Athread和SDAA双模态异构编程模型,提供多级存储层次描述及向量操作扩展,并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化.测试结果表明,所设计并实现的编译优化效果显著,其中,控制流向量化和节点合并优化的平均加速比分别为1.23和1.11,而访存相关优化最高可获得2.49倍的性能提升.最后,使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估,相较于SWGCC的相同优化级别,swLLVM整型课题性能平均下降0.12%,浮点型课题性能平均提升9.04%,整体性能平均提升5.25%,编译速度平均提升79.1%,代码尺寸平均减少1.15%. 展开更多
关键词 异构众核 编译系统 编程模型 存储层次 向量化 节点合并 访存优化
下载PDF
神威超级计算机运行时故障定位方法
2
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
下载PDF
基于InfiniBand的高性能计算机技术研究 被引量:12
3
作者 谢向辉 彭龙根 +1 位作者 吴志兵 卢德平 《计算机研究与发展》 EI CSCD 北大核心 2005年第6期905-912,共8页
网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展.InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡.2000年在InfiniBand协议... 网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展.InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡.2000年在InfiniBand协议发展初期,国家并行计算机工程技术研究中心就在国家“八六三”计划的支持下开始对InfiniBand协议展开了深入研究,旨在改进高性能计算特别是集群系统的互连性能,研制出符合InfiniBand标准规范的高性能互连部件,并最终开发出了具有自主知识产权的InfiniBand互连网络产品.论述了以自行研制的InfiniBand部件技术为基础的高性能集群计算机系统的组成、结构和应用,并对系统性能进行了实验分析. 展开更多
关键词 HPC 存储网络 系统域网 ISCSI RDMA
下载PDF
高性能计算机的关键技术和发展趋势 被引量:9
4
作者 金怡濂 黄永勤 +2 位作者 陈左宁 桂亚东 漆锋滨 《中国工程科学》 2001年第6期1-8,共8页
介绍高性能计算机的关键技术和发展趋势。简要回顾高性能计算机的发展历史和当前形势 ,重点讨论大规模并行处理 (MPP)所面临的挑战 ,包括可扩展性、友善性和可用性。介绍神威高性能计算机及其应用情况 ,并对如何发展我国高性能计算机提... 介绍高性能计算机的关键技术和发展趋势。简要回顾高性能计算机的发展历史和当前形势 ,重点讨论大规模并行处理 (MPP)所面临的挑战 ,包括可扩展性、友善性和可用性。介绍神威高性能计算机及其应用情况 ,并对如何发展我国高性能计算机提出一些初浅的看法。 展开更多
关键词 大规模并行处理 系统软件 并行编译 系统效率 可扩展性 可用性 技术发展 高性能计算机
下载PDF
E级高性能计算机的维护故障诊断系统研究 被引量:6
5
作者 建澜涛 任秀江 +3 位作者 张祯 石嵩 黄益明 张春林 《计算机工程》 CAS CSCD 北大核心 2022年第12期24-37,共14页
E级计算机系统规模巨大,使得故障异常总量随之增多,导致诊断发现的难度增加,因此,迫切需要一套更加准确高效的实时维护故障诊断系统,对硬件系统进行全面的异常及故障信息实时检测、故障诊断及故障预测。传统故障诊断系统在面对数万节点... E级计算机系统规模巨大,使得故障异常总量随之增多,导致诊断发现的难度增加,因此,迫切需要一套更加准确高效的实时维护故障诊断系统,对硬件系统进行全面的异常及故障信息实时检测、故障诊断及故障预测。传统故障诊断系统在面对数万节点规模的诊断时存在执行效率低、异常检测误报率高的问题,异常检测及故障诊断的覆盖率不足。对异常及故障检测、故障诊断与故障预测相关技术进行研究,分析技术原理及适用性,并结合E级高性能计算机实际工程需求,设计一套满足数E级高性能计算机需求的维护故障诊断系统。基于维护系统的结构组成设计可扩展的边缘诊断架构,将高性能计算机系统知识、专家知识与数理统计、机器学习相融合给出故障检测、诊断及预测算法,并针对专用场景建立预测模型。实验结果表明,该系统具有较好的可扩展性,能在10 s内完成对十万个节点规模系统的故障诊断,与传统故障诊断系统相比,异常检测某特定指标误报率从3.3%降低到几乎为0,硬件故障检测覆盖率从90.2%提升至96%以上,硬件故障诊断覆盖率从71%提升至约94%,能较准确地预测多个重要应用场景下的故障。 展开更多
关键词 高性能计算 维护系统 异常检测 故障诊断 故障预测
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
6
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
面向神威众核超算系统的并行计算模型研究 被引量:2
7
作者 高剑刚 刘鑫 +4 位作者 李芳 刘勇 彭达佳 陈鑫 陈德训 《计算机学报》 EI CAS CSCD 北大核心 2023年第7期1339-1349,共11页
基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之... 基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之光”和神威E级原型系统的众核体系结构特点,提出P-PALN(Parallel-Parallel Access via LDM&NOC)并行计算模型,对于计算节点间的并行,该模型沿用BSP/LogP模型描述;对于计算节点内的众核并行,该模型提供私有存储访问和片上阵列通信的众核并行架构的有效描述PALN,能够协助用户进行众核并行算法设计,并在申威众核处理器硬件设计中指导参数的优化.实验结果表明,该模型可有效指导硬件设计和用户众核编程,从而提高系统和应用的性能. 展开更多
关键词 众核处理器 并行计算模型 P-PALN PALN 片上通信
下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术
8
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
下载PDF
Beacon^(+):面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统 被引量:1
9
作者 杨斌 王敬宇 +6 位作者 刘世超 邵明山 肖伟 陈起 何晓斌 刘卫国 薛巍 《计算机工程与科学》 CSCD 北大核心 2022年第9期1521-1531,共11页
随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面... 随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统——Beacon^(+)。该系统无需修改应用代码/脚本即可对每个应用的数据访问过程进行全路径实时监控与分析。通过在线+离线的压缩方法和分布式缓存/存储等机制,Beacon^(+)在保证系统本身高扩展性、低开销的同时还可以持续稳定地提供I/O诊断服务。以神威新一代超级计算机为部署平台,通过I/O标准测试应用和实际应用证明了Beacon^(+)的低开销和高准确性,以及I/O诊断的高效性。 展开更多
关键词 I/O监控 数据压缩 I/O诊断 异常检测 性能瓶颈优化
下载PDF
“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究 被引量:17
10
作者 刘鑫 郭恒 +1 位作者 孙茹君 陈左宁 《计算机学报》 EI CSCD 北大核心 2018年第10期2209-2220,共12页
复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大... 复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大规模实验分析结果,基于大规模应用计算和数据移动特征以及异构众核体系结构特点提出新的性能模型,得出影响大规模应用性能的关键因素,提出E级复杂应用对未来E级计算机系统的设计需求. 展开更多
关键词 神威·太湖之光 大规模应用 复杂度分析 计算特征
下载PDF
R-RS:一种面向E级计算的内存可靠性增强技术
11
作者 高剑刚 石嵩 郑方 《计算机学报》 EI CAS CSCD 北大核心 2023年第2期260-273,共14页
存储器可靠性问题是构建E级计算系统的关键挑战之一.存储器故障占计算机系统硬件故障的40%以上,随着存储器数量增加、存储器密度扩展和接口速率提升,E级计算机中存储器和访存传输通路的可靠性问题将会愈发严峻,传统的SEC-DED汉明码的纠... 存储器可靠性问题是构建E级计算系统的关键挑战之一.存储器故障占计算机系统硬件故障的40%以上,随着存储器数量增加、存储器密度扩展和接口速率提升,E级计算机中存储器和访存传输通路的可靠性问题将会愈发严峻,传统的SEC-DED汉明码的纠检错能力难以满足E级系统高可靠性的需求.RS码是一种纠错能力很强的多项式编码,可实现Chipkill技术,然而,可纠多符号错的RS码的译码电路复杂,直接应用于存储器领域较为困难.本文提出了一种基于RS码和重传机制的内存可靠性增强技术——R-RS(Retransmission-RS),通过精心挑选本原多项式和校验矩阵设计了具有低硬件实现开销的RS编码,并通过精细化电路设计实现了并行高效低延迟译码,提出了基于窗口保序的重传机制对传输链路上的偶发故障所致错误进行重传,R-RS可纠正4个8位符号错,能够有效应对传输链路和存储器内部的随机单比特错、突发错以及传输链路偶发错误.R-RS的冗余存储开销为12.5%,性能开销是额外的1拍译码延迟,其面积仅占整个存储控制器的3.5%,与同类别的E-ECC方案相比,其纠正双颗粒、三颗粒突发错的能力分别提升了83.3%和109.5%,而其误纠概率降低了97.8%,利用存储器实际出错模型参数进行仿真,结果显示R-RS的平均纠错能力相较于E-ECC提高了31%;R-RS的重传功能在实际系统中使访存失效率降低了42.1%.R-RS应用在新一代神威E级计算机系统后,使系统的平均无故障运行时间增加了35.3倍,表明R-RS是一种有效的面向E级计算的内存可靠性解决方案. 展开更多
关键词 存储器 E级计算 可靠性 Chipkill RS码 重传
下载PDF
二进制翻译技术综述
12
作者 谢汶兵 田雪 +3 位作者 漆锋滨 武成岗 王俊 罗巧玲 《软件学报》 EI CSCD 北大核心 2024年第6期2687-2723,共37页
随着信息技术的快速发展,涌现出各种新型处理器体系结构.新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战,需要兼容运行已有软件,确保较为丰富的软件生态群.但要在短期内从源码编译构建大量生态软件并非易事,二进制... 随着信息技术的快速发展,涌现出各种新型处理器体系结构.新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战,需要兼容运行已有软件,确保较为丰富的软件生态群.但要在短期内从源码编译构建大量生态软件并非易事,二进制翻译作为一种直接从二进制层面迁移可执行代码技术,支持跨平台软件兼容运行,既扩大了软件生态群,又有效降低了应用程序与硬件之间的耦合度.近年来,二进制翻译技术研究取得了较大进展.为总结现有成果并分析存在的不足,首先介绍二进制翻译技术的分类以及典型的二进制翻译系统,之后从指令翻译方法、关键问题研究、优化技术等方面分别进行分析总结,接着阐述二进制翻译技术的核心应用领域,最后对二进制翻译技术的潜在研究方向进行展望. 展开更多
关键词 二进制翻译 翻译效率 等价变换 软件迁移 多融合优化
下载PDF
基于统计数据的超级计算机内存故障分析 被引量:1
13
作者 刘睿涛 陈左宁 《计算机工程》 CAS CSCD 北大核心 2019年第5期35-45,共11页
基于神威太湖之光和神威蓝光超级计算机的巨量内存故障统计数据,建立P级超级计算机的内存失效时间模型。采用序列规则挖掘方法,分析内存失效序列模式,得到CPU节点上内存失效序列与后续内存失效的关联关系。通过协同分析方法研究并行应... 基于神威太湖之光和神威蓝光超级计算机的巨量内存故障统计数据,建立P级超级计算机的内存失效时间模型。采用序列规则挖掘方法,分析内存失效序列模式,得到CPU节点上内存失效序列与后续内存失效的关联关系。通过协同分析方法研究并行应用的内存故障与内存失效特征,结果表明计算-访存-I/O密集型应用对内存故障影响较大,而应用类型对内存失效的影响有限,内存失效可能与内存芯片自身的可靠性有关。 展开更多
关键词 超级计算机 内存故障 内存失效 统计数据 失效模型 关联关系 协同分析
下载PDF
超级计算机热设计 被引量:3
14
作者 张旭 《电子机械工程》 2003年第2期9-14,17,共7页
主要阐述了超级计算机热设计的原则、方法和步骤 ,结合具体的工程应用 ,介绍了各种冷却措施。认为热设计工程师应从冷却系统的功能、可用性规定指标和冷却系统的投资费用等一些基本原则出发 ,研制出一些更为有效的冷却方法 。
关键词 超级计算机 热设计 热流密度 冷却 热传递
下载PDF
面向高性能计算的众核处理器结构级高能效技术 被引量:17
15
作者 郑方 张昆 +7 位作者 邬贵明 高红光 唐勇 吕晖 过锋 李宏亮 谢向辉 陈左宁 《计算机学报》 EI CSCD 北大核心 2014年第10期2176-2186,共11页
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该... 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 展开更多
关键词 众核处理器 结构优化 能效 高性能计算
下载PDF
面向E级计算的功耗管理技术 被引量:3
16
作者 高剑刚 龚道永 +5 位作者 吴伟 郑岩 朱琪 王飞 郑方 金利峰 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1373-1383,共11页
E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在... E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在系统功耗量化监测技术支撑下实现软硬件协同能耗控制集成,具有功能层次多、覆盖面广、节能效果明显的特点.本文基于神威E级原型超级计算机进行了系统验证,实验结果证明本文提出的低功耗管理体系能够显著降低系统功耗,并且可扩展性良好,在大规模系统中具有广泛的适应性,能够支撑E级计算机绿色运行. 展开更多
关键词 E级计算机 异构众核处理器 功耗管理 编译优化 运行时优化
下载PDF
基于多虚空间多重映射技术的并行操作系统 被引量:3
17
作者 陈左宁 金怡濂 《软件学报》 EI CSCD 北大核心 2001年第10期1562-1568,共7页
高性能计算机系统的可扩展性是系统设计的一大难题 ,NUMA(non-uniform memory architecture)结构正是为了解决共享存储体系的可扩展性问题而提出来的 .研究和实践表明 ,整机系统的可扩展性与操作系统的结构有着密切的关系 .典型的多处... 高性能计算机系统的可扩展性是系统设计的一大难题 ,NUMA(non-uniform memory architecture)结构正是为了解决共享存储体系的可扩展性问题而提出来的 .研究和实践表明 ,整机系统的可扩展性与操作系统的结构有着密切的关系 .典型的多处理机操作系统通常采用两种结构 ,基于共享的单一核心结构以及基于消息的多核心结构 .通过分析得出结论认为 ,这两种结构都不能很好地适应可扩展并行机尤其是 NUMA结构并行机的需求 .针对存在的问题 ,提出了新的结构设计思想 :多虚空间多重映射与主动消息相结合 .测试和运行结果显示 。 展开更多
关键词 并行操作系统 多重映射技术 可扩展性 计算机系统
下载PDF
面向E量级超算的并行循环压缩浮点乘加校验结构
18
作者 高剑刚 刘骁 +1 位作者 郑方 唐勇 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1103-1120,共18页
E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制... E量级超算面临超十亿浮点融合乘加(Fused Multiply-Add,FMA)部件同时运行的严峻挑战,单个FMA检错率的少量变化可引起系统可用性的较大变动.E级超算核心的高运行频率、实时校验需求对校验逻辑时序提出了更高的要求.同时,E级超算需要控制系统规模,同芯片面积下集成的核心数目更多,片上资源较为紧张.因此,FMA校验设计需要在保证错误检测能力的前提下,对校验逻辑的时序、面积开销进行控制.本文提出了并行循环4:2压缩结构.余数系统模数增大后,并行循环4:2压缩结构能在降低余数生成逻辑的时序、面积开销的同时,提升余数系统的检错能力.本文还对余数域中的FMA尾数运算进行研究,提出了取反符号扩展操作、乘法尾数、加法尾数的余数域加速变换.实验结果表明,本文提出的并行循环4:2混合压缩余数生成逻辑较模加器树余数生成逻辑、CSA(Carry Saved Adder) 3:2压缩余数生成逻辑分别最多可取得19.64%、6.75%的时序优化和71%、18.18%的面积优化.基于并行循环4:2压缩树的模63余数校验在面积开销、检错率、系统可用性上均优于IBM采用的模15浮点FMA校验设计,面积开销、检错率优化效果分别能达到67.61%、5%,系统可用性优化最多可达49.6%. 展开更多
关键词 浮点融合乘加 可用性 浮点校验 模加器 并行循环压缩
下载PDF
基于新一代神威超算的量子计算模拟器加速和优化
19
作者 史新民 刘勇 +2 位作者 陈垚键 宋佳伟 刘鑫 《计算机应用》 CSCD 北大核心 2023年第8期2486-2492,共7页
针对量子硬件规模逐步扩大、当下量子计算经典模拟速度不高的问题,提出了基于神威超算量子模拟器的两种优化方法。首先,通过改进张量转置策略和计算策略重新构建了张量收缩算子库SWTT,从而提高了部分张量收缩的计算内核效率并减少了冗... 针对量子硬件规模逐步扩大、当下量子计算经典模拟速度不高的问题,提出了基于神威超算量子模拟器的两种优化方法。首先,通过改进张量转置策略和计算策略重新构建了张量收缩算子库SWTT,从而提高了部分张量收缩的计算内核效率并减少了冗余访存;其次,通过提高数据局部性的收缩路径调整方法实现了路径计算复杂度和计算效率之间的均衡。测试结果表明,该算子库改进方法可将“悬铃木”量子霸权电路模拟效率提升5.4%,单步张量收缩效率最高提升49.7倍;该路径调整方法可在路径计算复杂度膨胀2倍条件下提升约4倍的浮点效率。两种优化方法使神威超算整机模拟谷歌53量子比特20层量子芯片随机电路百万振幅采样的单精度和混合精度浮点运算效率分别从3.98%和1.69%提升至18.48%和7.42%,理论估计模拟时间从单精度的470 s降至226 s,混合精度的304 s降至134 s,证明两种方法大幅提高了量子计算模拟速度。 展开更多
关键词 量子模拟器 神威超算体系结构 收缩路径 张量收缩算子库 张量网络收缩
下载PDF
面向高性能众核处理器的超频DDR4访存结构设计
20
作者 高剑刚 李川 +2 位作者 郑浩 王彦辉 胡晋 《计算机工程与设计》 北大核心 2024年第3期715-722,共8页
从高性能众核处理器的多路DDR4嵌入式工程应用出发,设计一种高密度DDR4串推互连结构,提出一种基于不同激励码型的仿真分析方法。采用双面盲孔印制板工艺折叠串推访存结构设计,解决地址组信号概率性出错问题。在压力测试环境下实测读/写... 从高性能众核处理器的多路DDR4嵌入式工程应用出发,设计一种高密度DDR4串推互连结构,提出一种基于不同激励码型的仿真分析方法。采用双面盲孔印制板工艺折叠串推访存结构设计,解决地址组信号概率性出错问题。在压力测试环境下实测读/写信号波形良好,支持信号超频可靠传输,标称2666 Mbps的DDR4存储颗粒可以在3000 Mbps速率下长时间稳定运行。已在神威E级原型机等多台套大型计算装备研发中得到规模化推广应用,产生了良好的技术效益。 展开更多
关键词 双倍数据速率 同步动态随机存取存储器 折叠串推 码型仿真 信号传输 盲孔 超频
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部