期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
Java语言环境实现技术探讨 被引量:2
1
作者 杨灿群 张晓军 沈志宇 《计算机工程与科学》 CSCD 2001年第2期76-78,共3页
Kaffe是一个完整的遵从 Personal Java1 .1规范的 Java语言环境。本文阐述了 Kaffe的特点和整体实现构架 ,给出了以 Kaffe作为原型系统来实现 Java语言环境的关键技术 ,为在新的机器平台上创建
关键词 Java语言环境 类库 虚拟机 程序设计语言
下载PDF
80位浮点运算的编译实现与优化 被引量:1
2
作者 杨灿群 杨学军 +1 位作者 易会战 李春江 《计算机工程与科学》 CSCD 北大核心 2009年第1期154-158,共5页
本文介绍了80位浮点运算的编译实现技术,在IA-64平台上针对一套科学计算测试程序进行了性能瓶颈分析。利用IA-64体系结构特点,改进和实现了用户定义函数的自动内联、高级循环变换、数据预取、80位浮点数学库函数内联扩展四种编译优化。... 本文介绍了80位浮点运算的编译实现技术,在IA-64平台上针对一套科学计算测试程序进行了性能瓶颈分析。利用IA-64体系结构特点,改进和实现了用户定义函数的自动内联、高级循环变换、数据预取、80位浮点数学库函数内联扩展四种编译优化。测试结果表明,这些优化手段显著提高了80位浮点运算的串行性能和并行性能。 展开更多
关键词 80位浮点运算 IA-64体系结构 GCC编译器 优化
下载PDF
用表驱动算法在GCC中优化实现指数函数 被引量:1
3
作者 杨灿群 王锋 +1 位作者 彭林 杨学军 《计算机工程与科学》 CSCD 2007年第5期77-80,共4页
科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上... 科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上高效实现所有超越函数打下了基础。 展开更多
关键词 GCC 指数函数 表驱动算法 IA-64体系结构
下载PDF
Cell处理器上的软件Cache研究
4
作者 杨灿群 王锋 杜云飞 《计算机工程与科学》 CSCD 北大核心 2011年第2期46-50,共5页
为了提高Cell处理器对共享数据访问的性能,本文设计并实现了一个能够支持释放一致性存储模型的软件Cache。实验结果表明,该软件Cache能够大大缩短SPE对系统主存中共享数据的访问时间开销,提高Cell处理器上OpenMP程序的并行性能。
关键词 CELL 处理器 软件Cache OPENMP
下载PDF
针对MPI全局操作的低功耗优化
5
作者 杨灿群 杨学军 董勇 《计算机工程与科学》 CSCD 北大核心 2009年第2期141-144,149,共5页
本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI... 本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI和MG3D程序进行了功耗测试。结果表明,对MPI全局操作进行功耗优化可获得明显的能量节约。 展开更多
关键词 MPI全局操作 Cluster系统 低功耗 NPB3.2-MPI
下载PDF
扩展双精度浮点并行计算:MPI方法
6
作者 杨灿群 杨学军 易会战 《计算机工程与科学》 CSCD 北大核心 2010年第12期98-101,共4页
双精度浮点并行计算将不能满足高性能计算领域对计算精度的要求,但是目前还没有高性能的超双精度并行计算的解决方法。基于并行编程语言MPI,本文提出了扩展双精度浮点的并行计算实现方法,并且使用精度敏感的圆周率计算BBP算法验证了该... 双精度浮点并行计算将不能满足高性能计算领域对计算精度的要求,但是目前还没有高性能的超双精度并行计算的解决方法。基于并行编程语言MPI,本文提出了扩展双精度浮点的并行计算实现方法,并且使用精度敏感的圆周率计算BBP算法验证了该方法的正确性和性能。 展开更多
关键词 扩展双精度 MPI BBP算法
下载PDF
一种实用的自动代码划分算法
7
作者 杨灿群 李春江 王锋 《计算机工程与科学》 CSCD 北大核心 2010年第11期132-135,共4页
在编译器中进行自动代码划分然后采用代码重叠技术,是内存容量较小的处理器发挥性能的关键技术之一。随着异构多核处理器的出现,这类处理器通常作为协处理器。本文提出了一种实用的自动代码划分算法,并面向Cell处理器在GNU工具链中进行... 在编译器中进行自动代码划分然后采用代码重叠技术,是内存容量较小的处理器发挥性能的关键技术之一。随着异构多核处理器的出现,这类处理器通常作为协处理器。本文提出了一种实用的自动代码划分算法,并面向Cell处理器在GNU工具链中进行了实现。该算法首先根据调用频率发现调用热点,然后采用简化的聚类方法进行热点指导的分区聚集,最后进行容量指导的分区合并。实验结果表明,算法复杂度较低并能取得很好的效果。 展开更多
关键词 自动代码划分 GNU工具链 CELL处理器
下载PDF
GNUC语言中的嵌套函数
8
作者 杨灿群 赵克佳 《计算机应用研究》 CSCD 1999年第3期94-97,共4页
许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只... 许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只能出现在文件级:函数标识符的作用域通过加static说明来把它约束到文件级,由几个函数共享的变量标识符的作用域也必须包含在至少一个编译单元中,因为它必须声明为全局级变量。为了克服这个弱点,GNUC语言扩充了嵌套函数[2],GNUC编译系统采用“trampolines”的技术来实现嵌套函数、本文将介绍GNUC中嵌套函数的语法,结合MISPSR3000机器平台分析嵌套函数的编译实现技术,并从GNUC编译系统中把与处理嵌套函数相关的宏定义、源文件以及函数提取出来作简要分析。 展开更多
关键词 嵌套函数 C语言 GNU 编译系统
下载PDF
基于内存缓存的异步检查点容错技术 被引量:8
9
作者 易会战 王锋 +3 位作者 左克 杨灿群 杜云飞 马亚青 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1229-1239,共11页
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文... 高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性. 展开更多
关键词 内存缓存 异步 检查点 容错 JASMIN
下载PDF
基于模糊聚类分析的构件并行技术研究 被引量:7
10
作者 杜静 敖富江 +1 位作者 杨学军 杨灿群 《计算机学报》 EI CSCD 北大核心 2007年第11期1939-1946,共8页
提出了一种新的面向科学计算的构件技术——基于模糊聚类分析的构件并行技术,旨在提高构件间的并行度和数据局部性,避免通信瓶颈.该技术分为两个阶段:域划分和子构件组合.其中域划分利用了编译时的数据依赖分析技术.然后考虑访问步长的... 提出了一种新的面向科学计算的构件技术——基于模糊聚类分析的构件并行技术,旨在提高构件间的并行度和数据局部性,避免通信瓶颈.该技术分为两个阶段:域划分和子构件组合.其中域划分利用了编译时的数据依赖分析技术.然后考虑访问步长的影响,利用不定方程,提出了区间重叠度的概念.基于此利用所设计的基于区间重叠度的模糊聚类算法实现子构件分类组合,并给出了算法的形式化描述.实验结果表明,通过该算法的编译时优化,构件程序能够获得良好的数据局部性、适中的粒度以及高度的并行性,算法具有很好的可扩展性. 展开更多
关键词 通信瓶颈 并行度 数据局部性 区间重叠度 模糊聚类
下载PDF
飞腾处理器与商用处理器性能比较 被引量:12
11
作者 方建滨 杜琦 +3 位作者 唐滔 陈顼颢 黄春 杨灿群 《计算机工程与科学》 CSCD 北大核心 2019年第1期1-8,共8页
深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个... 深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT-1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。 展开更多
关键词 飞腾处理器 微基准测试 性能比较
下载PDF
无线局域网的信息安全保障 被引量:8
12
作者 刘琦 何连跃 杨灿群 《计算机应用》 CSCD 北大核心 2003年第4期92-95,共4页
目前大部分无线传输系统采用WEP机制解决无线局域网的安全问题 ,然而WEP在身份认证、加密算法、密钥管理、信息认证等方面存在严重缺陷 ,无法满足安全需求。针对无线局域网信息传输系统设计存在的安全问题 ,提出一个无线局域网信息传输... 目前大部分无线传输系统采用WEP机制解决无线局域网的安全问题 ,然而WEP在身份认证、加密算法、密钥管理、信息认证等方面存在严重缺陷 ,无法满足安全需求。针对无线局域网信息传输系统设计存在的安全问题 ,提出一个无线局域网信息传输系统的安全设计方案。 展开更多
关键词 无线局域网 信息安全保障 信息传输系统 密码 数据加密
下载PDF
面向ARMv8 64位多核处理器的QGEMM设计与实现 被引量:3
13
作者 姜浩 杜琦 +4 位作者 郭敏 全哲 左克 王锋 杨灿群 《计算机学报》 EI CSCD 北大核心 2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能... 该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性. 展开更多
关键词 ARMv8 64位多核处理器 QGEMM 四精度 double—double数据格式 LONG double数据格式 OpenBLAS
下载PDF
基于GCC实现飞腾处理器向量处理单元的编译器后端 被引量:3
14
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌... 编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。 展开更多
关键词 飞腾处理器 向量处理单元 GCC 编译器后端
下载PDF
飞腾1500A处理器性能分析工具Likwid研究 被引量:4
15
作者 彭林 方建滨 +3 位作者 杜琦 唐滔 黄春 杨灿群 《计算机工程与科学》 CSCD 北大核心 2018年第7期1147-1154,共8页
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500... 在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。 展开更多
关键词 飞腾1500A处理器 性能分析工具 PMU
下载PDF
TI DSP C语言编译器正确性测试 被引量:2
16
作者 孙海燕 陈跃跃 +3 位作者 王峰 杨灿群 阳柳 王霁 《计算机科学》 CSCD 北大核心 2015年第S1期513-515 545,545,共4页
TI DSP广泛应用于工业控制任务中,其可执行代码的可靠性不仅依赖于程序本身的可靠性,而且也依赖于编译器的可靠性。选取在工业控制领域中应用广泛、具有代表性的DSP芯片TI C6701对其编译器进行正确性测试。测试结果表明,用户在不加限制... TI DSP广泛应用于工业控制任务中,其可执行代码的可靠性不仅依赖于程序本身的可靠性,而且也依赖于编译器的可靠性。选取在工业控制领域中应用广泛、具有代表性的DSP芯片TI C6701对其编译器进行正确性测试。测试结果表明,用户在不加限制地使用TI C6701编译器时,可能会遇到编译器的正确性问题,进而影响整个应用系统的正确性。 展开更多
关键词 编译器测试 C89规范 DSP C6701
下载PDF
面向存储层次设计优化的GPU程序性能分析 被引量:2
17
作者 唐滔 彭林 +1 位作者 黄春 杨灿群 《计算机科学》 CSCD 北大核心 2017年第12期1-10,共10页
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有... 图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。 展开更多
关键词 异构系统 图形处理器 存储层次 性能分析 优化
下载PDF
GCC中内嵌函数实现剖析 被引量:2
18
作者 李春江 杜云飞 +1 位作者 易会战 杨灿群 《计算机科学》 CSCD 北大核心 2012年第B06期357-359,379,共4页
GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用... GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用;之后结合实际工作,以使用向量扩展指令的内嵌函数实现为例,剖析了平台相关的内嵌函数的实现过程。本工作对深入理解GCC编译器中的内嵌函数实现机制,对基于GCC的研究和开发有较强的参考意义。 展开更多
关键词 GCC 内嵌函数 剖析
下载PDF
基于运行时代码修改的动态性能监控关键技术研究 被引量:1
19
作者 蒋杰 徐涵 +2 位作者 刘杰 杨灿群 胡庆丰 《计算机工程与科学》 CSCD 北大核心 2009年第A01期150-152,209,共4页
代码插桩是程序性能监控的重要环节。动态插桩通过对可执行程序代码的运行时修改支持动态性能监控,有助于降低性能分析工具的构建代价,提高工具易用性。本文首先阐述了Dyninst动态插桩系统的概念抽象与执行机理,然后结合大规模并行程序... 代码插桩是程序性能监控的重要环节。动态插桩通过对可执行程序代码的运行时修改支持动态性能监控,有助于降低性能分析工具的构建代价,提高工具易用性。本文首先阐述了Dyninst动态插桩系统的概念抽象与执行机理,然后结合大规模并行程序动态插桩的需要,对DPCL并行程序动态插桩基础设施以及基于MRNet的可扩展通信结构进行了深入分析。 展开更多
关键词 性能监控 运行时代码修改 动态插桩 Dyninst DPCL MRNet
下载PDF
面向ARMv8 64位多核处理器QTRSM的实现 被引量:1
20
作者 杜琦 姜浩 +2 位作者 李宽 彭林 杨灿群 《计算机工程与科学》 CSCD 北大核心 2017年第3期451-457,共7页
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加... 在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。 展开更多
关键词 ARMv8 64位多核处理器 OpenBLAS 四精度 double-double数据格式 QTRSM
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部