期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
50
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Java语言环境实现技术探讨
被引量:
2
1
作者
杨灿群
张晓军
沈志宇
《计算机工程与科学》
CSCD
2001年第2期76-78,共3页
Kaffe是一个完整的遵从 Personal Java1 .1规范的 Java语言环境。本文阐述了 Kaffe的特点和整体实现构架 ,给出了以 Kaffe作为原型系统来实现 Java语言环境的关键技术 ,为在新的机器平台上创建
关键词
Java语言环境
类库
虚拟机
程序设计语言
下载PDF
职称材料
80位浮点运算的编译实现与优化
被引量:
1
2
作者
杨灿群
杨学军
+1 位作者
易会战
李春江
《计算机工程与科学》
CSCD
北大核心
2009年第1期154-158,共5页
本文介绍了80位浮点运算的编译实现技术,在IA-64平台上针对一套科学计算测试程序进行了性能瓶颈分析。利用IA-64体系结构特点,改进和实现了用户定义函数的自动内联、高级循环变换、数据预取、80位浮点数学库函数内联扩展四种编译优化。...
本文介绍了80位浮点运算的编译实现技术,在IA-64平台上针对一套科学计算测试程序进行了性能瓶颈分析。利用IA-64体系结构特点,改进和实现了用户定义函数的自动内联、高级循环变换、数据预取、80位浮点数学库函数内联扩展四种编译优化。测试结果表明,这些优化手段显著提高了80位浮点运算的串行性能和并行性能。
展开更多
关键词
80位浮点运算
IA-64体系结构
GCC编译器
优化
下载PDF
职称材料
用表驱动算法在GCC中优化实现指数函数
被引量:
1
3
作者
杨灿群
王锋
+1 位作者
彭林
杨学军
《计算机工程与科学》
CSCD
2007年第5期77-80,共4页
科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上...
科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上高效实现所有超越函数打下了基础。
展开更多
关键词
GCC
指数函数
表驱动算法
IA-64体系结构
下载PDF
职称材料
Cell处理器上的软件Cache研究
4
作者
杨灿群
王锋
杜云飞
《计算机工程与科学》
CSCD
北大核心
2011年第2期46-50,共5页
为了提高Cell处理器对共享数据访问的性能,本文设计并实现了一个能够支持释放一致性存储模型的软件Cache。实验结果表明,该软件Cache能够大大缩短SPE对系统主存中共享数据的访问时间开销,提高Cell处理器上OpenMP程序的并行性能。
关键词
CELL
处理器
软件Cache
OPENMP
下载PDF
职称材料
针对MPI全局操作的低功耗优化
5
作者
杨灿群
杨学军
董勇
《计算机工程与科学》
CSCD
北大核心
2009年第2期141-144,149,共5页
本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI...
本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI和MG3D程序进行了功耗测试。结果表明,对MPI全局操作进行功耗优化可获得明显的能量节约。
展开更多
关键词
MPI全局操作
Cluster系统
低功耗
NPB3.2-MPI
下载PDF
职称材料
扩展双精度浮点并行计算:MPI方法
6
作者
杨灿群
杨学军
易会战
《计算机工程与科学》
CSCD
北大核心
2010年第12期98-101,共4页
双精度浮点并行计算将不能满足高性能计算领域对计算精度的要求,但是目前还没有高性能的超双精度并行计算的解决方法。基于并行编程语言MPI,本文提出了扩展双精度浮点的并行计算实现方法,并且使用精度敏感的圆周率计算BBP算法验证了该...
双精度浮点并行计算将不能满足高性能计算领域对计算精度的要求,但是目前还没有高性能的超双精度并行计算的解决方法。基于并行编程语言MPI,本文提出了扩展双精度浮点的并行计算实现方法,并且使用精度敏感的圆周率计算BBP算法验证了该方法的正确性和性能。
展开更多
关键词
扩展双精度
MPI
BBP算法
下载PDF
职称材料
一种实用的自动代码划分算法
7
作者
杨灿群
李春江
王锋
《计算机工程与科学》
CSCD
北大核心
2010年第11期132-135,共4页
在编译器中进行自动代码划分然后采用代码重叠技术,是内存容量较小的处理器发挥性能的关键技术之一。随着异构多核处理器的出现,这类处理器通常作为协处理器。本文提出了一种实用的自动代码划分算法,并面向Cell处理器在GNU工具链中进行...
在编译器中进行自动代码划分然后采用代码重叠技术,是内存容量较小的处理器发挥性能的关键技术之一。随着异构多核处理器的出现,这类处理器通常作为协处理器。本文提出了一种实用的自动代码划分算法,并面向Cell处理器在GNU工具链中进行了实现。该算法首先根据调用频率发现调用热点,然后采用简化的聚类方法进行热点指导的分区聚集,最后进行容量指导的分区合并。实验结果表明,算法复杂度较低并能取得很好的效果。
展开更多
关键词
自动代码划分
GNU工具链
CELL处理器
下载PDF
职称材料
GNUC语言中的嵌套函数
8
作者
杨灿群
赵克佳
《计算机应用研究》
CSCD
1999年第3期94-97,共4页
许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只...
许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只能出现在文件级:函数标识符的作用域通过加static说明来把它约束到文件级,由几个函数共享的变量标识符的作用域也必须包含在至少一个编译单元中,因为它必须声明为全局级变量。为了克服这个弱点,GNUC语言扩充了嵌套函数[2],GNUC编译系统采用“trampolines”的技术来实现嵌套函数、本文将介绍GNUC中嵌套函数的语法,结合MISPSR3000机器平台分析嵌套函数的编译实现技术,并从GNUC编译系统中把与处理嵌套函数相关的宏定义、源文件以及函数提取出来作简要分析。
展开更多
关键词
嵌套函数
C语言
GNU
编译系统
下载PDF
职称材料
基于内存缓存的异步检查点容错技术
被引量:
8
9
作者
易会战
王锋
+3 位作者
左克
杨灿群
杜云飞
马亚青
《计算机研究与发展》
EI
CSCD
北大核心
2014年第6期1229-1239,共11页
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文...
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性.
展开更多
关键词
内存缓存
异步
检查点
容错
JASMIN
下载PDF
职称材料
基于模糊聚类分析的构件并行技术研究
被引量:
7
10
作者
杜静
敖富江
+1 位作者
杨学军
杨灿群
《计算机学报》
EI
CSCD
北大核心
2007年第11期1939-1946,共8页
提出了一种新的面向科学计算的构件技术——基于模糊聚类分析的构件并行技术,旨在提高构件间的并行度和数据局部性,避免通信瓶颈.该技术分为两个阶段:域划分和子构件组合.其中域划分利用了编译时的数据依赖分析技术.然后考虑访问步长的...
提出了一种新的面向科学计算的构件技术——基于模糊聚类分析的构件并行技术,旨在提高构件间的并行度和数据局部性,避免通信瓶颈.该技术分为两个阶段:域划分和子构件组合.其中域划分利用了编译时的数据依赖分析技术.然后考虑访问步长的影响,利用不定方程,提出了区间重叠度的概念.基于此利用所设计的基于区间重叠度的模糊聚类算法实现子构件分类组合,并给出了算法的形式化描述.实验结果表明,通过该算法的编译时优化,构件程序能够获得良好的数据局部性、适中的粒度以及高度的并行性,算法具有很好的可扩展性.
展开更多
关键词
通信瓶颈
并行度
数据局部性
区间重叠度
模糊聚类
下载PDF
职称材料
飞腾处理器与商用处理器性能比较
被引量:
12
11
作者
方建滨
杜琦
+3 位作者
唐滔
陈顼颢
黄春
杨灿群
《计算机工程与科学》
CSCD
北大核心
2019年第1期1-8,共8页
深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个...
深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT-1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。
展开更多
关键词
飞腾处理器
微基准测试
性能比较
下载PDF
职称材料
无线局域网的信息安全保障
被引量:
8
12
作者
刘琦
何连跃
杨灿群
《计算机应用》
CSCD
北大核心
2003年第4期92-95,共4页
目前大部分无线传输系统采用WEP机制解决无线局域网的安全问题 ,然而WEP在身份认证、加密算法、密钥管理、信息认证等方面存在严重缺陷 ,无法满足安全需求。针对无线局域网信息传输系统设计存在的安全问题 ,提出一个无线局域网信息传输...
目前大部分无线传输系统采用WEP机制解决无线局域网的安全问题 ,然而WEP在身份认证、加密算法、密钥管理、信息认证等方面存在严重缺陷 ,无法满足安全需求。针对无线局域网信息传输系统设计存在的安全问题 ,提出一个无线局域网信息传输系统的安全设计方案。
展开更多
关键词
无线局域网
信息安全保障
信息传输系统
密码
数据加密
下载PDF
职称材料
面向ARMv8 64位多核处理器的QGEMM设计与实现
被引量:
3
13
作者
姜浩
杜琦
+4 位作者
郭敏
全哲
左克
王锋
杨灿群
《计算机学报》
EI
CSCD
北大核心
2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能...
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性.
展开更多
关键词
ARMv8
64位多核处理器
QGEMM
四精度
double—double数据格式
LONG
double数据格式
OpenBLAS
下载PDF
职称材料
基于GCC实现飞腾处理器向量处理单元的编译器后端
被引量:
3
14
作者
李春江
杜云飞
+2 位作者
倪晓强
王永文
杨灿群
《计算机科学》
CSCD
北大核心
2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌...
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。
展开更多
关键词
飞腾处理器
向量处理单元
GCC
编译器后端
下载PDF
职称材料
飞腾1500A处理器性能分析工具Likwid研究
被引量:
4
15
作者
彭林
方建滨
+3 位作者
杜琦
唐滔
黄春
杨灿群
《计算机工程与科学》
CSCD
北大核心
2018年第7期1147-1154,共8页
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500...
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。
展开更多
关键词
飞腾1500A处理器
性能分析工具
PMU
下载PDF
职称材料
TI DSP C语言编译器正确性测试
被引量:
2
16
作者
孙海燕
陈跃跃
+3 位作者
王峰
杨灿群
阳柳
王霁
《计算机科学》
CSCD
北大核心
2015年第S1期513-515 545,545,共4页
TI DSP广泛应用于工业控制任务中,其可执行代码的可靠性不仅依赖于程序本身的可靠性,而且也依赖于编译器的可靠性。选取在工业控制领域中应用广泛、具有代表性的DSP芯片TI C6701对其编译器进行正确性测试。测试结果表明,用户在不加限制...
TI DSP广泛应用于工业控制任务中,其可执行代码的可靠性不仅依赖于程序本身的可靠性,而且也依赖于编译器的可靠性。选取在工业控制领域中应用广泛、具有代表性的DSP芯片TI C6701对其编译器进行正确性测试。测试结果表明,用户在不加限制地使用TI C6701编译器时,可能会遇到编译器的正确性问题,进而影响整个应用系统的正确性。
展开更多
关键词
编译器测试
C89规范
DSP
C6701
下载PDF
职称材料
面向存储层次设计优化的GPU程序性能分析
被引量:
2
17
作者
唐滔
彭林
+1 位作者
黄春
杨灿群
《计算机科学》
CSCD
北大核心
2017年第12期1-10,共10页
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有...
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。
展开更多
关键词
异构系统
图形处理器
存储层次
性能分析
优化
下载PDF
职称材料
GCC中内嵌函数实现剖析
被引量:
2
18
作者
李春江
杜云飞
+1 位作者
易会战
杨灿群
《计算机科学》
CSCD
北大核心
2012年第B06期357-359,379,共4页
GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用...
GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用;之后结合实际工作,以使用向量扩展指令的内嵌函数实现为例,剖析了平台相关的内嵌函数的实现过程。本工作对深入理解GCC编译器中的内嵌函数实现机制,对基于GCC的研究和开发有较强的参考意义。
展开更多
关键词
GCC
内嵌函数
剖析
下载PDF
职称材料
基于运行时代码修改的动态性能监控关键技术研究
被引量:
1
19
作者
蒋杰
徐涵
+2 位作者
刘杰
杨灿群
胡庆丰
《计算机工程与科学》
CSCD
北大核心
2009年第A01期150-152,209,共4页
代码插桩是程序性能监控的重要环节。动态插桩通过对可执行程序代码的运行时修改支持动态性能监控,有助于降低性能分析工具的构建代价,提高工具易用性。本文首先阐述了Dyninst动态插桩系统的概念抽象与执行机理,然后结合大规模并行程序...
代码插桩是程序性能监控的重要环节。动态插桩通过对可执行程序代码的运行时修改支持动态性能监控,有助于降低性能分析工具的构建代价,提高工具易用性。本文首先阐述了Dyninst动态插桩系统的概念抽象与执行机理,然后结合大规模并行程序动态插桩的需要,对DPCL并行程序动态插桩基础设施以及基于MRNet的可扩展通信结构进行了深入分析。
展开更多
关键词
性能监控
运行时代码修改
动态插桩
Dyninst
DPCL
MRNet
下载PDF
职称材料
面向ARMv8 64位多核处理器QTRSM的实现
被引量:
1
20
作者
杜琦
姜浩
+2 位作者
李宽
彭林
杨灿群
《计算机工程与科学》
CSCD
北大核心
2017年第3期451-457,共7页
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加...
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。
展开更多
关键词
ARMv8
64位多核处理器
OpenBLAS
四精度
double-double数据格式
QTRSM
下载PDF
职称材料
题名
Java语言环境实现技术探讨
被引量:
2
1
作者
杨灿群
张晓军
沈志宇
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2001年第2期76-78,共3页
文摘
Kaffe是一个完整的遵从 Personal Java1 .1规范的 Java语言环境。本文阐述了 Kaffe的特点和整体实现构架 ,给出了以 Kaffe作为原型系统来实现 Java语言环境的关键技术 ,为在新的机器平台上创建
关键词
Java语言环境
类库
虚拟机
程序设计语言
Keywords
Java environment
Kaffe
class library
virtual machine
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
80位浮点运算的编译实现与优化
被引量:
1
2
作者
杨灿群
杨学军
易会战
李春江
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第1期154-158,共5页
基金
国家自然科学基金重点资助项目(60633050)
文摘
本文介绍了80位浮点运算的编译实现技术,在IA-64平台上针对一套科学计算测试程序进行了性能瓶颈分析。利用IA-64体系结构特点,改进和实现了用户定义函数的自动内联、高级循环变换、数据预取、80位浮点数学库函数内联扩展四种编译优化。测试结果表明,这些优化手段显著提高了80位浮点运算的串行性能和并行性能。
关键词
80位浮点运算
IA-64体系结构
GCC编译器
优化
Keywords
80-bit floating-point arithmetic
IA-64 architecture
GCC corapiler
optimization
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
用表驱动算法在GCC中优化实现指数函数
被引量:
1
3
作者
杨灿群
王锋
彭林
杨学军
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2007年第5期77-80,共4页
基金
国家863计划资助项目(2004AA1Z2210)
文摘
科学计算中的许多领域都需要快速而精确地计算超越函数,即exp、log、sin、tan等此类函数。本文采用表驱动算法,结合IA-64体系结构特点,在GCC中优化实现了指数函数(exp),提高了GCC编译器在IA-64系统上的浮点性能,为在IA-64和其它平台上高效实现所有超越函数打下了基础。
关键词
GCC
指数函数
表驱动算法
IA-64体系结构
Keywords
GCC, exponential function
table-driven algorithm
IA-64 architecture
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Cell处理器上的软件Cache研究
4
作者
杨灿群
王锋
杜云飞
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2011年第2期46-50,共5页
基金
国家863计划资助项目(2008AA01Z110)
文摘
为了提高Cell处理器对共享数据访问的性能,本文设计并实现了一个能够支持释放一致性存储模型的软件Cache。实验结果表明,该软件Cache能够大大缩短SPE对系统主存中共享数据的访问时间开销,提高Cell处理器上OpenMP程序的并行性能。
关键词
CELL
处理器
软件Cache
OPENMP
Keywords
cell processor;software cache
OpenMP
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
针对MPI全局操作的低功耗优化
5
作者
杨灿群
杨学军
董勇
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第2期141-144,149,共5页
基金
国家自然科学基金重点资助项目(60633050)
文摘
本文介绍了针对MPI全局操作的低功耗优化技术,主要包括MPI_Barrier、MPI_Reduce和MPI_Bcast。利用处理器的电压调节技术降低轻负载处理器的电压/频率,达到降低系统能量消耗的目的。在Intel Xeon处理器构建的Cluster系统上,对NPB3.2-MPI和MG3D程序进行了功耗测试。结果表明,对MPI全局操作进行功耗优化可获得明显的能量节约。
关键词
MPI全局操作
Cluster系统
低功耗
NPB3.2-MPI
Keywords
MPI collective operation
cluster
low power
NPB3. 2-MPI
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
扩展双精度浮点并行计算:MPI方法
6
作者
杨灿群
杨学军
易会战
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2010年第12期98-101,共4页
基金
国家自然科学基金重点资助项目(60633050)
文摘
双精度浮点并行计算将不能满足高性能计算领域对计算精度的要求,但是目前还没有高性能的超双精度并行计算的解决方法。基于并行编程语言MPI,本文提出了扩展双精度浮点的并行计算实现方法,并且使用精度敏感的圆周率计算BBP算法验证了该方法的正确性和性能。
关键词
扩展双精度
MPI
BBP算法
Keywords
double-extended precision
MPI
BBP algorithm
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种实用的自动代码划分算法
7
作者
杨灿群
李春江
王锋
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2010年第11期132-135,共4页
基金
国家863计划资助项目(2008AA01Z110)
文摘
在编译器中进行自动代码划分然后采用代码重叠技术,是内存容量较小的处理器发挥性能的关键技术之一。随着异构多核处理器的出现,这类处理器通常作为协处理器。本文提出了一种实用的自动代码划分算法,并面向Cell处理器在GNU工具链中进行了实现。该算法首先根据调用频率发现调用热点,然后采用简化的聚类方法进行热点指导的分区聚集,最后进行容量指导的分区合并。实验结果表明,算法复杂度较低并能取得很好的效果。
关键词
自动代码划分
GNU工具链
CELL处理器
Keywords
automatic code partitioning
GNU toolchain
Cell processor
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
GNUC语言中的嵌套函数
8
作者
杨灿群
赵克佳
机构
国防科大计算机研究所
出处
《计算机应用研究》
CSCD
1999年第3期94-97,共4页
文摘
许多程序设计语言,如:Pascal、Modula-2、Smlltalk-80和Ada都允许定义嵌套函数,嵌套函数便于模块化程序设计[1],它能保证只被某个函数使用的一些函数和变量局部于该函数。在标准C里,这种模块性只能出现在文件级:函数标识符的作用域通过加static说明来把它约束到文件级,由几个函数共享的变量标识符的作用域也必须包含在至少一个编译单元中,因为它必须声明为全局级变量。为了克服这个弱点,GNUC语言扩充了嵌套函数[2],GNUC编译系统采用“trampolines”的技术来实现嵌套函数、本文将介绍GNUC中嵌套函数的语法,结合MISPSR3000机器平台分析嵌套函数的编译实现技术,并从GNUC编译系统中把与处理嵌套函数相关的宏定义、源文件以及函数提取出来作简要分析。
关键词
嵌套函数
C语言
GNU
编译系统
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
TP312C [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于内存缓存的异步检查点容错技术
被引量:
8
9
作者
易会战
王锋
左克
杨灿群
杜云飞
马亚青
机构
国防科学技术大学计算机学院
北方车辆研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第6期1229-1239,共11页
基金
国家自然科学基金项目(60903059
61003087
+3 种基金
61170049
61120106005)
国家"八六三"高技术研究发展计划基金项目(2012AA01A309)
"核高基"国家科技重大专项基金项目(2009ZX01036-001-003-001)
文摘
高性能计算机系统规模越来越大,系统可靠性问题越来越严重.检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题.针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,提出了基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统.利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性.
关键词
内存缓存
异步
检查点
容错
JASMIN
Keywords
memory buffer
asynchronous
checkpoint
fault tolerance
JASMIN
分类号
TP302.8 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于模糊聚类分析的构件并行技术研究
被引量:
7
10
作者
杜静
敖富江
杨学军
杨灿群
机构
国防科技大学计算机学院
国防科技大学机电工程与自动化学院
出处
《计算机学报》
EI
CSCD
北大核心
2007年第11期1939-1946,共8页
基金
国家自然科学基金(60621003
60633050)资助.~~
文摘
提出了一种新的面向科学计算的构件技术——基于模糊聚类分析的构件并行技术,旨在提高构件间的并行度和数据局部性,避免通信瓶颈.该技术分为两个阶段:域划分和子构件组合.其中域划分利用了编译时的数据依赖分析技术.然后考虑访问步长的影响,利用不定方程,提出了区间重叠度的概念.基于此利用所设计的基于区间重叠度的模糊聚类算法实现子构件分类组合,并给出了算法的形式化描述.实验结果表明,通过该算法的编译时优化,构件程序能够获得良好的数据局部性、适中的粒度以及高度的并行性,算法具有很好的可扩展性.
关键词
通信瓶颈
并行度
数据局部性
区间重叠度
模糊聚类
Keywords
communication bottleneck
parallelism
data locality
interval overlap degree
fuzzy clustering
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
飞腾处理器与商用处理器性能比较
被引量:
12
11
作者
方建滨
杜琦
唐滔
陈顼颢
黄春
杨灿群
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2019年第1期1-8,共8页
基金
国家自然科学基金(61602501)
文摘
深入分析了飞腾处理器FT-1500A与商用处理器Intel XEON在性能上的差异。在微基准测试层面,评测了两个平台能够达到的最大可获得性能(浮点性能、访存延迟和访存带宽)。在应用层面,选取一个典型的海洋预报数值模拟软件,研究了如何将一个开源代码移植到飞腾处理器和商用处理器上,探讨了该软件在两个平台上的单核性能与多核性能,分析了性能差异的原因并提出了相应的优化建议。认为FT-1500A已经有良好的生态基础(操作系统、编译器和工具链),使得移植典型科学计算程序简单可行,虽然跟商用平台相比,飞腾处理器在性能上存在着差距,但考虑到其在功耗上的优势,飞腾处理器将是一个非常具有应用前景的平台。
关键词
飞腾处理器
微基准测试
性能比较
Keywords
Feiteng processor
micro benchmarking
performance comparison
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
无线局域网的信息安全保障
被引量:
8
12
作者
刘琦
何连跃
杨灿群
机构
国防科学技术大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2003年第4期92-95,共4页
文摘
目前大部分无线传输系统采用WEP机制解决无线局域网的安全问题 ,然而WEP在身份认证、加密算法、密钥管理、信息认证等方面存在严重缺陷 ,无法满足安全需求。针对无线局域网信息传输系统设计存在的安全问题 ,提出一个无线局域网信息传输系统的安全设计方案。
关键词
无线局域网
信息安全保障
信息传输系统
密码
数据加密
Keywords
WLAN
WEP
security
分类号
TN925.93 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
面向ARMv8 64位多核处理器的QGEMM设计与实现
被引量:
3
13
作者
姜浩
杜琦
郭敏
全哲
左克
王锋
杨灿群
机构
国防科学技术大学计算机学院
湖南大学信息科学与工程学院
国防科学技术大学并行与分布处理重点实验室
出处
《计算机学报》
EI
CSCD
北大核心
2017年第9期2018-2029,共12页
基金
国家"八六三"高技术研究发展计划项目基金(2012AA01A301)
国家自然(61402495
+3 种基金
61303189
61602166
61170049
61402496)资助~~
文摘
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性.
关键词
ARMv8
64位多核处理器
QGEMM
四精度
double—double数据格式
LONG
double数据格式
OpenBLAS
Keywords
ARMv8 64-bit multi-core processor
QGEMM
quadruple precision
double-double format
long double format
OpenBLAS
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于GCC实现飞腾处理器向量处理单元的编译器后端
被引量:
3
14
作者
李春江
杜云飞
倪晓强
王永文
杨灿群
机构
国防科学技术大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2013年第12期19-22,共4页
基金
国家自然科学基金项目:多核多线程处理器SIMD扩展的编程模型和编译优化关键技术研究(61170046)
国家863计划项目:面向国产飞腾处理器的并行程序综合优化技术与系统(2012AA010903)资助
文摘
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。
关键词
飞腾处理器
向量处理单元
GCC
编译器后端
Keywords
FT processor, Vector processing unit, GCC, Compiler backend
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
飞腾1500A处理器性能分析工具Likwid研究
被引量:
4
15
作者
彭林
方建滨
杜琦
唐滔
黄春
杨灿群
机构
国防科技大学计算机学院
国防科技大学并行与分布处理国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2018年第7期1147-1154,共8页
基金
国家重点研发计划(2017YFB0202004)
国家自然科学基金(61602501)
文摘
在飞腾1500A处理器平台对程序性能分析工具Likwid展开研究,主要研究了飞腾1500A处理器硬件拓扑信息的获取、性能监测单元PMU的访问以及性能分析工具的使用和数据分析。通过hwloc获取飞腾1500A处理器的硬件信息,给程序员提供关于飞腾1500A处理器的拓扑结构及相关概要信息;编写内核驱动模块使能飞腾1500A处理器的性能监控单元,指定事件类型,通过对应硬件计数器记录目标程序执行过程中事件发生的次数;结合简单代码和模板化的微基准测试程序,使用性能分析工具收集程序执行过程中相关数据,进行性能分析。
关键词
飞腾1500A处理器
性能分析工具
PMU
Keywords
FT-1500A processor
performance analysis tool
PMU
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
TI DSP C语言编译器正确性测试
被引量:
2
16
作者
孙海燕
陈跃跃
王峰
杨灿群
阳柳
王霁
机构
国防科学技术大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2015年第S1期513-515 545,545,共4页
文摘
TI DSP广泛应用于工业控制任务中,其可执行代码的可靠性不仅依赖于程序本身的可靠性,而且也依赖于编译器的可靠性。选取在工业控制领域中应用广泛、具有代表性的DSP芯片TI C6701对其编译器进行正确性测试。测试结果表明,用户在不加限制地使用TI C6701编译器时,可能会遇到编译器的正确性问题,进而影响整个应用系统的正确性。
关键词
编译器测试
C89规范
DSP
C6701
Keywords
Compiler test,C89standard,DSP,C6701
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向存储层次设计优化的GPU程序性能分析
被引量:
2
17
作者
唐滔
彭林
黄春
杨灿群
机构
国防科学技术大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2017年第12期1-10,共10页
基金
国家自然科学基金(61402488)
教育部博士点基金(20134307120035)资助
文摘
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。
关键词
异构系统
图形处理器
存储层次
性能分析
优化
Keywords
Heterogeneous system
GPU
Memory hierarchy
Performance analysis
Optirnization
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
GCC中内嵌函数实现剖析
被引量:
2
18
作者
李春江
杜云飞
易会战
杨灿群
机构
国防科学技术大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2012年第B06期357-359,379,共4页
基金
国家自然科学基金项目多核多线程处理器SIMD扩展的编程模型和编译优化关键技术研究(61170046)
国家自然科学基金项目(61170045)资助
文摘
GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用;之后结合实际工作,以使用向量扩展指令的内嵌函数实现为例,剖析了平台相关的内嵌函数的实现过程。本工作对深入理解GCC编译器中的内嵌函数实现机制,对基于GCC的研究和开发有较强的参考意义。
关键词
GCC
内嵌函数
剖析
Keywords
GCC; Builtin functions; Anatomy
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于运行时代码修改的动态性能监控关键技术研究
被引量:
1
19
作者
蒋杰
徐涵
刘杰
杨灿群
胡庆丰
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第A01期150-152,209,共4页
基金
国家自然科学基金资助项目(60603061
60673150)
+1 种基金
国家863计划资助项目(2008AA01Z110
2008AA01Z137)
文摘
代码插桩是程序性能监控的重要环节。动态插桩通过对可执行程序代码的运行时修改支持动态性能监控,有助于降低性能分析工具的构建代价,提高工具易用性。本文首先阐述了Dyninst动态插桩系统的概念抽象与执行机理,然后结合大规模并行程序动态插桩的需要,对DPCL并行程序动态插桩基础设施以及基于MRNet的可扩展通信结构进行了深入分析。
关键词
性能监控
运行时代码修改
动态插桩
Dyninst
DPCL
MRNet
Keywords
performance monitoring
runtime code patching
dynamic instrumentation
Dyninst
DPCL
MRNet
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向ARMv8 64位多核处理器QTRSM的实现
被引量:
1
20
作者
杜琦
姜浩
李宽
彭林
杨灿群
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2017年第3期451-457,共7页
基金
国家863计划(2012AA01A301)
国家自然科学基金(61402495
+3 种基金
61303189
61602166
61170049
61402496)
文摘
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。
关键词
ARMv8
64位多核处理器
OpenBLAS
四精度
double-double数据格式
QTRSM
Keywords
ARMv8 64-bit multi-core processor
OpenBLAS
quad-precision
double-double datatype
QTRSM
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Java语言环境实现技术探讨
杨灿群
张晓军
沈志宇
《计算机工程与科学》
CSCD
2001
2
下载PDF
职称材料
2
80位浮点运算的编译实现与优化
杨灿群
杨学军
易会战
李春江
《计算机工程与科学》
CSCD
北大核心
2009
1
下载PDF
职称材料
3
用表驱动算法在GCC中优化实现指数函数
杨灿群
王锋
彭林
杨学军
《计算机工程与科学》
CSCD
2007
1
下载PDF
职称材料
4
Cell处理器上的软件Cache研究
杨灿群
王锋
杜云飞
《计算机工程与科学》
CSCD
北大核心
2011
0
下载PDF
职称材料
5
针对MPI全局操作的低功耗优化
杨灿群
杨学军
董勇
《计算机工程与科学》
CSCD
北大核心
2009
0
下载PDF
职称材料
6
扩展双精度浮点并行计算:MPI方法
杨灿群
杨学军
易会战
《计算机工程与科学》
CSCD
北大核心
2010
0
下载PDF
职称材料
7
一种实用的自动代码划分算法
杨灿群
李春江
王锋
《计算机工程与科学》
CSCD
北大核心
2010
0
下载PDF
职称材料
8
GNUC语言中的嵌套函数
杨灿群
赵克佳
《计算机应用研究》
CSCD
1999
0
下载PDF
职称材料
9
基于内存缓存的异步检查点容错技术
易会战
王锋
左克
杨灿群
杜云飞
马亚青
《计算机研究与发展》
EI
CSCD
北大核心
2014
8
下载PDF
职称材料
10
基于模糊聚类分析的构件并行技术研究
杜静
敖富江
杨学军
杨灿群
《计算机学报》
EI
CSCD
北大核心
2007
7
下载PDF
职称材料
11
飞腾处理器与商用处理器性能比较
方建滨
杜琦
唐滔
陈顼颢
黄春
杨灿群
《计算机工程与科学》
CSCD
北大核心
2019
12
下载PDF
职称材料
12
无线局域网的信息安全保障
刘琦
何连跃
杨灿群
《计算机应用》
CSCD
北大核心
2003
8
下载PDF
职称材料
13
面向ARMv8 64位多核处理器的QGEMM设计与实现
姜浩
杜琦
郭敏
全哲
左克
王锋
杨灿群
《计算机学报》
EI
CSCD
北大核心
2017
3
下载PDF
职称材料
14
基于GCC实现飞腾处理器向量处理单元的编译器后端
李春江
杜云飞
倪晓强
王永文
杨灿群
《计算机科学》
CSCD
北大核心
2013
3
下载PDF
职称材料
15
飞腾1500A处理器性能分析工具Likwid研究
彭林
方建滨
杜琦
唐滔
黄春
杨灿群
《计算机工程与科学》
CSCD
北大核心
2018
4
下载PDF
职称材料
16
TI DSP C语言编译器正确性测试
孙海燕
陈跃跃
王峰
杨灿群
阳柳
王霁
《计算机科学》
CSCD
北大核心
2015
2
下载PDF
职称材料
17
面向存储层次设计优化的GPU程序性能分析
唐滔
彭林
黄春
杨灿群
《计算机科学》
CSCD
北大核心
2017
2
下载PDF
职称材料
18
GCC中内嵌函数实现剖析
李春江
杜云飞
易会战
杨灿群
《计算机科学》
CSCD
北大核心
2012
2
下载PDF
职称材料
19
基于运行时代码修改的动态性能监控关键技术研究
蒋杰
徐涵
刘杰
杨灿群
胡庆丰
《计算机工程与科学》
CSCD
北大核心
2009
1
下载PDF
职称材料
20
面向ARMv8 64位多核处理器QTRSM的实现
杜琦
姜浩
李宽
彭林
杨灿群
《计算机工程与科学》
CSCD
北大核心
2017
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部