期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
9
1
作者
龚鸣清
叶煌
+2 位作者
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指...
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
展开更多
关键词
ARMv8
单指令多数据流计算
基础线性代数子程序库
高性能计算
下载PDF
职称材料
黑盒测试技术在LBPACK研制中的应用
2
作者
毛剑琴
江海标
+1 位作者
杨锦燕
邱红专
《系统仿真学报》
CAS
CSCD
1992年第A00期31-35,共5页
本文论述了黑盒测试对控制系统CAD软件基础库的重要性,以LBPACK为对象进行了黑盒测试,并将其测试结果与LINPACK和MATLAB进行了比较。结果表明,本文所提出的黑盒测试技术是可行的,在保证软件的质量和评价其水平方面起到了重要的作用。
关键词
线性
代数
基础
库
黑盒测试
软件
下载PDF
职称材料
基于申威1621的通用矩阵向量乘法的性能分析与优化
3
作者
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一...
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
展开更多
关键词
申威1621
基础
线性
代数
子程序
函数
库
单指令多数据流
通用矩阵向量乘法
性能优化
下载PDF
职称材料
题名
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
9
1
作者
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
机构
中国科学院计算机网络信息中心
中国科学院大学
北京搜狗科技发展有限公司
出处
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
基金
国家重点研发计划项目(2016YFB0201100,2017YFB0202803)
国家自然科学基金资助项目(11871454,91630204,61531166003)
+1 种基金
中国科学院战略性先导科技专项(B类)(XDB22020102)
中国科学院信息化专项(XXH13506-204)~~
文摘
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
关键词
ARMv8
单指令多数据流计算
基础线性代数子程序库
高性能计算
Keywords
ARMv8
single instruction multiple data
basic linear algebra subprogram
high performance computation
分类号
TP332 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
黑盒测试技术在LBPACK研制中的应用
2
作者
毛剑琴
江海标
杨锦燕
邱红专
机构
北京航空航天大学宇航学院
出处
《系统仿真学报》
CAS
CSCD
1992年第A00期31-35,共5页
基金
国家自然科学基金资助项目
文摘
本文论述了黑盒测试对控制系统CAD软件基础库的重要性,以LBPACK为对象进行了黑盒测试,并将其测试结果与LINPACK和MATLAB进行了比较。结果表明,本文所提出的黑盒测试技术是可行的,在保证软件的质量和评价其水平方面起到了重要的作用。
关键词
线性
代数
基础
库
黑盒测试
软件
Keywords
CSCAD Linear algebra package LBPHACK Black box testing
分类号
TP317 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于申威1621的通用矩阵向量乘法的性能分析与优化
3
作者
邓洁
赵荣彩
王磊
机构
中原工学院前沿信息技术研究院
出处
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
文摘
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
关键词
申威1621
基础
线性
代数
子程序
函数
库
单指令多数据流
通用矩阵向量乘法
性能优化
Keywords
Sunway1621
Basic Linear Algebra Subprograms(BLAS)library
Single Instruction Multiple Data(SIMD)
General Matrix Vector(GEMV)multiplication
performance optimization
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019
9
下载PDF
职称材料
2
黑盒测试技术在LBPACK研制中的应用
毛剑琴
江海标
杨锦燕
邱红专
《系统仿真学报》
CAS
CSCD
1992
0
下载PDF
职称材料
3
基于申威1621的通用矩阵向量乘法的性能分析与优化
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部