期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:1
1
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
下载PDF
基于申威SIMD指令的H.264编码优化 被引量:1
2
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
下载PDF
申威同时多线程功能模拟器实现与应用 被引量:2
3
作者 陈伟健 郭勇 尹飞 《计算机工程》 CAS CSCD 北大核心 2016年第6期55-59,67,共6页
同时多线程(SMT)技术允许来自多个线程的不相关指令同时执行,实现线程级并行与指令级并行相结合,提升处理器的性能。在SMT设计中,运用体系结构模拟器进行实现性分析与正确性验证。以申威多核功能模拟器为基础,提出申威SMT功能模拟器设... 同时多线程(SMT)技术允许来自多个线程的不相关指令同时执行,实现线程级并行与指令级并行相结合,提升处理器的性能。在SMT设计中,运用体系结构模拟器进行实现性分析与正确性验证。以申威多核功能模拟器为基础,提出申威SMT功能模拟器设计方法,并实现申威SMT功能模拟器。模拟结果表明了申威SMT功能模拟器设计实现的正确性,并基于申威SMT功能模拟器构建RTL级实时验证平台,在处理器设计验证领域具有较高的应用价值。 展开更多
关键词 申威处理器 功能模拟器 体系结构模拟器 同时多线程 线程级并行
下载PDF
申威处理器上数据流运行时系统的设计与实现
4
作者 张鹏飞 陈俊仕 +3 位作者 郑重 沈沛祺 安虹 许乐 《计算机工程》 CAS CSCD 北大核心 2023年第12期46-54,共9页
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、... 我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。 展开更多
关键词 申威异构处理器 数据流运行时系统 Codelet程序执行模型 并行编程模型 众核加速
下载PDF
一种基于国产申威SW3231处理器的高速存储设备的设计 被引量:4
5
作者 郭兴 罗凯 刘彦飞 《电子质量》 2021年第12期52-57,共6页
随着基础传感器技术和信号分析技术的进步在军事高速数据采集领域如:雷达、卫星、无线电、光电、激光等高频物理信号研究方面,由于试验、监测及装备的需要,对于原始信号的长时间捕捉与存储需求也日益增强。该文研究一种基于国产申威SW3... 随着基础传感器技术和信号分析技术的进步在军事高速数据采集领域如:雷达、卫星、无线电、光电、激光等高频物理信号研究方面,由于试验、监测及装备的需要,对于原始信号的长时间捕捉与存储需求也日益增强。该文研究一种基于国产申威SW3231处理器的高速存储设备,可满足军用关键领域大数据卸载和记录,以及解决高速存储领域以欧美技术为主导,卡脖子的窘境。 展开更多
关键词 申威处理器 全国产化 PCI-E4.0 NVME
下载PDF
基于申威GCC编译器的间接预取算法
6
作者 余龙龙 韩林 《计算机系统应用》 2022年第8期203-211,共9页
对间接存储器的访问延迟往往会影响应用程序的执行性能,一种有效的解决方案是使用预取技术.国产申威平台中支持常规访问模式的软件预取和硬件预取机制,但是其GCC编译器中缺少为间接存储器访问模式自动插入预取的方法.为了解决这个问题,... 对间接存储器的访问延迟往往会影响应用程序的执行性能,一种有效的解决方案是使用预取技术.国产申威平台中支持常规访问模式的软件预取和硬件预取机制,但是其GCC编译器中缺少为间接存储器访问模式自动插入预取的方法.为了解决这个问题,基于申威GCC开发了一个完整间接预取优化遍,它利用深度优先搜索算法查找引用循环归纳变量的间接内存引用并为之生成合适的软件预取.在一组内存受限的基准测试中,自动预取遍对SW1621处理器的平均加速比达到1.16倍. 展开更多
关键词 存储器访问 申威处理器 GCC 软件预取 不规则访存
下载PDF
一款高可靠嵌入式处理器芯片的设计 被引量:1
7
作者 朱英 田增 +3 位作者 陈叶 蒋毅飞 李彦哲 刘晓强 《计算机工程与科学》 CSCD 北大核心 2023年第3期390-397,共8页
基于申威自主指令系统设计开发了一款高可靠性、高性能嵌入式处理器芯片。该处理器采用SoC技术和AMBA总线架构,片上集成自主研发的申威第3代64位高性能处理器核心Core3,以及PCIe2.0、USB2.0等多种标准I/O接口,基于国内成熟工艺开发,片... 基于申威自主指令系统设计开发了一款高可靠性、高性能嵌入式处理器芯片。该处理器采用SoC技术和AMBA总线架构,片上集成自主研发的申威第3代64位高性能处理器核心Core3,以及PCIe2.0、USB2.0等多种标准I/O接口,基于国内成熟工艺开发,片上集成2.5亿晶体管,在-55℃~125℃宽温下的核心工作频率达到800 MHz,双精度浮点峰值性能为3.2 GFlops,全片峰值功耗小于3.2 W。详细介绍了该处理器为了实现高可靠性、低功耗和高性能等设计目标,在芯片结构设计、可靠性设计、低功耗设计和物理实现方面所采取的技术方法和手段,并给出了芯片频率、功耗和成品率等主要技术指标的测试结果。该处理器已在多个信息设备领域得到了应用,并取得了较好的社会效益。 展开更多
关键词 片上系统 嵌入式处理器 低功耗设计 AMBA总线 申威
下载PDF
基于申威架构的Redis适配安装及性能验证
8
作者 王丰 鲍正刚 《智能计算机与应用》 2023年第8期155-157,共3页
Redis作为内存数据缓存技术,当前已应用至各大网络服务中。申威处理器作为国产通用高性能处理器,具有高性能、低功耗且完全自主可控,在民用市场使用中生态存在缺失,同时生态应用完善不足。本文以Redis-5.0.3为例主要介绍Redis基于申威SW... Redis作为内存数据缓存技术,当前已应用至各大网络服务中。申威处理器作为国产通用高性能处理器,具有高性能、低功耗且完全自主可控,在民用市场使用中生态存在缺失,同时生态应用完善不足。本文以Redis-5.0.3为例主要介绍Redis基于申威SW3231处理器下的编译安装应用及Redis服务在申威处理器下的性能验证。 展开更多
关键词 申威架构 REDIS 编译安装 存删性能
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部