期刊文献+
共找到597篇文章
< 1 2 30 >
每页显示 20 50 100
长向量处理器高效RNN推理方法 被引量:1
1
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 长向量处理器 循环神经网络 并行优化
下载PDF
多核处理器公平共享并行总线的方法
2
作者 邵龙 《现代电子技术》 北大核心 2024年第3期25-28,共4页
针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每... 针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每核分配一个总线操作缓冲队列保障了同一核的总线操作先到先服务,而且通过单个读写操作周期的公平队列算法保障了每核总线操作的实时性。工程实践表明,该方法是一种多核处理器公平共享并行总线的有效方法。 展开更多
关键词 综合化电子系统 多核处理器 共享并行总线 冲突 公平队列算法 缓冲队列
下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化
3
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
下载PDF
面向FT-M7002平台拉普拉斯算法的优化实现
4
作者 郭子涵 范明亮 +1 位作者 李靖 商建东 《计算机应用与软件》 北大核心 2024年第10期276-281,361,共7页
为了充分发挥国产FT高性能处理器的平台优势,针对其对拉普拉斯算法进行并行优化,在数据迁移的基础上使用DMA数据传输机制解决数组矩阵转置、数据访问不连续以及数据传输存在时间间隙的问题,提高了程序性能,充分发掘了程序的数据级和指... 为了充分发挥国产FT高性能处理器的平台优势,针对其对拉普拉斯算法进行并行优化,在数据迁移的基础上使用DMA数据传输机制解决数组矩阵转置、数据访问不连续以及数据传输存在时间间隙的问题,提高了程序性能,充分发掘了程序的数据级和指令级并行性。实验结果表明,优化后的向量化并行算法较优化前,获得了2.02~2.55倍的加速效果。相较于TMS320C6678处理器,FT优化之后的算法可达到其1.48~2.56倍的效果。 展开更多
关键词 高性能处理器 拉普拉斯算法 并行优化 DMA数据传输
下载PDF
基于申威SIMD指令的H.264编码优化 被引量:1
5
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
下载PDF
基于领域分析的结构线性静力软件串并行一致化方法
6
作者 唐德泓 杨浩 +1 位作者 文龙飞 徐正秋 《计算机科学》 CSCD 北大核心 2024年第9期87-95,共9页
并行CAE软件的计算结果串并行一致性是其计算结果可信的必要条件。然而,软件研发时常引入串并行不一致缺陷,其形式众多,现象相互耦合,散布于海量代码中,成为实现CAE软件串并行一致性的挑战。文中以结构线性静力软件的串并行一致性需求... 并行CAE软件的计算结果串并行一致性是其计算结果可信的必要条件。然而,软件研发时常引入串并行不一致缺陷,其形式众多,现象相互耦合,散布于海量代码中,成为实现CAE软件串并行一致性的挑战。文中以结构线性静力软件的串并行一致性需求为切入点,针对现有的“专家知识法”与“缺陷定位法”应用于CAE软件串并行一致化时存在的粒度粗、准度差、成本高和缺乏系统性问题,引入领域分析方法,并与专家知识和数据流状态比对结合,提出了一种适用于结构线性静力的串并行一致化方法,实现了结构线性静力软件串并行不一致缺陷的细粒度、高准度与低成本系统性识别与修复。基于前述方法形成相关工具,并将方法与工具应用于SSTA的串并行一致化,识别并修复其中8处串并行不一致缺陷,使其通过90余真实模型的串并行一致考核,并实现串并行结果严格一致;同时,该方法与工具还将串并行不一致缺陷定位耗时由平均大于两人天降低至数人时。 展开更多
关键词 串并行一致化 结构线性静力软件 串行代码并行化 领域分析 缺陷定位
下载PDF
申威众核处理器访存与通信融合编译优化
7
作者 方燕飞 李雁冰 +2 位作者 董恩铭 王云飞 刘齐 《软件学报》 EI CSCD 北大核心 2024年第6期2648-2667,共20页
申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻... 申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻用户编程优化负担,提出一种多级存储层次访存与通信融合的编译优化方法.该方法首先设计融合编译指示,将程序高层信息传递给编译器.其次构建编译优化收益模型并设计启发式循环优化方案迭代求解框架,并由编译器完成循环优化方案的求解和优化代码的变换.通过编译生成的DMA和RMA批量数据传输操作,将较低存储层次空间中高访问延迟的核心数据批量缓冲进低访问延迟的更高存储层次空间中.在3个典型测试用例上进行优化实验测试与分析,结果表明所提出的优化在性能上与手工优化相当,较未优化版程序性能有显著提升. 展开更多
关键词 申威众核处理器 多级存储层次 RMA通信 并行语言 编译优化
下载PDF
基于DSP模式的计算机图像处理算法研究
8
作者 刘蓓蕾 《长江信息通信》 2024年第9期65-67,共3页
基于DSP架构模式,提出了一种CNN卷积神经网络算法,并将其运用到计算机图像处理中。研究过程中,采用DSP技术进行计算机图像获取、算法处理、算例分析和结果优化,大大提高了计算机图像算法处理质量和效率。经过算法测试验证,结果表明,基于... 基于DSP架构模式,提出了一种CNN卷积神经网络算法,并将其运用到计算机图像处理中。研究过程中,采用DSP技术进行计算机图像获取、算法处理、算例分析和结果优化,大大提高了计算机图像算法处理质量和效率。经过算法测试验证,结果表明,基于DSP数字信号处理器搭建多DSP并行处理架构模式,采用CNN卷积神经网络算法进行计算机图像处理,能够提高图像处理精度。该算法运行时的性能较高,功能低,CPU占用率不高,且DSP计算机处理系统在多DSP并行处理架构模式下进行算法分析,系统的稳健性和可靠性高,能够适应不同规模级别下的计算机图像处理数据集的处理速度、精度、资源消耗和功率要求,可为计算机图像算法处理提供准确、高效、经济的解决方案,对于计算机图像处理算法设计和优化以及应用具有较好的实用参考价值。 展开更多
关键词 DSP数字信号处理器 多DSP并行处理架构模式 CNN卷积神经网络算法 计算机图像处理方法 算法验证
下载PDF
A distributed cross-domain register filefor reconfigurable cryptographic processor 被引量:1
9
作者 Zhang Baoning Ge Wei Wang Zhen 《Journal of Southeast University(English Edition)》 EI CAS 2017年第3期260-265,共6页
Due to the fact that the register files seriously affect the performance and area of coarse-grained reconfigurable cryptographic processors, an efficient structure of the distributed cross-domain register file is prop... Due to the fact that the register files seriously affect the performance and area of coarse-grained reconfigurable cryptographic processors, an efficient structure of the distributed cross-domain register file is proposed to realize a cryptographic processor with a high performance and a lowarea cost. In order to meet the demands of high performance and high flexibility at a lowarea cost, a union structure with the multi-ports access structure, i, e., a distributed crossdomain register file, is designed by analyzing the algorithm features of different ciphers. Considering different algorithm requirements of the global register files and local register files,the circuit design is realized by adopting different design parameters under TSMC( Taiwan Semiconductor Manufacturing Company) 40 nm CMOS( complementary metal oxide semiconductor) technology and compared with other similar works. The experimental results showthat the proposed distributed cross-domain register structure can effectively improve the performance of the unit area, of which the total performance of block per cycle is improved by17. 79% and performance of block per cycle per area is improved by 117%. 展开更多
关键词 RECONFIGURABLE processor BLOCK CIPHER parallelimplementation REGISTER FILE
下载PDF
高性能计算技术及标准现状分析 被引量:1
10
作者 陆平静 熊泽宇 赖明澈 《计算机科学》 CSCD 北大核心 2023年第11期1-7,共7页
高性能计算是科技创新体系的重要组成,是知识创新和技术创新的重要能力支撑,是新时期下与理论、实验并重的三大科技创新手段之一。在过去的三十年间,高性能计算取得了以突飞猛进的进展,高性能计算已经进入E级计算时代,我国在高性能计算... 高性能计算是科技创新体系的重要组成,是知识创新和技术创新的重要能力支撑,是新时期下与理论、实验并重的三大科技创新手段之一。在过去的三十年间,高性能计算取得了以突飞猛进的进展,高性能计算已经进入E级计算时代,我国在高性能计算领域也取得了跨越式的发展,取得了天河、神威、曙光为代表的一系列成果,高性能系统研制水平跻身国际一流行列。随着摩尔定律接近极限,高性能计算技术的性能提升之路面临巨大挑战,在后摩尔时代,将依赖算法、软件和硬件架构去提升高性能计算机系统的终极性能。另一方面,与高性能计算机技术飞速发展相比,高性能计算标准的发展还存在很多不足。文中首先分析了当前国内外高性能计算机技术的发展现状及趋势,然后剖析了当前国内外高性能计算标准的现状及趋势,最后给出了当前发展中国高性能计算机标准的必要性和重要性。 展开更多
关键词 高性能计算 E级计算 计算机体系结构 标准 集群 大规模并行处理机 后摩尔时代
下载PDF
The Model of Asynchronous Parallel Nonlinear Multisplitting Method on Shared Memory System
11
作者 Yang Cao Qingyang Li(Dept. of Applied Mathematics, Tsinghua Universitg Beijing 100084, P.R. of China) 《Wuhan University Journal of Natural Sciences》 CAS 1996年第Z1期483-489,共7页
Nonlinear multisplitting method is known as parallel iterative methods for solving a large-scale system of nonlinear equations F(x) = 0. We extend the idea of nonlinear multisplitting and consider a new model ill whic... Nonlinear multisplitting method is known as parallel iterative methods for solving a large-scale system of nonlinear equations F(x) = 0. We extend the idea of nonlinear multisplitting and consider a new model ill which the iteration is executed asynchronously: Each processor calculate the solution of an individual nonlinear system belong to its nonlinear multisplitting and can update the global approximation residing in the shared memory at any time. A local convergence analysis of this model is presented. Finally, we give a uumerical example which shows a 'strange' property that speedup Sp > p and efficiency Ep > 1. 展开更多
关键词 Asynchronous parallel Nonlinear Multisplitting Method Shared Memory processors Efficiency. Speedup.
下载PDF
基于仿真的双目标并行机开放车间自适应动态调度
12
作者 陈亚绒 管舒晨 +2 位作者 黄成军 朱立夏 周富得 《系统仿真学报》 CAS CSCD 北大核心 2023年第1期69-81,共13页
针对工件到达时间与加工时间不确定,且存在紧急工件的并行机开放车间调度问题,以TWC(total weighted completion time)与TWT(total weighted tardiness)为优化目标,设计了一种集成FlexSim仿真模型与NSGA-Ⅱ算法的自适应动态调度方法。... 针对工件到达时间与加工时间不确定,且存在紧急工件的并行机开放车间调度问题,以TWC(total weighted completion time)与TWT(total weighted tardiness)为优化目标,设计了一种集成FlexSim仿真模型与NSGA-Ⅱ算法的自适应动态调度方法。该方法以FlexSim模型仿真工件的生成和加工为基础,根据车间实时负荷确定动态调度周期,对紧急工件进行右移重调度,利用NSGA-Ⅱ算法生成双目标优化的调度方案。某晶粒拣选车间生产数据的实验结果表明,相较于利用规则的实时动态调度与固定周期重调度,提出的方法能够在最小化调度偏离度的同时获得满意解。 展开更多
关键词 并行机开放车间 NSGA-Ⅱ算法 动态调度 工件随机到达 仿真模型
下载PDF
嵌入式异构智能计算系统并行多流水线设计
13
作者 赵二虎 吴济文 +2 位作者 肖思莹 晋振杰 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3354-3364,共11页
嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+D... 嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+DLP+SRIO嵌入式异构智能计算架构,利用智能处理器多片多核多内存通道特性,提出了并行多流水线设计方法.该方法充分考虑智能计算业务中数据传输、拷贝、推理、结果反馈等环节时间开销,为不同的神经网络模型合理分配智能算力资源,以达到最大的端到端智能计算业务吞吐率.实验结果表明,采用并行多流水线设计方法的深度学习处理器利用率较单流水线平均提高约25.2%,较无流水线平均提高约30.7%,满足可见光、红外、SAR等多模图像实时智能处理需求,具有实际应用价值. 展开更多
关键词 嵌入式智能计算系统 异构计算架构 神经网络模型 并行多流水线 深度学习处理器
下载PDF
多核数字信号处理器并行矩阵转置算法优化 被引量:3
14
作者 裴向东 王庆林 +4 位作者 廖林玉 李荣春 梅松竹 刘杰 庞征斌 《国防科技大学学报》 EI CAS CSCD 北大核心 2023年第1期57-66,共10页
矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强... 矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。 展开更多
关键词 多核DSP 矩阵转置 并行算法 算法优化
下载PDF
结合逆向强化学习与强化学习的晶圆批处理设备调度方法 被引量:1
15
作者 王卓君 张朋 张洁 《计算机集成制造系统》 EI CSCD 北大核心 2023年第11期3738-3749,共12页
针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批... 针对晶圆批处理设备调度问题,以最小化生产周期为优化目标,考虑晶圆动态到达、重入加工与不兼容性约束等特点,提出了结合逆向强化学习与强化学习(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圆批处理设备调度优化方法。根据批处理设备的加工特性,将问题分解为组批和批次指派两个子问题;由于子问题内部复杂的关联特性使晶圆批处理设备调度内部机理不明,且全局奖励函数设计困难,引入逆向强化学习指导奖励函数的设计;针对晶圆lot的重入加工特性,设计期望流动时间与剩余等待时间关键状态变量;批次指派智能体兼顾考虑任务的紧急程度与工艺类型切换带来的差异生产准备时间进行综合决策,满足批处理设备工艺类型的不兼容性约束;通过设计奖励函数关键参数的非线性特征,解释晶圆lot剩余加工层数与期望流动时间之间的复杂流变关系。24组标准算例的实验数据表明,IRL-RL算法的优化结果与计算效率优于一般强化学习算法和较优规则等方法;经企业实例数据验证,晶圆的生产周期缩短了15%。 展开更多
关键词 晶圆批处理调度 并行批处理机 动态调度 逆向强化学习 强化学习 生产周期 重入加工
下载PDF
面向国产高性能众核处理器的编程模型
16
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 SW26010 消息队列模型
下载PDF
面向神威众核超算系统的并行计算模型研究 被引量:3
17
作者 高剑刚 刘鑫 +4 位作者 李芳 刘勇 彭达佳 陈鑫 陈德训 《计算机学报》 EI CAS CSCD 北大核心 2023年第7期1339-1349,共11页
基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之... 基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之光”和神威E级原型系统的众核体系结构特点,提出P-PALN(Parallel-Parallel Access via LDM&NOC)并行计算模型,对于计算节点间的并行,该模型沿用BSP/LogP模型描述;对于计算节点内的众核并行,该模型提供私有存储访问和片上阵列通信的众核并行架构的有效描述PALN,能够协助用户进行众核并行算法设计,并在申威众核处理器硬件设计中指导参数的优化.实验结果表明,该模型可有效指导硬件设计和用户众核编程,从而提高系统和应用的性能. 展开更多
关键词 众核处理器 并行计算模型 P-PALN PALN 片上通信
下载PDF
面向申威架构的KNN并行算法实现与优化 被引量:5
18
作者 王其涵 庞建民 +3 位作者 岳峰 祝迪 沈莉 肖谦 《计算机工程》 CAS CSCD 北大核心 2023年第5期286-294,共9页
K近邻(KNN)是人工智能中最常用的分类算法,其性能提升对于海量数据的整理分析、大数据分类等任务具有重要意义。目前新一代神威超级计算机正处于应用发展的初始阶段,结合新一代申威异构众核处理器的结构特性,充分利用庞大的计算资源实... K近邻(KNN)是人工智能中最常用的分类算法,其性能提升对于海量数据的整理分析、大数据分类等任务具有重要意义。目前新一代神威超级计算机正处于应用发展的初始阶段,结合新一代申威异构众核处理器的结构特性,充分利用庞大的计算资源实现高效的KNN算法是海量数据分析整理的现实需求。根据SW26010pro处理器的结构特性,采用主从加速编程模型实现一种基础版本的KNN并行算法,其将计算核心传输到从核上,实现了线程级并行。分析影响基础并行算法性能的关键因素并提出优化算法SWKNN,不同于基础并行KNN算法的任务划分方式,SWKNN采用任务重划分策略,以避免冗余计算开销。通过数据流水优化、从核间通信优化、二次负载均衡优化等步骤减少不必要的通信开销,从而有效缓解访存压力并进一步提升算法性能。实验结果表明,与串行KNN算法相比,面向申威架构的基础并行KNN算法在SW26010pro处理器的单核组上可以获得最高48倍的加速效果,在同等数据规模下,SWKNN算法较基础并行KNN算法又可以获得最高399倍的加速效果。 展开更多
关键词 异构众核处理器 K近邻算法 并行计算 算法优化 分类性能
下载PDF
基于SW26010处理器的PANDAS众核并行优化方法及在地质变形分析中的应用
19
作者 王雪纯 邢会林 +2 位作者 戴黎明 郭志伟 刘骏标 《山东科技大学学报(自然科学版)》 CAS 北大核心 2023年第6期11-18,共8页
有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理... 有限元数值模拟是目前研究地质体变形分析的重要方法,方程组求解对模拟结果的时效性和精确度有重要影响。针对并行自适应非线性变形分析软件(PANDAS)模拟千万级大规模模型时方程组求解耗时长和收敛速度慢的问题,本研究基于SW26010处理器主从核异构架构和并行计算技术实现PANDAS众核并行优化。首先,通过区域分解实现大规模地质模型分解,降低单主核计算的数据量,然后利用矩阵压缩存储技术有效节省存储资源。最后,利用SW26010处理器的从核阵列优化迭代求解算法加速方程组求解过程。全地球模型的速度场模拟结果表明本研究提出的方法具有可行性,多孔介质模型压缩模拟的速度较CPU单核串行程序提升8.1倍,断层系统变形模拟的速度提升7.6倍。 展开更多
关键词 SW26010处理器 PANDAS 并行计算 变形分析 数值模拟
下载PDF
基于视频阵列处理器的3D-HEVC视差估计算法并行设计与实现 被引量:1
20
作者 蒋林 冯茹 《计算机应用与软件》 北大核心 2023年第7期260-265,281,共7页
三维高效视频编码(3D High Efficiency Video Coding,3D-HEVC)中视差估计算法存在处理数据量大、运算时间长和资源消耗大的问题,进一步提高算法执行效率对于3D-HEVC的推广应用具有十分重要的意义。在深入分析视差估计算法的并行性的基础... 三维高效视频编码(3D High Efficiency Video Coding,3D-HEVC)中视差估计算法存在处理数据量大、运算时间长和资源消耗大的问题,进一步提高算法执行效率对于3D-HEVC的推广应用具有十分重要的意义。在深入分析视差估计算法的并行性的基础上,基于项目组开发的视频阵列处理器(DPR-CODEC),提出一种新的并行实现方案。在可重构阵列结构中完成了视差估计算法的并行映射、功能仿真和FPGA测试,显著减少了视差估计算法的执行时间。实验结果表明,所提出的并行实现方案相比于串行单PE执行时间节省了59%,基于可编程可重构阵列的并行实现在具有较高的执行效率的同时也具有较好的灵活性。 展开更多
关键词 三维高效率视频编码 并行性 视差矢量 阵列处理器
下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部