期刊文献+
共找到382篇文章
< 1 2 20 >
每页显示 20 50 100
一种基于指令MKS的自动向量化代价模型
1
作者 王震 聂凯 韩林 《计算机科学》 CSCD 北大核心 2024年第4期78-85,共8页
自动向量化代价模型是编译器进行自动向量化优化时的重要组成部分,其作用是评估代码在应用向量化转换后能否获得性能提升。当代价模型不准确时,编译器会应用负收益的向量化转换,从而降低程序的执行效率。针对GCC编译器默认代价模型的不... 自动向量化代价模型是编译器进行自动向量化优化时的重要组成部分,其作用是评估代码在应用向量化转换后能否获得性能提升。当代价模型不准确时,编译器会应用负收益的向量化转换,从而降低程序的执行效率。针对GCC编译器默认代价模型的不精确问题,以Intel Xeon Silver 4214R CPU为平台,提出了一种基于指令MKS的自动向量化代价模型。该模型充分考虑了指令的机器模式、运算类型以及运算强度等,并使用梯度下降算法自动搜索不同指令类型的近似代价。在SPEC2006以及SPEC2017上进行了单线程测试,实验结果表明,该模型能够减少收益评估错误的情况。与默认代价模型生成的向量程序相比,GCC编译器添加MKS代价模型后,在SPEC2006课题上最高获得了4.72%的提速,在SPEC2017课题上最高获得了7.08%的提速。 展开更多
关键词 GCC编译器 自动向量化 代价模型 收益评估 梯度下降
下载PDF
球面质心泰森多边形网格海浪预报的向量化检验方法
2
作者 谢明炎 魏立新 +1 位作者 高元勇 高志一 《海洋预报》 CSCD 北大核心 2024年第2期34-43,共10页
提出一种适于并行计算设备的向量化检验方法。采用特征半径近似判别法选取搜索域内观测点平均值作为实测值,基于广播、索引等向量化方法及海浪平稳性条件实现模式和观测资料时间和空间的匹配,并将待检区域等分为若干块分别计算以免内存... 提出一种适于并行计算设备的向量化检验方法。采用特征半径近似判别法选取搜索域内观测点平均值作为实测值,基于广播、索引等向量化方法及海浪平稳性条件实现模式和观测资料时间和空间的匹配,并将待检区域等分为若干块分别计算以免内存溢出。本算法可在中央处理器(CPU)和图形处理器(GPU)上运行,也适用于其它类型的模式网格。为评估算法实际效果,以有限体积海浪模式产生的球面质心泰森多边形网格预报产品和卫星沿轨道遥感产品分别作为待检和参考数据,结果表明CPU和GPU的计算结果一致;GPU的计算效率较CPU提高30倍;区块大小对效率提升有一定影响,需根据实际算例调试优化。 展开更多
关键词 精度检验 GPU加速 向量化 高性能检验
下载PDF
面向DCU的LDS访存向量化优化 被引量:2
3
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
基于SIMD的VSIPL三角函数向量化技术研究
4
作者 闫妍 李典 +1 位作者 李康 周磊 《航空计算技术》 2024年第5期105-109,共5页
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上... 为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上对VSIPL向量三角函数接口进行性能测试。测试结果显示该方法相比循环遍历的方式具有2倍以上的加速效果,表明方法能够显著提高三角函数的计算效率,在高性能、可移植嵌入式信号处理软件领域具有一定的工程价值。 展开更多
关键词 嵌入式信号处理 向量化技术 向量三角函数 单指令多数据 向量、信号与图像处理函数库
下载PDF
基于OpenMP的硅晶体分子动力学模拟的空间分解着色及向量化研究
5
作者 傅游 韩昊 +3 位作者 孙月娇 梁建国 叶雨曦 花嵘 《计算机工程与科学》 CSCD 北大核心 2024年第9期1566-1575,共10页
作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上... 作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上问题,在OpenMP共享内存编程模型的基础上,结合硅晶体粒子特性实施了一系列面向硅晶体分子动力学应用的优化方法,以提高模拟效率:(1)在大规模线程级并行模拟过程中,利用空间分解图着色思想消除粒子之间的数据依赖,从而有效解决写冲突问题;(2)针对核心计算程序段,采用整体向量化的方式提高核心计算效率,并利用级数估计实现超越函数,以实现Tersoff多体势在多核处理器上的并行优化。实验结果表明,在X86平台上Tersoff多体势具有很好的优化潜力,空间分解图着色和向量化方法在硅晶体应用上具有可行性和可扩展性,能够有效地解决由数据交叉导致的写冲突以及计算密集型优化问题,最终加速比可达23.17。 展开更多
关键词 硅晶体 分子动力学模拟 空间分解着色 向量化 OPENMP
下载PDF
文本深度学习向量化在操作票审核中的研究
6
作者 段宇 孙载董 陈铁山 《电力系统装备》 2024年第3期11-13,38,共4页
传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力... 传统的电力系统操作票审核采用人工审核,审核效率低。随着深度学习技术的发展,自然语言处理技术能够高效、高质地处理文本和问题。应用文本深度学习向量化可解决传统操作票人工审核过程中存在的问题。文章针对文本深度学习向量化在电力系统操作票审核中的应用进行研究,以期提高审核效率。 展开更多
关键词 文本向量化 操作票 审核
下载PDF
利用SIMD向量化的数据流软错误检测算法 被引量:1
7
作者 张磊 彭飞 +1 位作者 曹子宁 庄毅 《小型微型计算机系统》 CSCD 北大核心 2023年第5期1114-1120,共7页
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算... 由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率. 展开更多
关键词 SIMD 向量化 数据流 错误检测 故障注入
下载PDF
基于向量化的BESO方法灵敏度过滤快速算法 被引量:3
8
作者 包世鹏 宋旭明 唐冕 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第5期1810-1820,共11页
在使用双向渐进式拓扑优化算法(BESO)时,优化结果中常会出现棋盘格和网格依赖的现象。单元灵敏度过滤器是解决此类问题的有效方法,但随着结构规模扩大单元数量增多,计算单元权重因子耗时将十分可观,其原因是计算单元的权重因子数据需进... 在使用双向渐进式拓扑优化算法(BESO)时,优化结果中常会出现棋盘格和网格依赖的现象。单元灵敏度过滤器是解决此类问题的有效方法,但随着结构规模扩大单元数量增多,计算单元权重因子耗时将十分可观,其原因是计算单元的权重因子数据需进行多次循环嵌套,逐一计算单元中心距,串行算法使得计算效率低下。通过结合深度学习训练模型中将数据集进行向量化预处理的思想,对灵敏度过滤计算所需数据进行向量化预处理,并推导了基于向量化的单元灵敏度过滤算法,将逐一的标量运算改进为可并行的矩阵运算。对向量化算法中可能出现的储存空间占用过大的问题,使用稀疏矩阵对储存空间进行优化,提出进一步改进的Sparse算法。通过ABAQUS二次开发实现了改进后的BESO拓扑优化流程,分别使用二维和三维悬臂梁算例进行计算时长验证,结果表明向量化的灵敏度过滤算法的加速比相对于双循环算法最高可达6,Sparse算法的加速比可达8,改进后的算法极大提升了单元权重因子和灵敏度过滤的计算速度。在计算权重因子时,Sparse算法的耗时略高于向量化算法,但在优化总耗时方面,Sparse算法优于向量化算法;当结构规模大单元数过多时,向量化算法可能限于硬件的内存容量无法计算,而Sparse算法则能够正常计算。 展开更多
关键词 向量化 拓扑优化 灵敏度过滤 稀疏矩阵 加速比
下载PDF
基于多种同构化变换的SLP向量化方法
9
作者 冯竞舸 贺也平 +1 位作者 陶秋铭 马恒太 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2907-2927,共21页
超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进... 超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化.将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一.提出SLP的一种扩展方法──SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益.在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估.实验结果表明,SLPM方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%. 展开更多
关键词 SIMD扩展 自动向量化 超字级并行 非同构指令序列 同构化变换
下载PDF
结合向量化方法与掩码机制的术语干预翻译模型
10
作者 张金鹏 段湘煜 《计算机工程》 CAS CSCD 北大核心 2023年第11期70-76,84,共8页
术语干预神经机器翻译模型通常借助人为给定的术语翻译来改变译文,从而改善翻译质量。向量化干预方法为术语干预任务提供了新的范式,但仅考虑将术语与句子信息以向量的形式融合,没有关注术语信息对术语翻译效果的影响。为此,构建一种结... 术语干预神经机器翻译模型通常借助人为给定的术语翻译来改变译文,从而改善翻译质量。向量化干预方法为术语干预任务提供了新的范式,但仅考虑将术语与句子信息以向量的形式融合,没有关注术语信息对术语翻译效果的影响。为此,构建一种结合向量化方法与掩码机制的术语干预机器翻译模型,将人为给定的源端术语与目标端术语编码为特征向量,显式地融入机器翻译模型的编码器、解码器以及输出层。在训练阶段,借助掩码机制屏蔽注意力机制中源端术语对应的关键字,增强模型编码器与解码器对术语特征向量的关注。在推理阶段,利用掩码机制优化术语干预输出层的概率分布,进一步提高术语字符的翻译准确率。在WMT 2014德英和WMT 2021英中数据集上的实验结果表明,相较于基于原始向量化方法的Code-Switching机器翻译模型,所提模型的术语翻译准确率分别提升了9.27和2.95个百分点,并且能大幅度提升长术语的翻译准确率。 展开更多
关键词 机器翻译 术语干预 向量化 注意力机制 掩码机制
下载PDF
卫星通信载荷向量化建模方法
11
作者 黄文乾 刘彧千 +3 位作者 李晓 杨亚宁 赵光 李殷乔 《无线电通信技术》 2023年第5期897-904,共8页
随着运载、卫星平台、互联网星座和信息科技等不断进步,以及广域无线通信需求的不断增长,卫星的通信载荷正逐渐向大规模、多功能、复杂处理交换等方向发展,传统低效的人工设计方法已无法适应卫星数字化批产化发展趋势。提出了一种通信... 随着运载、卫星平台、互联网星座和信息科技等不断进步,以及广域无线通信需求的不断增长,卫星的通信载荷正逐渐向大规模、多功能、复杂处理交换等方向发展,传统低效的人工设计方法已无法适应卫星数字化批产化发展趋势。提出了一种通信载荷向量化建模方法,该方法基于前向传播思想对所有链路同时进行向量化运算,并对运算结果基于链路逻辑连接关系进行压缩,最终得到了包含所有可能的链路路径组合。该方法仅以多项式级别时间复杂度便得到了通信载荷链路理论上所有可能组合,同时基于链路逻辑连接关系的压缩进一步降低了模型运算复杂度。性能分析结果表明,所提方法相比传统方法可以极大提高通信载荷数学建模效率,在数字化研制各阶段具有重要应用价值。 展开更多
关键词 通信卫星 载荷 数学建模 向量化
下载PDF
基于K Framework的向量化机器学习指令语义形式化
12
作者 黄厚华 刘嘉祥 施晓牧 《软件学报》 EI CSCD 北大核心 2023年第8期3853-3869,共17页
ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟... ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟程序,片上应用程序开发的依据,是程序正确性基本保障.主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究.基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码,并将其转换为形式化语义转换规则.通过K Framework提供的可执行框架利用测试用例,验证机器学习指令算数运算执行的正确性. 展开更多
关键词 ARMv8.1-M架构 向量化指令 机器学习 K Framework 形式化语义
下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
13
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 SIMD 外层循环的向量化
下载PDF
SIMD自动向量化编译优化概述 被引量:30
14
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 SIMD扩展部件 自动向量化 数据级并行 编译优化
下载PDF
面向SLP的多重循环向量化 被引量:13
15
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 SIMD 向量化 依赖关系分析 多重循环 超字并行
下载PDF
典型编译器自动向量化效果评估与分析 被引量:6
16
作者 李春江 黄娟娟 +2 位作者 徐颖 杜云飞 陈娟 《计算机科学》 CSCD 北大核心 2013年第4期41-46,共6页
SIMD(Single-Instruction-Multiple-Data)体系结构在现代处理器体系结构中扮演重要的角色。多种国产高性能通用处理器也大都实现了SIMD结构。SIMD体系结构提供了短向量数据并行处理能力,编译器自动向量化是应用程序获得性能提升的主要... SIMD(Single-Instruction-Multiple-Data)体系结构在现代处理器体系结构中扮演重要的角色。多种国产高性能通用处理器也大都实现了SIMD结构。SIMD体系结构提供了短向量数据并行处理能力,编译器自动向量化是应用程序获得性能提升的主要手段之一。使用成熟的支持SIMD的商用处理器平台评估典型编译器自动向量化的效果,对于处理器体系结构的设计以及编译器的分析和设计非常有益。采用SPECCPU2006和SPECOMPM2001基准测试程序,评估了典型编译器(包括Intel编译器、PGI编译器和GCC编译器)的自动向量化的效果。并且以产品级的开源编译器GCC为目标,用手工编写的程序片段(主要是多种类型的循环结构)评估了当前GCC编译器自动向量化的效果,并深入分析了GCC编译器中现有的自动向量化的能力和局限。此项工作为进一步研发高效的编译器自动向量化提供了有价值的参考。 展开更多
关键词 自动向量化 典型编译器 GCC 评估与分析
下载PDF
面向向量化的局部数据重组 被引量:10
17
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1528-1534,共7页
目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法... 目前,利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段.然而,和多媒体程序相比,非多媒体程序存在大量的非连续和非对齐的数据引用方式,严重影响程序的向量化发掘和向量化性能.提出一种新的向量化方法—基于局部数据重组的向量化技术(.通过改变局部数据的布局,将循环中不连续的数据引用变为连续的数据引用,进而完成对循环的向量化;并对数据引用作对齐分析和对齐优化,从而提高程序的向量化性能.以SPEC CPU2000浮点测试集为例,该方法不仅可以向量化对于ICC编译器无法向量化的程序,而且对这些程序都有很好的性能提升,在当前的测试环境下某些程序性能最高可提高241.6%. 展开更多
关键词 向量化 数据重组 对齐分析 对齐优化 SIMD
下载PDF
支持任意系数长度和数据类型的FIR滤波器向量化方法 被引量:7
18
作者 刘仲 陈跃跃 陈海燕 《电子学报》 EI CAS CSCD 北大核心 2013年第2期346-351,共6页
向量处理器的向量化算法映射是难点问题.提出一种支持任意系数长度和数据类型的FIR滤波器向量化方法,将(Finite Impulse Response)滤波器的卷积计算划分为系数长度步向量乘法和加法计算,每一步的向量乘法和加法计算在各个向量处理单元... 向量处理器的向量化算法映射是难点问题.提出一种支持任意系数长度和数据类型的FIR滤波器向量化方法,将(Finite Impulse Response)滤波器的卷积计算划分为系数长度步向量乘法和加法计算,每一步的向量乘法和加法计算在各个向量处理单元上并行执行,计算一个输出结果的所有乘法和加法计算都在同一向量处理单元上完成,每次循环能够同时完成向量处理单元数量个输出结果的计算.在向量处理器YHFT-Matrix的实验结果表明,该向量化FIR滤波器能够取得高效的计算性能和加速比. 展开更多
关键词 FIR滤波器 向量化 向量处理器
下载PDF
时态跨度的向量化处理与运算 被引量:3
19
作者 左亚尧 唐文俊 +1 位作者 汤庸 舒忠梅 《计算机科学》 CSCD 北大核心 2011年第11期171-175,195,共6页
时态跨度是时态断言的重要演算对象,如何有效且准确地计算不同时态粒度刻画下的时态跨度之间的运算结果是一个关键问题。由于时态跨度的非规范特性以及弹性时态粒度的影响,使得粒度转换方法并非总有效。对时态粒度系统作向量化处理,使... 时态跨度是时态断言的重要演算对象,如何有效且准确地计算不同时态粒度刻画下的时态跨度之间的运算结果是一个关键问题。由于时态跨度的非规范特性以及弹性时态粒度的影响,使得粒度转换方法并非总有效。对时态粒度系统作向量化处理,使其同构到n维向量空间,并将时态跨度作完备化和平滑化处理后,映射为向量空间中的自由向量,从而可以通过向量间的运算法则,简单有效地处理各种复杂组合形式下的时态跨度间的运算。 展开更多
关键词 向量化处理 时态跨度 完备化处理 平滑化处理 时态粒度系统
下载PDF
面向多核向量处理器的矩阵乘法向量化方法 被引量:9
20
作者 刘仲 田希 《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页
稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值... 稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算时间中,让整个矩阵计算以接近内核计算的速度运行,实现最优的计算性能和效率.在MATRIX2上的实验结果表明,提出的双精度矩阵乘法的性能达到1106.88GFLOPS,效率为96.08%,核心计算的效率达到99.39%. 展开更多
关键词 多核向量处理器 高性能计算 矩阵乘法 分块矩阵 向量化
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部