期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
1
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
下载PDF
长向量处理器高效RNN推理方法
2
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 向量处理 循环神经网络 并行优化
下载PDF
基于GCC实现飞腾处理器向量处理单元的编译器后端 被引量:3
3
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌... 编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。 展开更多
关键词 飞腾处理 向量处理单元 GCC 编译器后端
下载PDF
面向多核向量处理器的矩阵乘法向量化方法 被引量:9
4
作者 刘仲 田希 《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页
稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值... 稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算时间中,让整个矩阵计算以接近内核计算的速度运行,实现最优的计算性能和效率.在MATRIX2上的实验结果表明,提出的双精度矩阵乘法的性能达到1106.88GFLOPS,效率为96.08%,核心计算的效率达到99.39%. 展开更多
关键词 多核向量处理 高性能计算 矩阵乘法 分块矩阵 向量
下载PDF
一种在线时间序列预测的核自适应滤波器向量处理器 被引量:2
5
作者 庞业勇 王少军 +1 位作者 彭宇 彭喜元 《电子与信息学报》 EI CSCD 北大核心 2016年第1期53-62,共10页
针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线... 针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线技术提高了处理器的计算速度,降低了功耗和计算延迟,并采用微码编程提高了设计的通用性和可扩展性。该文基于该向量处理器实现了经典的KAF方法,实验表明,在满足计算精度要求的前提下,该向量处理器与CPU相比,最高可获得22倍计算速度提升,功耗降为1/139,计算延迟降为1/26。 展开更多
关键词 核自适应滤波器 现场可编程逻辑门阵列 向量处理 微码
下载PDF
应用Petri网模型解决向量处理器流水线冲突 被引量:1
6
作者 郭禾 李文甲 +2 位作者 刘晓飞 邱铁 李强 《系统仿真学报》 CAS CSCD 北大核心 2008年第S2期144-147,共4页
针对自行设计的32位向量处理器流水线中的3种冲突:结构相关、控制相关和数据相关,建立了时延Petri网模型。该模型给出计算流水线所需停顿周期数的具体算法,根据所建模型中使用权的状态得出数据前递需要具备的条件。应用该算法计算流水... 针对自行设计的32位向量处理器流水线中的3种冲突:结构相关、控制相关和数据相关,建立了时延Petri网模型。该模型给出计算流水线所需停顿周期数的具体算法,根据所建模型中使用权的状态得出数据前递需要具备的条件。应用该算法计算流水线所需停顿周期数来消解冲突,并通过对向量处理器指令仿真时序图的分析验证了结果的正确性。 展开更多
关键词 向量处理 PETRI网 流水线冲突 指令时序仿真
下载PDF
银河TS-1向量处理及其在量子计算中的应用 被引量:1
7
作者 宋辉 陆洪毅 +2 位作者 鲁建壮 戴葵 王志英 《电子学报》 EI CAS CSCD 北大核心 2002年第12期1828-1831,共4页
量子计算是近年来新出现的计算技术,具有非常好的发展前景,目前量子计算的研究大多通过在经典计算机上模拟实现.向量运算是量子计算模拟的基础,增强向量运算能力,可以提高量子计算模拟的性能和效率.本文以银河TS-1高性能嵌入式微处理器... 量子计算是近年来新出现的计算技术,具有非常好的发展前景,目前量子计算的研究大多通过在经典计算机上模拟实现.向量运算是量子计算模拟的基础,增强向量运算能力,可以提高量子计算模拟的性能和效率.本文以银河TS-1高性能嵌入式微处理器的中的向量处理技术为基础,提出了在向量微处理器上实现量子计算的基本方法,并对其进行了性能模拟,分析了微处理器向量部件设计对量子计算模拟的影响以及改进方法. 展开更多
关键词 银河TS-1 量子计算 处理 向量处理 计算机
下载PDF
将向量处理引入数据流计算机
8
作者 来智勇 郑守淇 《西安交通大学学报》 EI CAS CSCD 北大核心 1997年第6期38-44,共7页
数据流计算机解决了多机系统存储器延时和同步2个不易解决的基本问题,可以充分利用程序的各级并行成分.这种计算机在算术运算等方面性能优越,但在结构数据(如向量)处理方面开销大、效率低.将向量处理技术引入数据流计算机,能有... 数据流计算机解决了多机系统存储器延时和同步2个不易解决的基本问题,可以充分利用程序的各级并行成分.这种计算机在算术运算等方面性能优越,但在结构数据(如向量)处理方面开销大、效率低.将向量处理技术引入数据流计算机,能有效地解决这个问题.通过在类似Manchester的数据流计算机上增加向量处理功能,并进行了矩阵乘运算的模拟.结果表明,增加向量处理后,矩阵乘运算的效率比近几年提出的Monsoon和Epsilon等数据流计算机提高一倍,甚至2倍以上. 展开更多
关键词 数据流计算机 向量处理 存储器 数据处理
下载PDF
并发FORTRAN向量处理系统的设计与实现 被引量:1
9
作者 李强 周晓清 《计算机工程与设计》 CSCD 北大核心 1992年第6期31-36,共6页
本文讨论了并发FORTRAN向量处理系统的设计与实现。该系统是为S10向量处理机而设计的系统软件。
关键词 FORTRAN语言 软件 向量处理
下载PDF
CEVA推出业界首款面向软件无线电的向量处理器 DSP内核进军4G市场
10
作者 罗茜文 《移动通信》 2010年第23期86-86,共1页
硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核授权厂商CEVA公司于11月11日宣布,推出业界首款用于4G无线基础设施应用的高性能向量DSP内核CEVA-XC323。CEVA-XC323内核结合了传统的DSP功能和先进的向量处理单元,
关键词 DSP内核 向量处理 CEVA 软件无线电 4G 数字信号处理 市场 无线基础设施
下载PDF
二维矩阵卷积在向量处理器中的设计与实现 被引量:1
11
作者 张军阳 郭阳 《国防科技大学学报》 EI CAS CSCD 北大核心 2018年第3期69-75,共7页
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数... 为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。 展开更多
关键词 卷积神经网络 向量处理 多核实现 矩阵卷积
下载PDF
一种动态的变型向量处理器
12
作者 吴晨曦 杨惠 《中国电子科学研究院学报》 2014年第3期296-299,303,共5页
嵌入式应用中,单指令流多数据流(SIMD,single instruction multiple data)结构的向量处理器在蓬勃发展的同时,也面临着如何高效利用其丰富处理资源的问题。在SIMD的向量结构上,处理实际应用中无法被向量化运算的部分,尤其是很多非向量... 嵌入式应用中,单指令流多数据流(SIMD,single instruction multiple data)结构的向量处理器在蓬勃发展的同时,也面临着如何高效利用其丰富处理资源的问题。在SIMD的向量结构上,处理实际应用中无法被向量化运算的部分,尤其是很多非向量化的循环内部往往含有体间相关,使得SIMD结构的丰富运算资源处于空闲状态。因此,传统的SIMD结构受限于此类应用。提出了一种变型的向量处理器,在保持传统SIMD处理数据并行应用高效性的同时,能够高效地执行包含循环体间数据相关的代码段。实验结果表明,它能获得2.4倍的性能加速,而仅仅占用0.97%的面积开销。 展开更多
关键词 单指令流多数据流 指令级并行 数据级并行 向量处理单元
下载PDF
PowerPC体系结构增加向量处理能力 被引量:1
13
作者 马琳 《今日电子》 1998年第10期7-7,共1页
摩托罗拉半导体公司计划利用称作AltiVec的向量处理技术扩充PowerPC体系结构。这种扩充结构不只是增加指令,而是增加一个新的执行单元(见图示)。这种扩充结构对于未来Macintosh计算机的多媒体任务将具有最直接的影响。
关键词 体系结构 处理 向量处理技术 芯片
下载PDF
利用向量处理二面角问题的一种方法
14
作者 周瑜 《数学教学》 2015年第6期29-31,共3页
空间向量方法在处理空间点、直线、平面之间的位置关系、距离、线线角、线面角问题上,表现几近完美,但在处理二面角问题时会遇到如何判断二面角的平面角与两个法向量夹角的关系问题.本文提出一种判断两法向量所成角与二面角的平面角... 空间向量方法在处理空间点、直线、平面之间的位置关系、距离、线线角、线面角问题上,表现几近完美,但在处理二面角问题时会遇到如何判断二面角的平面角与两个法向量夹角的关系问题.本文提出一种判断两法向量所成角与二面角的平面角关系的有效策略,而且形式简单,操作性强,并利用空间解析几何的相关知识证明了该法的正确性. 展开更多
关键词 二面角 向量处理 利用 空间解析几何 平面角 向量方法 位置关系 知识证明
下载PDF
S10机并行FORTRAN向量处理系统(VPS)的特点和使用问题
15
作者 李强 《计算机工程与设计》 CSCD 北大核心 1993年第5期3-9,共7页
本文对S10机并行FORTRAN向量处理系统的特点、向量库函数的功能和系统使用等问题进行了分析和讨论。
关键词 并行计算机 FORTRAN语言 向量处理系统
下载PDF
CEVA携新款面向软件无线电的向量处理器DSP内核进军4G无线基础设施市场
16
《半导体技术》 CAS CSCD 北大核心 2010年第12期1234-1234,共1页
2010年11月11日,全球领先的硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核授权厂商CEVA公司荣幸宣布推出业界首款用于4G无线基础设施应用的高性能向量DSP内核CEVA—XC323,相比来自德州仪器等现有基站侧VLIW DSP,CEV... 2010年11月11日,全球领先的硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核授权厂商CEVA公司荣幸宣布推出业界首款用于4G无线基础设施应用的高性能向量DSP内核CEVA—XC323,相比来自德州仪器等现有基站侧VLIW DSP,CEVA—XC323在无线基站应用中的性能提升多达4倍, 展开更多
关键词 DSP内核 无线基础设施 向量处理 CEVA 软件无线电 4G 数字信号处理 市场
下载PDF
CEVA推出面向软件无线电的向量处理器DSP内核
17
《单片机与嵌入式系统应用》 2010年第12期86-87,共2页
CEVA公司率先推出用于4G无线基础设施应用的高性能向量DSP内核CEVA—XC323,相比现有基站侧VuwDSP,该内核可以通过减少所需的处理器和硬件加速器数量来显著降低总体BOM成本。
关键词 DSP内核 向量处理 CEVA 软件无线电 无线基础设施 硬件加速器 BOM
下载PDF
CEVA向量处理器DSP内核大幅提升无线基站性能
18
作者 韩霜 《世界电子元器件》 2010年第12期63-64,共2页
作为硅产品知识产权(SIP)平台解决方案和数字信号处理器(DSP)内核的授权厂商,CEVA公司推出首款用于4G无线基础设施应用的高性能向量DSP内核CEVA-XC323,相比现有基站侧VLIW DSP,CEVA-XC323在无线基站应用中的性能提升多达4倍,
关键词 DSP内核 向量处理 无线基站 CEVA 性能 数字信号处理 无线基础设施 知识产权
下载PDF
电导探针向量信号处理的泡状流参数分析
19
作者 陈宪丙 刘慎忍 +2 位作者 杨雨菲 屈晓航 王昆 《山东建筑大学学报》 2024年第2期89-94,121,共7页
泡状流广泛存在于化工、石油、电力等工业场合,对其主要参数的测量不仅是工程设计的必须参考,也是进一步开发两相流理论模型的依据。文章提出并制作了小型四电极电导探针测量空气-水盖泡状流,可以获得局部含气率、界面面积浓度和气泡弦... 泡状流广泛存在于化工、石油、电力等工业场合,对其主要参数的测量不仅是工程设计的必须参考,也是进一步开发两相流理论模型的依据。文章提出并制作了小型四电极电导探针测量空气-水盖泡状流,可以获得局部含气率、界面面积浓度和气泡弦长,且通过已知或合理假设的界面运动方向可获得界面的指向和速度,并通过实验对比四电极电导探针和可视化两种测量方法。结果表明:两种方法具有良好的一致性,四电极电导探针简单、高效,可以准确地测量泡状流中相界面指向等参数,还能有效地解决多维两相流参数测量问题。 展开更多
关键词 工程热物理 气液两相流 电导探针 向量信号处理 可视化方法
下载PDF
向量计算Array OLAP查询处理技术 被引量:2
20
作者 张宇 张延松 +1 位作者 陈红 王珊 《计算机工程与应用》 CSCD 北大核心 2015年第18期24-31,共8页
多核和众核处理器成为新的具有强大并行处理能力的大内存计算平台的主流配置。多核处理器遵循以LLC(Last Level Cache,最后一级cache)大小为中心的优化技术,而众核处理器,如Phi、GPU协处理器,则采用较小的cache并以更多的硬件级线程来... 多核和众核处理器成为新的具有强大并行处理能力的大内存计算平台的主流配置。多核处理器遵循以LLC(Last Level Cache,最后一级cache)大小为中心的优化技术,而众核处理器,如Phi、GPU协处理器,则采用较小的cache并以更多的硬件级线程来掩盖内存访问延迟的设计。随着处理核心数量的增长,计算框架更倾向于面向大规模处理核心的、代码执行效率高并且扩展性强的设计思想。提出了一种基于数组存储和向量处理的内存分析处理框架Array OLAP,简化OLAP的存储模型和查询处理模型。在Array OLAP计算框架中,维表规范化为基于向量的维过滤器,事实表规范化为带有多维索引的度量属性。通过多维索引计算,一个多维查询被简化为事实表上的向量索引扫描并根据度量表达式进行聚集计算。规范化的向量查找和向量索引扫描具有较好的代码执行效率,并且阶段化的处理模型更好地适应不同的计算平台,将计算阶段分配给最适合的计算平台。同时,Array OLAP是一种面向数据仓库模式特点的设计,向量处理模型设计简单,对于数据仓库维表较小且增长缓慢的特点具有较好的效率。描述了在不同平台上的Array OLAP计算框架并且通过基准测试评估Array OLAP的性能,通过与当前的内存分析型数据库的性能对比,Array OLAP性能超过主流的内存分析型数据库并且可以平滑地迁移到新的硬件平台。 展开更多
关键词 数组联机分析处理 数组存储 向量处理 内存联机分析处理
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部