期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于BWDSP1042的复数矩阵向量乘的优化与实现
1
作者 蔺丽华 张美春 +2 位作者 王佳仪 李敏 门浩 《计算机应用与软件》 北大核心 2023年第3期298-301,315,共5页
采用两种方法对复数矩阵向量乘进行优化,提高其在BWDSP1042上的运行效率。一是按列分块与减少二级循环内循环次数相结合的方法(矩阵列非4的倍数);二是模八寻址与减少二级循环内循环次数相结合的方法(矩阵列为4的倍数)。实验结果表明,采... 采用两种方法对复数矩阵向量乘进行优化,提高其在BWDSP1042上的运行效率。一是按列分块与减少二级循环内循环次数相结合的方法(矩阵列非4的倍数);二是模八寻址与减少二级循环内循环次数相结合的方法(矩阵列为4的倍数)。实验结果表明,采用第一种方法可缩短复数矩阵向量乘的运行周期2.8倍以上,第二种方法可缩短其运行周期3.1倍以上。 展开更多
关键词 bwdsp1042 复数矩阵向量乘 按列分块 模八寻址 运行效率
下载PDF
基于BWDSP指令Cache的PLRU替换算法研究 被引量:3
2
作者 洪兴勇 洪一 《电子技术应用》 北大核心 2013年第1期27-30,共4页
通过BWDSP模拟器对目前常用的几种替换算法和大小不同的指令Cache块进行仿真实验得出不同缺失率。实验结果表明,所提出的PLRU替换算法性能高于LRU、LFU、FIFO替换算法,并使BWDSP整体性能提高到为其他三种替换算法的1.12倍左右。
关键词 bwdsp 指令CACHE 替换算法 PLRU
下载PDF
基于多核处理器BWDSP1042的FFT性能优化 被引量:2
3
作者 蔺丽华 李敏 +2 位作者 苏涛 张美春 王佳仪 《电讯技术》 北大核心 2021年第6期759-764,共6页
博微DSP1042(BWDSP1042)是我国自主研发的一款高性能数字信号处理器。现阶段,由于BWDSP硬件计算资源和访存带宽限制,通过调优快速傅里叶变换(Fast Fourier Transform,FFT)算法结构运算时间仍可减少。基于高性能多核BWDSP1042体系架构以... 博微DSP1042(BWDSP1042)是我国自主研发的一款高性能数字信号处理器。现阶段,由于BWDSP硬件计算资源和访存带宽限制,通过调优快速傅里叶变换(Fast Fourier Transform,FFT)算法结构运算时间仍可减少。基于高性能多核BWDSP1042体系架构以及指令编排原则,优化了基-2FFT算法结构,在充分利用硬件资源的同时减少了FFT算法的运算时间。使用Matlab程序验证FFT汇编算法的正确性,并与BWDSP100、C6678函数库中的FFT算法的实际运行周期进行对比。研究结果表明,512点、1024点、2048点定点复数FFT算法的运算时间比BWDSP100函数库中的FFT和C6678函数库中的FFT均缩短了一倍多。 展开更多
关键词 数字信号处理 bwdsp1042 快速傅里叶变换 运算时间
下载PDF
BWDSP处理器的C语言级调试器实现方案 被引量:5
4
作者 林广栋 黄光红 朱艳 《中国集成电路》 2016年第1期69-75,共7页
BWDSP是一款我国自主研发的高性能通用数字信号处理器。BWDSP配套的自主研发的调试器同时支持对C语言和汇编语言的调试。该调试器实现了调试信息解析、函数栈解析与查看、单步调试、变量查看等C语言调试功能。由于C语言调试的功能实现... BWDSP是一款我国自主研发的高性能通用数字信号处理器。BWDSP配套的自主研发的调试器同时支持对C语言和汇编语言的调试。该调试器实现了调试信息解析、函数栈解析与查看、单步调试、变量查看等C语言调试功能。由于C语言调试的功能实现与具体处理器关系不大,BWDSP调试器的C语言调试实现方案也可以用于其他处理器。该方案可供其他处理器的调试器参考借鉴。 展开更多
关键词 bwdsp C语言 调试
下载PDF
基于BWDSP100的高性能FFT实现 被引量:2
5
作者 方志红 《雷达科学与技术》 北大核心 2016年第5期487-492,共6页
在数字信号处理(DSP)中,快速傅里叶变换(FFT)起着非常重要的作用。对于针对信号处理应用而开发的处理芯片来说,FFT的性能优劣表征着芯片实际性能的高低。BWDSP100是一款针对数字信号处理及嵌入式应用的处理器。如何在BWDSP100指令框架下... 在数字信号处理(DSP)中,快速傅里叶变换(FFT)起着非常重要的作用。对于针对信号处理应用而开发的处理芯片来说,FFT的性能优劣表征着芯片实际性能的高低。BWDSP100是一款针对数字信号处理及嵌入式应用的处理器。如何在BWDSP100指令框架下,针对该芯片硬件特点展开FFT设计,是芯片走向工程应用的重要一步。为了验证FFT性能,给出了最终FFT程序在BWDSP100上测试结果及其与TS201的性能对比。对比结果表明,该FFT实现采用逆序循环思想,充分发挥了BWDSP100硬件性能,达到了设计指标,对其他DSP芯片FFT程序的开发有一定的借鉴作用。 展开更多
关键词 bwdsp100 快速傅里叶变换 数字信号处理 逆序循环
下载PDF
BWDSP软件代码覆盖率统计工具实现方案 被引量:1
6
作者 林广栋 耿锐 赵香 《电脑知识与技术》 2016年第2Z期66-70,共5页
覆盖率统计是软件白盒测试的重要手段。BWDSP处理器为其软件用户实现了一个代码覆盖率统计工具。该工具可以统计语句覆盖率、分支覆盖率,还可以用累加方式统计覆盖率。该工具通过调试信息得到被测软件的代码行号信息。它使被测软件在BW... 覆盖率统计是软件白盒测试的重要手段。BWDSP处理器为其软件用户实现了一个代码覆盖率统计工具。该工具可以统计语句覆盖率、分支覆盖率,还可以用累加方式统计覆盖率。该工具通过调试信息得到被测软件的代码行号信息。它使被测软件在BWDSP模拟器上运行,并同时搜集被测软件的覆盖信息,最后把覆盖信息与行号信息结合得到覆盖率。该覆盖率统计工具已经被BWDSP操作系统等大型软件在测试时使用,对这些软件的测试工作起到了重要作用。 展开更多
关键词 软件测试 覆盖率 bwdsp
下载PDF
高性能BWDSP处理器指令代码压缩技术研究
7
作者 洪兴勇 洪一 +1 位作者 李文谨 江志雄 《电子技术应用》 北大核心 2013年第10期8-10,14,共4页
DSP处理器的功能日益强大,软件程序的复杂程度也在不断增大,软件的代码量迅速增加。采用LZW字典压缩对由源程序指令代码经过编译、汇编后生成的二进制机器代码进行压缩,可减少指令代码存储空间大小,这样在BWDSP处理器存储空间有限的条... DSP处理器的功能日益强大,软件程序的复杂程度也在不断增大,软件的代码量迅速增加。采用LZW字典压缩对由源程序指令代码经过编译、汇编后生成的二进制机器代码进行压缩,可减少指令代码存储空间大小,这样在BWDSP处理器存储空间有限的条件下可以存储更多指令程序代码,同时增加Cache命中率,提高BWDSP处理整体性能。BWDSP处理器指令Cache代码压缩系统以指令Cache块为压缩单元。在高性能BWDSP处理器平台上对典型雷达信号程序代码压缩进行仿真实验,得出平均代码压缩率为60%左右。 展开更多
关键词 代码压缩 bwdsp 指令CACHE LZW
下载PDF
基于BWDSP100处理器的无源雷达信号处理系统 被引量:2
8
作者 许德刚 《舰船电子对抗》 2015年第2期72-75,共4页
针对国产BWDSP100处理器的性能和特点,提出了由4片BWDSP100处理器芯片构成的任务式并行信号处理系统,满足无源雷达大运算量的信号处理算法要求。该系统并行实现波束形成、自适应干扰抑制、长时相干积累和目标检测处理等。分析了雷达的... 针对国产BWDSP100处理器的性能和特点,提出了由4片BWDSP100处理器芯片构成的任务式并行信号处理系统,满足无源雷达大运算量的信号处理算法要求。该系统并行实现波束形成、自适应干扰抑制、长时相干积累和目标检测处理等。分析了雷达的主要信号处理模块在系统中的实现算法,估计了其运算量。实际工程应用表明该多片数字信号处理并行系统应用于无源雷达系统中,满足了雷达信号处理开放性、可扩展性的要求,提升了无源雷达系统的性能。 展开更多
关键词 无源雷达 bwdsp100处理器 自适应干扰抑制 长时相干积累 目标检测
下载PDF
国产BWDSP的并行通信接口设计 被引量:2
9
作者 蔡恒雨 宁成明 +1 位作者 侯璇 郑启龙 《小型微型计算机系统》 CSCD 北大核心 2021年第5期897-904,共8页
BWDSP系列处理器是由中国电子科技集团公司第38研究所研制的国产DSP芯片,具有较强的计算能力.在BWDSP芯片的基础上,研发了以RapidIO为交换协议的BWDSP虚拟平台.为解决BWDSP虚拟平台提供的通信原语难以调用的问题,本文借鉴Message Passin... BWDSP系列处理器是由中国电子科技集团公司第38研究所研制的国产DSP芯片,具有较强的计算能力.在BWDSP芯片的基础上,研发了以RapidIO为交换协议的BWDSP虚拟平台.为解决BWDSP虚拟平台提供的通信原语难以调用的问题,本文借鉴Message Passing Interface(MPI)标准规范,设计了基于虚拟平台的并行通信库——Message Passing Interface of RapidIO(MPIRIO).MPIRIO采取分层架构实现,在底层以RapidIO作为数据通信协议,在上层提供了点对点通信和群集通信函数接口.MPIRIO在MPI群集通信的基础上,提供了优化的群集通信函数,并结合BWDSP体系结构特点,为神经网络卷积运算等操作提供了优化.最后对本文设计的MPIRIO进行了仿真实验,并与MPICH进行了对比实验,表明本文设计的MPIRIO提高了BWDSP虚拟平台的可用性,并验证了MPIRIO的优点. 展开更多
关键词 bwdsp RAPIDIO MPI 并行通信库 卷积操作 群集通信
下载PDF
基于图神经网络的BWDSP指令选择方法优化研究 被引量:2
10
作者 侯璇 凤维杰 郑启龙 《小型微型计算机系统》 CSCD 北大核心 2021年第12期2672-2679,共8页
现阶段,现代处理器选用不同的策略处理编译完成的代码指令,而选用的指令影响后端代码的性能优化.指令选择所采用的策略依然与传统的基于宏扩展和基于图覆盖的方法相似,且不支持部分复杂的指令,无法充分利用复杂指令带来的高效率,因此也... 现阶段,现代处理器选用不同的策略处理编译完成的代码指令,而选用的指令影响后端代码的性能优化.指令选择所采用的策略依然与传统的基于宏扩展和基于图覆盖的方法相似,且不支持部分复杂的指令,无法充分利用复杂指令带来的高效率,因此也亟需一种新型且有效、可拓展、可移植的指令选择策略.近些年图神经网络GNN在处理非欧氏数据上取得了很多的突破.本文将GNN应用于基于BWDSP平台编译器后端的指令选择的处理过程中,基于图节点的分类、边属性的预测和图分类提出一种低耦合性的指令选择模型,通过实验验证并对比这种方法与传统方法的有效性.并且证明了一个高效的指令选择策略能够充分利用BWDSP的资源,降低程序执行的代价.在提高BWDSP指令选择能力的同时,也期望能将该方法应用到不同平台的指令集,或者编译优化的其它子领域和不同的编译器中. 展开更多
关键词 指令选择 图神经网络 bwdsp平台 编译优化
下载PDF
基于BWDSP众核的CNN计算任务划分优化 被引量:2
11
作者 王改 郑启龙 +2 位作者 邓文齐 杨江平 卢茂辉 《计算机系统应用》 2019年第9期88-94,共7页
作为深度学习算法之一的卷积神经网络在多个领域有着重要的应用.因为其网络模型的规模和结构比较复杂,数据量较大,故需要考虑降低其对计算资源的要求.一般地,对于大数据量的计算任务,需要使用数据并行的方法进行任务的划分计算,而仅使... 作为深度学习算法之一的卷积神经网络在多个领域有着重要的应用.因为其网络模型的规模和结构比较复杂,数据量较大,故需要考虑降低其对计算资源的要求.一般地,对于大数据量的计算任务,需要使用数据并行的方法进行任务的划分计算,而仅使用数据并行而对计算的任务的特点不加以结合,其数据传输量较高.因此需要通过对CNN网络结构及其计算特性的分析,设计合理的计算任务划分策略,减少数据的传输量.本文首先介绍了深度学习加速器中对计算任务的优化处理,接着介绍BWDSP的众核深度学习加速器的体系架构,并设计计算划分策略,基于VGGNet-16网络模型进行实验对比分析.实验结果表明该优化算法可以显著的提高数据传输的性能,降低数据的传输量. 展开更多
关键词 bwdsp众核架构 数据并行 卷积神经网络 计算任务划分
下载PDF
基于BWDSP的HEVC熵编码的复杂度分析与优化
12
作者 汪辉 郎文辉 +2 位作者 杨学志 段苓丽 佘成龙 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第9期1193-1198,1243,共7页
为了优化BWDSP平台上高效视频编码(high efficiency video coding,HEVC)熵编码算法,文章基于BWDSP仿真平台对熵编码复杂度进行了深入分析,并结合BWDSP搭载的硬件资源,从对不同尺寸的变换系数块熵编码算法结构的优化、存储器优化和线性... 为了优化BWDSP平台上高效视频编码(high efficiency video coding,HEVC)熵编码算法,文章基于BWDSP仿真平台对熵编码复杂度进行了深入分析,并结合BWDSP搭载的硬件资源,从对不同尺寸的变换系数块熵编码算法结构的优化、存储器优化和线性汇编优化3个不同层级的组合优化方案进行优化处理,提出了一种基于乒乓缓存的DMA数据传输优化方案,设计了一种基于单核DSP的多任务级并行处理的优化方案。实验结果表明,经过优化的HEVC熵编码的运行速度显著提高,平均加速比达到15倍。 展开更多
关键词 高效视频编码(HEVC) 熵编码 单核多任务级并行 bwdsp处理器 乒乓缓存
下载PDF
基于BWDSP的字符串与内存处理函数优化
13
作者 张仁高 郑启龙 王向前 《计算机系统应用》 2017年第7期167-172,共6页
面向BWDSP的体系结构分析了字符串与内存处理函数汇编优化方法,基于向量化与软件流水的优化技术,通过利用高效访存指令、能够提升循环执行效率的零开销循环机制、指令重排技术,结合具体功能函数的循环特性,展开针对字符串与内存处理函... 面向BWDSP的体系结构分析了字符串与内存处理函数汇编优化方法,基于向量化与软件流水的优化技术,通过利用高效访存指令、能够提升循环执行效率的零开销循环机制、指令重排技术,结合具体功能函数的循环特性,展开针对字符串与内存处理函数的指令级并行性挖掘.实验结果表明,这些库函数的优化效率能够达到硬件平台提供函数性能理论运行时间的1.5倍以下,对BWDSP平台整体性能提升具有重要意义. 展开更多
关键词 字符串与内存处理函数 bwdsp 函数优化 向量化与软件流水 特殊指令 并行性
下载PDF
BWDSP上HEVC运动估计的实现及存储器访问优化 被引量:1
14
作者 贾尚柱 郎文辉 +1 位作者 曾飞洋 刘余福 《电脑知识与技术(过刊)》 2017年第4X期178-180,共3页
运动估计技术是利用视频帧中之前已编码图像为当前图像的每个像素块寻找一个最佳匹配块。运动估计过程中主要包括了运动搜索、亚像素插值和MV预测技术,在运动估计过程中,存在着大量的计算。为保证硬件编码的实时性,我们结合BWDSP体系结... 运动估计技术是利用视频帧中之前已编码图像为当前图像的每个像素块寻找一个最佳匹配块。运动估计过程中主要包括了运动搜索、亚像素插值和MV预测技术,在运动估计过程中,存在着大量的计算。为保证硬件编码的实时性,我们结合BWDSP体系结构的特征,采用存储器访问优化和代码级优化技术,实现了基于循环buffer的运动估计算法。实验表明,在BWDSP仿真环境下,该优化方法减少了代码执行所需的时钟周期,提高了编码器性能。 展开更多
关键词 运动估计 bwdsp 视频编码 亚像素插值 循环buffer
下载PDF
基于BWDSP的HEVC帧内预测角度模式的并行化算法
15
作者 佘成龙 郎文辉 +1 位作者 段苓丽 汪辉 《电视技术》 2018年第3期33-39,共7页
针对HEVC帧内预测角度模式算法的特点,提出实现角度预测模式的并行化方法。该方法基于BWDSP1041仿真平台通过分析角度模式算法的可并行性,提出了适合多乘法器并行计算的数据分配方式,结合处理器所搭载的硬件资源,设计了多运算部件并行... 针对HEVC帧内预测角度模式算法的特点,提出实现角度预测模式的并行化方法。该方法基于BWDSP1041仿真平台通过分析角度模式算法的可并行性,提出了适合多乘法器并行计算的数据分配方式,结合处理器所搭载的硬件资源,设计了多运算部件并行工作的算法程序。实验结果表明角度预测模式20和垂直模式26在BWDSP1041上利用硬件资源的并行化实现,并行加速比分别达到161.68和344.65。该并行化算法减少了视频编码的时间,其数据分配方案对于帧内预测算法在多核和多运算部件结构上的并行化研究也具有一定的参考价值。 展开更多
关键词 HEVC 帧内预测 并行化 bwdsp1041处理器
下载PDF
基于FPGA和BWDSP100 Link口的源同步时序约束
16
作者 朱鹏 夏际金 《山东工业技术》 2015年第21期242-242,153,共2页
FPGA与BWDSP100高速链路口数据传输,在300MB/s的速率下,FPGA则需要进行SDC时序约束,来确保时序准确无误,FPGA与BWDSP100的Link口属于源同步接口,本文利用Time Quest时序分析工具对FPGA的LINK口逻辑进行约束,工程应用中6路LINK口能稳定... FPGA与BWDSP100高速链路口数据传输,在300MB/s的速率下,FPGA则需要进行SDC时序约束,来确保时序准确无误,FPGA与BWDSP100的Link口属于源同步接口,本文利用Time Quest时序分析工具对FPGA的LINK口逻辑进行约束,工程应用中6路LINK口能稳定工作在300MB/s的传输速率下。 展开更多
关键词 LINK口 时序约束 bwdsp100 FPGA
下载PDF
基于BWDSP100的点迹处理算法实现
17
作者 韩燕 雷远宏 《科技视界》 2015年第12期89-89,112,共2页
针对雷达信号经过脉冲压缩、滤波、恒虚警检测后的有效回波数据,给出了一种基于国产化芯片BWDSP100的点迹处理设计方案。在常规雷达点迹处理算法的基础上,分析雷达回波信号在速度、距离、方位上的分布特性,给出了点迹处理中频道选大、... 针对雷达信号经过脉冲压缩、滤波、恒虚警检测后的有效回波数据,给出了一种基于国产化芯片BWDSP100的点迹处理设计方案。在常规雷达点迹处理算法的基础上,分析雷达回波信号在速度、距离、方位上的分布特性,给出了点迹处理中频道选大、距离凝聚、方位凝聚等模块的软件实现流程图。实际工程实现验证了这一方案的可行性。 展开更多
关键词 点迹处理 bwdsp100 常规雷达点迹处理
下载PDF
通过仿真器实现对BWDSP并口FLASH的在线编程
18
作者 周乐 《中国集成电路》 2017年第7期54-58,共5页
数字信号处理器(DSP)芯片与FLASH存储器的接口与编程是实现基于DSP嵌入式开发的一个重要环节。本文基于由中国电子科技集团公司第三十八研究所研制BWDSP100数字信号处理器,以高性能S29GL256S FLASH芯片为例,具体介绍了DSP与FLASH存储器... 数字信号处理器(DSP)芯片与FLASH存储器的接口与编程是实现基于DSP嵌入式开发的一个重要环节。本文基于由中国电子科技集团公司第三十八研究所研制BWDSP100数字信号处理器,以高性能S29GL256S FLASH芯片为例,具体介绍了DSP与FLASH存储器的接口电路设计、以及通过仿真器实现对FLASH存储器的擦写与编程的方法。 展开更多
关键词 bwdsp S29GL256S 仿真器 擦写 编程
下载PDF
基于BWDSPHEVC的向量SIMD哈达玛变换并行设计 被引量:1
19
作者 佘成龙 段苓丽 汪辉 《电脑知识与技术》 2018年第7Z期222-224,共3页
针对HEVC中SATD率失真代价计算的特点,本文提出利用向量SIMD(单指令多数据流)技术,设计哈达玛变换的并行化方案.该方案采用多加法器和多乘法器协同工作模式,发挥处理器的并行性,通过合理的数据安排,很好地实现了多个宏中数据的并行计算... 针对HEVC中SATD率失真代价计算的特点,本文提出利用向量SIMD(单指令多数据流)技术,设计哈达玛变换的并行化方案.该方案采用多加法器和多乘法器协同工作模式,发挥处理器的并行性,通过合理的数据安排,很好地实现了多个宏中数据的并行计算,增大DSP的数据吞吐率,提高数据处理速度.实验结果表明其在单核BWDSP1041上的并行加速比达到87.9,证明了优化工作的有效性. 展开更多
关键词 HEVC 帧内预测 并行化 bwdsp1041处理器
下载PDF
基于BWDSP平台的信号处理库函数优化
20
作者 于海洋 陈冠林 +2 位作者 蒋天翔 蒋慧丽 彭昌 《电子技术与软件工程》 2022年第6期86-89,共4页
本文主要基于BWDSP信号处理库中的变换、窗函数的性能优化进行分析,所使用的优化方法主要在指令并行级别及编程语言使用技巧上,未曾涉及到算法层次的优化。
关键词 bwdsp 信号处理 库函数 编程语言
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部