期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
多核数字信号处理卷积算法并行优化
1
作者 许金伟 王庆林 +4 位作者 李娅琳 姜晶菲 高蕾 李荣春 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期103-112,共10页
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积... 针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。 展开更多
关键词 多核DSP 卷积神经网络 卷积算法 并行优化
下载PDF
高性能异构加速器MiniGo算子优化方法
2
作者 乔鹏 贺周雨 +1 位作者 李荣春 姜晶菲 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期131-140,共10页
根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理... 根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。 展开更多
关键词 异构计算 算子优化 卷积神经网络 强化学习
下载PDF
注意力机制量化剪枝优化方法
3
作者 何源宏 姜晶菲 许金伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期113-120,共8页
面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝... 面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失。在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4位或8位定点量化、0.93~0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础。 展开更多
关键词 自然语言处理 注意力机制 量化 剪枝
下载PDF
“计算机体系结构”课程建设及改革思考 被引量:18
4
作者 姜晶菲 肖侬 +1 位作者 王志英 陆洪毅 《计算机教育》 2009年第18期3-5,共3页
"计算机体系结构"课程是计算机科学与技术学科计算机系统结构专业的一门重要的专业基础课、必修课,是全国精品课程。本文详细介绍了"计算机体系结构"的课程建设概况、教学内容特点、教学体系、实验设计,并探讨了课... "计算机体系结构"课程是计算机科学与技术学科计算机系统结构专业的一门重要的专业基础课、必修课,是全国精品课程。本文详细介绍了"计算机体系结构"的课程建设概况、教学内容特点、教学体系、实验设计,并探讨了课程教学内容改革的方向和做法。本课程建设始终坚持紧跟国际一流、注重实践性教学、建立完整的培养体系等思路,取得了很好的建设效果。 展开更多
关键词 体系结构 实验设计 内容协调 教学内容更新
下载PDF
可重构并行嵌入式系统 被引量:2
5
作者 姜晶菲 唐玉华 宁洪 《计算机工程》 CAS CSCD 北大核心 2009年第4期283-284,F0003,共3页
针对目前应用于军事、航天特殊环境的嵌入式系统存在功能单一、灵活性差、可靠性有限等问题,构建高性能高可靠嵌入式系统RPES,采用SMP并行机制、多种容错策略、硬件支持的软件重注入机制和算法部件动态重构机制,支持系统容错策略以及性... 针对目前应用于军事、航天特殊环境的嵌入式系统存在功能单一、灵活性差、可靠性有限等问题,构建高性能高可靠嵌入式系统RPES,采用SMP并行机制、多种容错策略、硬件支持的软件重注入机制和算法部件动态重构机制,支持系统容错策略以及性能和灵活性的提升。测试结果表明,该系统能适应大范围的特殊应用。 展开更多
关键词 并行容错 算法重构 系统重注入
下载PDF
可重构异构系统结构研究 被引量:3
6
作者 姜晶菲 唐玉华 +1 位作者 刘福东 胡毅 《计算机技术与发展》 2009年第1期25-28,共4页
可重构异构系统是由通用微处理器、可重构模块、专用ASICI、O接口等资源构成的异构并行处理系统,文中提出的可重构异构系统结构融合了不同的计算资源,使系统中的某些资源能够很大限度地满足某种应用的模式和处理要求。系统中可重构模块... 可重构异构系统是由通用微处理器、可重构模块、专用ASICI、O接口等资源构成的异构并行处理系统,文中提出的可重构异构系统结构融合了不同的计算资源,使系统中的某些资源能够很大限度地满足某种应用的模式和处理要求。系统中可重构模块的硬件功能可以通过在线重构技术加以改变,各模块之间的互连关系可通过重构互连控制器调节和仲裁。这种可变性使计算系统能适应更大范围的应用需求,向一体化和高性能的方向发展。 展开更多
关键词 异构 重构互连控制器 可重构模块
下载PDF
可重构多路仲裁器 被引量:1
7
作者 姜晶菲 唐玉华 崔向东 《计算机工程与设计》 CSCD 北大核心 2009年第1期1-3,215,共4页
多路仲裁器的设计不仅涉及到协议实现,还必须考虑复杂的时序控制,根据具体应用的不同设计的特异性较强。提出了模块化的可重构多路仲裁器结构并进行了具体设计。可重构多路仲裁器能够进行仲裁逻辑的动态重构,可方便地适应不同规模和复... 多路仲裁器的设计不仅涉及到协议实现,还必须考虑复杂的时序控制,根据具体应用的不同设计的特异性较强。提出了模块化的可重构多路仲裁器结构并进行了具体设计。可重构多路仲裁器能够进行仲裁逻辑的动态重构,可方便地适应不同规模和复杂度的通信要求,并规则地解决了异步时钟域信号转换的问题,使得仲裁器具有一定的可变性和快速实现性,其设计模式能适应较大范围接口应用。 展开更多
关键词 FPGA 动态重构 仲裁器 异步时钟域 通信
下载PDF
一种双模式Flash控制器设计 被引量:3
8
作者 姜晶菲 唐玉华 《计算机技术与发展》 2008年第11期1-4,共4页
以硬件直接实现固定的Flash编程操作是片内及片外Flash控制的常用方法。文中提出的双模式Flash控制器以Flash硬核模型为基础,组合了硬件直接实现硬核的编程操作和软件控制硬核的编程信号两种模式,实现了能以较快速度和较简单驱动控制Fl... 以硬件直接实现固定的Flash编程操作是片内及片外Flash控制的常用方法。文中提出的双模式Flash控制器以Flash硬核模型为基础,组合了硬件直接实现硬核的编程操作和软件控制硬核的编程信号两种模式,实现了能以较快速度和较简单驱动控制Flash的逻辑和能以较高灵活性控制Flash的逻辑。两种模式使得Flash控制器具有一定的灵活性和快速实现性,其设计模式能适应更多Flash模型。 展开更多
关键词 FLASH 双模式 编程
下载PDF
寓教于戏——互动式归纳教学法的应用 被引量:1
9
作者 姜晶菲 胡荣东 窦勇 《计算机教育》 2013年第1期80-83,共4页
介绍在计算机硬件系列课程中,采用归纳式思维方法,利用互动游戏方式进行教学。阐述演绎式教学法和归纳式教学法在思维方法和实施过程上的不同,提出在原理抽象和背景复杂的专业知识点讲解中,归纳式教学法更利于学生直面应用实例、快速界... 介绍在计算机硬件系列课程中,采用归纳式思维方法,利用互动游戏方式进行教学。阐述演绎式教学法和归纳式教学法在思维方法和实施过程上的不同,提出在原理抽象和背景复杂的专业知识点讲解中,归纳式教学法更利于学生直面应用实例、快速界定背景、明确问题,方便教师进行一般化演绎的观点,并分析实践效果。 展开更多
关键词 归纳法 实例化教学 课堂游戏 自主思维
下载PDF
TTA结构数字信号协处理器数据Cache的设计与实现
10
作者 姜晶菲 郭建军 +1 位作者 戴葵 王志英 《计算机工程与应用》 CSCD 北大核心 2006年第33期8-10,19,共4页
论文分析了面向多媒体应用的TTA(TransportTriggeredArchitecture)微处理器的特点和访存要求,提出并设计实现了应用于此款微处理器、采用直接映象规则、写回和按写分配策略的4KB数据Cache,并在全系统环境下对其进行了模拟验证。实验结... 论文分析了面向多媒体应用的TTA(TransportTriggeredArchitecture)微处理器的特点和访存要求,提出并设计实现了应用于此款微处理器、采用直接映象规则、写回和按写分配策略的4KB数据Cache,并在全系统环境下对其进行了模拟验证。实验结果说明数据Cache系统在降低命中时间和提高命中率两方面做到了良好的折中,命中时间与芯片流水线处理周期匹配,有效保证了全系统性能的发挥。 展开更多
关键词 TTA 数据CACHE 直接映象 写回 按写分配
下载PDF
GF(2^m)域上快速模乘处理局部并行结构
11
作者 姜晶菲 倪晓强 张民选 《计算机工程》 CAS CSCD 北大核心 2007年第18期4-7,共4页
在分析EC上点乘操作的基础上,构造了MSB方式下局部并行线性systolic结构的模乘递推形式,设计了具体的单元结构,给出了性能分析和模拟比较结果。实验证明MSB方式下局部并行、域多项式可变的阵列结构能适应多种EC上模乘,实现灵活、高速的... 在分析EC上点乘操作的基础上,构造了MSB方式下局部并行线性systolic结构的模乘递推形式,设计了具体的单元结构,给出了性能分析和模拟比较结果。实验证明MSB方式下局部并行、域多项式可变的阵列结构能适应多种EC上模乘,实现灵活、高速的模乘处理,而局部并行、固定域多项式结构能在较优的硬件代价下高效实现特定EC上模乘,有效提高GF(2m)上ECC算法的性能。 展开更多
关键词 有限域 模乘 systolic阵列 局部并行 高位优先
下载PDF
串行链路研究与设计
12
作者 姜晶菲 倪晓强 张民选 《小型微型计算机系统》 EI CSCD 北大核心 2000年第9期905-907,共3页
本文提出了一种新型串行链路的设计方案 ,详细研究了数据采样时钟、数据多重采样、数据汇总分析、二次对齐策略等主要技术 ,还讨论了串行链路的特点及设计时应该解决的主要问题 .
关键词 串行链路 多重采样 集成电路 设计 集成度
下载PDF
GF(2m)域上快速模乘处理结构的研究与设计
13
作者 姜晶菲 倪晓强 张民选 《计算机工程与科学》 CSCD 2004年第11期89-93,共5页
加速GF(2m)上的模乘运算是提高GF(2m)上ECC算法性能的关键。在分析EC上点乘操作的基础上,我们构造了模乘运算在线性Systolic上实现的局部并行处理递推形式,并设计了Systolic阵列的具体单元结构和连接,给出了性能分析和模拟结果。实验证... 加速GF(2m)上的模乘运算是提高GF(2m)上ECC算法性能的关键。在分析EC上点乘操作的基础上,我们构造了模乘运算在线性Systolic上实现的局部并行处理递推形式,并设计了Systolic阵列的具体单元结构和连接,给出了性能分析和模拟结果。实验证明,局部并行阵列结构能适应多种EC上的模乘处理。 展开更多
关键词 模乘运算 点乘 体单元 并行处理 ECC 在线 算法性能 局部 GF 适应
下载PDF
可重构密码处理结构中重构机制及对性能的影响
14
作者 姜晶菲 倪晓强 张民选 《计算机工程与应用》 CSCD 北大核心 2004年第20期14-16,19,共4页
重构机制对可重构密码处理系统的性能有着重要的影响,该文从全局、局部、静态、动态几方面提出了流水化可重构密码处理结构中重构机制的分类,给出了各种机制的吞吐率和延迟公式,并分析了几种机制的性能和实现代价,最后给出了在采用局部... 重构机制对可重构密码处理系统的性能有着重要的影响,该文从全局、局部、静态、动态几方面提出了流水化可重构密码处理结构中重构机制的分类,给出了各种机制的吞吐率和延迟公式,并分析了几种机制的性能和实现代价,最后给出了在采用局部动态重构机制的可重构密码处理结构中密码处理的性能。 展开更多
关键词 可重构 密码处理 局部动态重构
下载PDF
系统互连网络的容错策略研究
15
作者 姜晶菲 张民选 倪晓强 《计算机工程与科学》 CSCD 2000年第3期88-91,共4页
本文研究了互连网路由算法的容错问题 ,分析了各种切换技术下多种容错路由和错误恢复策略的特点及适用情况 。
关键词 互连网络 切换技术 消息微片 容错策略 路由算法
下载PDF
基于经典存储器的量子计算机存储系统 被引量:1
16
作者 吴俊杰 姜晶菲 +1 位作者 潘晓辉 杨学军 《计算机工程与应用》 CSCD 北大核心 2006年第30期98-101,共4页
量子计算机具有许多与经典计算机不同的量子特性,其性能远远优于经典计算机,但量子力学特有的性质也使得量子计算机的设计方法不同于经典计算机。在量子计算机中应用经典计算机的存储层次将会遇到一些前所未有的困难,文章提出了一种解... 量子计算机具有许多与经典计算机不同的量子特性,其性能远远优于经典计算机,但量子力学特有的性质也使得量子计算机的设计方法不同于经典计算机。在量子计算机中应用经典计算机的存储层次将会遇到一些前所未有的困难,文章提出了一种解决方案,以便能够在量子计算机的存储系统中应用与经典计算机类似的层次结构来提高访存性能。最后,文章给出了这种层次结构下访存性能的分析结果,指出了在何种条件下才能最大程度地发挥层次结构的性能。 展开更多
关键词 量子计算机 存储层次 量子存储器
下载PDF
基于Itanium处理器的密码算法实现
17
作者 陈迅 姜晶菲 张民选 《计算机工程与应用》 CSCD 北大核心 2004年第15期40-42,208,共4页
使用ItaniumCompiler7.0编译器对现有分组密码算法的C语言实现进行编译得到汇编代码,在对这些汇编代码进行分析时可以发现编译器并没有充分利用Itanium处理器提供的资源。针对这一问题,该文提出了在Itanium处理器上有效实现常用密码算... 使用ItaniumCompiler7.0编译器对现有分组密码算法的C语言实现进行编译得到汇编代码,在对这些汇编代码进行分析时可以发现编译器并没有充分利用Itanium处理器提供的资源。针对这一问题,该文提出了在Itanium处理器上有效实现常用密码算法的方法,主要是利用Itanium处理器指令集中提供的SIMD指令提高处理的并行性,并探讨了Itanium处理器SIMD指令的使用方法。 展开更多
关键词 ITANIUM 处理器 密码算法实现 RIJNDAEL 密码算法 DES 密码算法 SAFER 密码算法 IDEA 密码算法
下载PDF
密码处理ASIP中的置换加速
18
作者 倪晓强 姜晶菲 张民选 《计算机工程与科学》 CSCD 2006年第7期4-6,33,共4页
密码处理ASIP是针对密码算法处理的专用微处理器体系结构,结构设计的重点是怎样良好地匹配算法要素和算法结构。置换是对称密码算法中重要的编码环节,在密码处理ASIP结构下加速置换要尽量减少使用非共用硬件,开发处理并行性,适应各种位... 密码处理ASIP是针对密码算法处理的专用微处理器体系结构,结构设计的重点是怎样良好地匹配算法要素和算法结构。置换是对称密码算法中重要的编码环节,在密码处理ASIP结构下加速置换要尽量减少使用非共用硬件,开发处理并行性,适应各种位宽置换的处理要求。通过对分组算法置换特性的深入分析,在提出的密码处理ASIP结构下,构造了加速置换操作的部件结构和互连结构,设计了专用的指令,给出了性能和实现结果,证明置换加速机制高效、低代价、通用性强。 展开更多
关键词 密码处理 ASIP 置换 并行结构
下载PDF
基于Soft-NMS的候选框去冗余加速器设计 被引量:8
19
作者 李景琳 姜晶菲 +2 位作者 窦勇 许金伟 温冬 《计算机工程与科学》 CSCD 北大核心 2021年第4期586-593,共8页
目标检测任务通常使用非极大值抑制算法(NMS)删除卷积神经网络输出的冗余候选框。Soft-NMS使用逐步衰减候选框得分值的方法代替Hard-NMS中直接删除大于预定义阈值候选框的方法,可以避免误删图像中重叠的目标候选框,提高目标检测任务的... 目标检测任务通常使用非极大值抑制算法(NMS)删除卷积神经网络输出的冗余候选框。Soft-NMS使用逐步衰减候选框得分值的方法代替Hard-NMS中直接删除大于预定义阈值候选框的方法,可以避免误删图像中重叠的目标候选框,提高目标检测任务的准确率。但是,频繁地改变候选框得分值使得Soft-NMS较Hard-NMS更为复杂,为了实现高准确率、低延时、低功耗的候选框去冗余效果,提出一种基于Soft-NMS的体系结构,利用对数函数优化复杂的浮点计算,细粒度流水和粗粒度并行组成2级优化结构进一步提升算法的吞吐率。在XILINX KU-115 FPGA开发板上对该体系结构进行了评估,评估结果表明,该体系结构的功耗为6.107 W,处理992个候选框的延时为168.95μs,与CPU实现的Soft-NMS相比,该体系结构实现了36倍的性能提升,性能功耗比为CPU实现的264倍。 展开更多
关键词 可重构计算 目标检测 非极大值抑制
下载PDF
基于GPU的遥感图像IHS小波融合并行算法设计与实现 被引量:2
20
作者 徐如林 周海芳 姜晶菲 《计算机工程与科学》 CSCD 北大核心 2012年第8期135-141,共7页
遥感图像融合是遥感图像应用的一个重要处理步骤。随着遥感图像数据规模与融合算法计算复杂度的增大,遥感图像融合面临着处理速度的挑战。最近几年,GPU计算能力得到极大提升,面向通用计算的应用得到了快速发展。本文基于GPU编程模型和... 遥感图像融合是遥感图像应用的一个重要处理步骤。随着遥感图像数据规模与融合算法计算复杂度的增大,遥感图像融合面临着处理速度的挑战。最近几年,GPU计算能力得到极大提升,面向通用计算的应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了遥感图像融合的并行加速算法,提出了适合融合执行流的并行映射模型。本文选取计算量大、计算精度高的IHS增强小波融合算法进行GPU并行设计,并针对主流的GPU平台在数据传输、循环优化、线程设计等方面进行了优化,最后在nVIDIA GTX 460 GPU上进行了实验。实验结果表明,本文设计的并行映射模型及优化策略能够很好地适用于遥感图像融合应用,最大加速比达到了114倍。研究表明,GPU通用计算技术在遥感图像处理领域具有广阔的应用前景。 展开更多
关键词 GPU 遥感图像融合 IHS 小波 并行优化 CUDA
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部