期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
移动平台Android操作系统虚拟化技术的实现 被引量:10
1
作者 刘博文 顾乃杰 +1 位作者 谷德贺 苏俊杰 《计算机工程与应用》 CSCD 北大核心 2017年第14期32-38,共7页
虚拟化技术的研究正逐渐从服务器端转向移动智能设备领域。现有的虚拟化架构需要在物理硬件层和虚拟系统间进行大量的指令翻译,开销大,效率低。针对这一问题,提出了一种轻量级的移动操作系统虚拟化架构。通过在Linux内核命名空间机制的... 虚拟化技术的研究正逐渐从服务器端转向移动智能设备领域。现有的虚拟化架构需要在物理硬件层和虚拟系统间进行大量的指令翻译,开销大,效率低。针对这一问题,提出了一种轻量级的移动操作系统虚拟化架构。通过在Linux内核命名空间机制的基础上扩展Driver命名空间框架,实现了多个虚拟Android系统的同时运行。此外,针对多个虚拟系统同时访问一套硬件设备发生冲突的问题,设计了通用的active-inactive模型来保证虚拟系统间对硬件设备的隔离复用。实验结果表明,虚拟后的Android系统在CPU使用率上并没有增加额外的开销,在内存使用量上减少了6.7%,此虚拟化架构具有很好的通用性与实用性。 展开更多
关键词 操作系统虚拟化 ANDROID 系统 命名空间机制 硬件隔离复用
下载PDF
基于LXC的Android系统虚拟化技术 被引量:1
2
作者 谷德贺 顾乃杰 +2 位作者 刘博文 苏俊杰 贺爱香 《计算机系统应用》 2017年第12期58-63,共6页
虚拟化技术的研究正逐渐从高性能服务器端转向移动智能设备领域.现有的虚拟化方案多是采用多内核方案,系统负载高,效率低.针对车载系统等平台多屏显示以及资源受限等问题,本文提出一种基于容器技术的Android轻量级虚拟化方案.该方案通... 虚拟化技术的研究正逐渐从高性能服务器端转向移动智能设备领域.现有的虚拟化方案多是采用多内核方案,系统负载高,效率低.针对车载系统等平台多屏显示以及资源受限等问题,本文提出一种基于容器技术的Android轻量级虚拟化方案.该方案通过利用Namespace资源隔离机制和Cgroup资源分配机制,使得ARM平台在资源使用较少的同时,能够同时启动多个Android虚拟机,并且各虚拟机上的屏幕显示相互独立.测试结果表明,该方案的内存占用率较双系统方案降低了7%,而平均CPU使用率较原生Android系统仅增加了1%. 展开更多
关键词 虚拟化技术 资源隔离 资源分配 ARM平台 虚拟机
下载PDF
多CPU+多GPU协同计算的三维泊松方程求解
3
作者 张明 顾乃杰 陈露 《小型微型计算机系统》 CSCD 北大核心 2017年第4期901-905,共5页
三维泊松方程求解算法被广泛应用在电磁、流体、地质等领域,有着极其重要的现实意义.但现有实现方法无法满足高精度网格下的性能需求,针对该问题,提出一种基于多GPU加速的三维泊松方程求解算法(MGPES).MPGES通过分析泊松方程求解过程中... 三维泊松方程求解算法被广泛应用在电磁、流体、地质等领域,有着极其重要的现实意义.但现有实现方法无法满足高精度网格下的性能需求,针对该问题,提出一种基于多GPU加速的三维泊松方程求解算法(MGPES).MPGES通过分析泊松方程求解过程中的计算和访存特征,发掘可并行的热点函数,将计算任务均分给多个同构GPU.根据CPU和GPU下的计算速度和访存性能,提出一种基于CPU/GPU协同计算下的负载均衡模型.在该模型的基础上,充分利用空闲CPU的计算能力,提出一种基于多CPU+GPU协同异构平台的三维泊松方程求解算法(COPES).实验结果表明,在8GPU平台下,MGPES最高并行加速比能达到7.72,COPES的最高并行加速比能达到7.81.两种算法均可以达到线性加速比,拥有良好的可扩展性. 展开更多
关键词 泊松方程 并行计算 CUDA 性能优化
下载PDF
异构数据集成方案的优化设计与实现 被引量:6
4
作者 张洁 卢德唐 《计算机辅助工程》 2008年第1期77-80,86,共5页
针对现有数据集成方案在处理特定问题时系统查询性能不理想的情况,以Mediator/Wrap-per集成模式为基础,结合数据仓库思想,提出1种异构数据集成的优化方案.该方案基于XML和元数据设计查询构造、解析搜索及缓存等模块,优化系统的查询性能... 针对现有数据集成方案在处理特定问题时系统查询性能不理想的情况,以Mediator/Wrap-per集成模式为基础,结合数据仓库思想,提出1种异构数据集成的优化方案.该方案基于XML和元数据设计查询构造、解析搜索及缓存等模块,优化系统的查询性能.将该方案应用于石油储层评价系统的数据集成中能明显缩短查询的平均耗用时间,提高查询效率. 展开更多
关键词 XML 元数据 异构数据集成 优化
下载PDF
一种基于网络地址转换的LVS数据转发模式 被引量:1
5
作者 魏振伟 顾乃杰 +1 位作者 彭建章 张颖楠 《计算机系统应用》 2013年第9期18-24,35,共8页
研究Linux虚拟服务器(Linux Virtual Server,简称LVS)工作原理,分析其数据转发流程.针对LVS在多虚拟局域网环境下的部署应用问题,设计实现了一种基于网络地址转换的数据转发模式Double-NAT.Double-NAT模式重新组织连接哈希表为双向桶结... 研究Linux虚拟服务器(Linux Virtual Server,简称LVS)工作原理,分析其数据转发流程.针对LVS在多虚拟局域网环境下的部署应用问题,设计实现了一种基于网络地址转换的数据转发模式Double-NAT.Double-NAT模式重新组织连接哈希表为双向桶结构,使用系统分配的端口区分IN和OUT方向的数据流,使得多VLAN下的数据包均能通过网络地址转换后转发.测试结果表明,Double-NAT数据转发模式配置简单、性能良好,能够有效应用于多虚拟局域网环境. 展开更多
关键词 LINUX虚拟服务器 网络地址转换 数据转发 最大并发连接数
下载PDF
一种面向多核系统的Linux任务调度算法 被引量:4
6
作者 曹越 顾乃杰 +2 位作者 任开新 张旭 吴志强 《计算机工程》 CAS CSCD 北大核心 2015年第2期36-40,46,共6页
针对Linux任务调度算法在多核系统中交互性能差的问题,提出一种分组任务调度算法GFS。根据多核系统硬件特性,自动配置物理距离近的一组CPU共享一个任务运行队列,通过平衡组内CPU对任务运行队列的访问竞争与任务迁移的代价,实现组间任务... 针对Linux任务调度算法在多核系统中交互性能差的问题,提出一种分组任务调度算法GFS。根据多核系统硬件特性,自动配置物理距离近的一组CPU共享一个任务运行队列,通过平衡组内CPU对任务运行队列的访问竞争与任务迁移的代价,实现组间任务运行队列的负载均衡,减少调度延迟。通过优先调度唤醒任务,加快多核系统中交互任务的响应速度。测试结果表明,在不同任务负载下,GFS能够明显降低交互任务的平均响应时间,从而有效提高多核系统交互应用的调度性能。 展开更多
关键词 多核系统 调度算法 交互性能 自动配置 唤醒任务 负载均衡
下载PDF
一种多核平台下的用户级实时多任务库 被引量:3
7
作者 吴志强 黄章进 +1 位作者 顾乃杰 张旭 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1438-1443,共6页
针对Linux系统中线程的创建、调度、同步开销较大而无法满足一些实时应用的问题,在ARM和X86多核平台下设计实现了一种基于优先级位图调度且可抢占的多任务库(Utask).该库通过在用户态为实时任务提供任务的创建、优先级位图调度、快速的... 针对Linux系统中线程的创建、调度、同步开销较大而无法满足一些实时应用的问题,在ARM和X86多核平台下设计实现了一种基于优先级位图调度且可抢占的多任务库(Utask).该库通过在用户态为实时任务提供任务的创建、优先级位图调度、快速的上下文切换和高性能信号量等操作,减少了实时任务运行过程中对内核空间的访问次数,提高了任务管理的效率,在Linux用户空间提供了一种高效的实时运行环境,且便于在不同内核版本的Linux操作系统中移植.实验表明,与内核级线程库(Pthread)和当前主流的用户级任务库(Libtask)相比,该库大大减少了任务创建、切换和同步的开销,提高了任务的实时性. 展开更多
关键词 用户级多任务 上下文切换 实时性 多核平台 位图调度
下载PDF
龙芯3B处理器上FFT算法向量化研究 被引量:7
8
作者 张杰 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1639-1643,共5页
龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.... 龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍. 展开更多
关键词 龙芯3B 优化算法 FFT 向量化
下载PDF
在线考试系统中试题上传方法的优化 被引量:6
9
作者 刘思婷 顾乃杰 林传文 《计算机工程与应用》 CSCD 北大核心 2016年第21期241-246,共6页
试题库是在线考试系统的数据基础。现有的试题上传方法需人工预处理操作,代价高,效率低。针对这一问题,提出了一种基于语义的高效、智能解析方法 IDP(Intelligent Document Parsing)。IDP根据试题的类型特征,定义解析规则,并对所有段落... 试题库是在线考试系统的数据基础。现有的试题上传方法需人工预处理操作,代价高,效率低。针对这一问题,提出了一种基于语义的高效、智能解析方法 IDP(Intelligent Document Parsing)。IDP根据试题的类型特征,定义解析规则,并对所有段落进行规则匹配,实现类型识别。此外,针对特定类型的试题,进行分割段落、语段分析,从而完成智能解析,实现试题上传功能。实验结果表明,IDP省去了人工预处理的步骤,可以直接使用任意格式的试题资源文档完成上传任务,效率明显提升,具有很好的通用性和实用性。 展开更多
关键词 在线考试系统 试题上传 解析规则 智能解析 语段分析
下载PDF
Web文本分类中的标签权重自动优化研究 被引量:4
10
作者 钟旭东 黄章进 +1 位作者 顾乃杰 张旭 《小型微型计算机系统》 CSCD 北大核心 2016年第5期890-894,共5页
Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题... Web文本分类是Web数据挖掘的重要技术之一.为了利用HTML的半结构特性,现有的Web文本分类技术多采用手工指定的方法,决定不同标签的权重系数.这种方法完全根据个人经验,未能充分利用样本集的结构特性,识别效果提升并不明显.针对这一问题,本文设计和实现了一种基于差分进化算法的Web文本标签权重系数自动寻优方案,并对差分优化算法进行了改进,以提高其局部搜索能力.实验结果表明,该方案能充分利用样本集的特性并能有效地提高分类的准确率. 展开更多
关键词 WEB文本分类 自动权重调优 差分进化算法 半结构特征
下载PDF
基于SAE-LBP的网页分类研究 被引量:4
11
作者 江国荐 顾乃杰 +1 位作者 张旭 任开新 《小型微型计算机系统》 CSCD 北大核心 2016年第4期738-742,共5页
在网页分类技术中,SVM、BP神经网络和Naive Bayes等传统分类器主要采用了信息增益、互信息和最大熵等模型选取特征.随着深度学习的发展,深层次地选取特征的方法正在被广泛研究.结合稀疏自动编码器(SAE)和LBP神经网络,提出一种基于SAE-LB... 在网页分类技术中,SVM、BP神经网络和Naive Bayes等传统分类器主要采用了信息增益、互信息和最大熵等模型选取特征.随着深度学习的发展,深层次地选取特征的方法正在被广泛研究.结合稀疏自动编码器(SAE)和LBP神经网络,提出一种基于SAE-LBP的网页分类器.根据网页文本的半结构化特征,改进了文本特征表示的权重计算.针对网页文本的稀疏性,采用SAE对网页文本进行特征选取.还提出一种基于学习率自动调整的LBP神经网络,有效地降低了训练时间.实验表明,相对于传统的BP神经网络,基于SAE-LBP的网页分类器的分类正确率提升了5.19%,时间性能提升了83.86%. 展开更多
关键词 SAE LBP 网页分类 深度学习 神经网络
下载PDF
基于Petri网的多线程程序死锁检测 被引量:8
12
作者 黄理 顾乃杰 曹华雄 《计算机工程》 CAS CSCD 北大核心 2016年第4期1-6,共6页
针对并发程序中死锁检测困难的问题,基于Petri网对多线程程序进行死锁检测。定义抽象描述多线程程序中锁操作的Petri网模型,在现有基于混合整数规划(MIP)的死锁检测算法基础上,提出改进的MIP算法检测该模型中是否存在死锁。实验结果表明... 针对并发程序中死锁检测困难的问题,基于Petri网对多线程程序进行死锁检测。定义抽象描述多线程程序中锁操作的Petri网模型,在现有基于混合整数规划(MIP)的死锁检测算法基础上,提出改进的MIP算法检测该模型中是否存在死锁。实验结果表明,改进MIP算法能够检测到Petri网模型中的死锁,与标志矩阵算法和可达图相比,处理大规模多线程程序时计算效率更高。 展开更多
关键词 多线程程序 锁操作 PETRI网 混合整数规划 死锁检测
下载PDF
基于ARM架构的滤波函数优化 被引量:4
13
作者 陈思润 顾乃杰 +1 位作者 苏俊杰 贺爱香 《计算机应用与软件》 北大核心 2018年第9期138-143,共6页
随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具... 随着人们对移动设备图像视觉的追求日益提高,Android设备的图像处理速度难以满足移动客户端海量应用的性能需求。分析并研究ARM架构硬件特性,使用Cortex-A系列支持的SIMD数据级并行计算技术NEON对OpenCV函数库中的滤波函数进行优化。具体介绍中值滤波的优化过程,且在Cortex-A72开发板上进行充分的测试。实验结果表明,中值滤波函数优化效果显著,对比OpenCV源码性能提升了17倍,图像处理模块中的其他滤波函数均有较大的性能提升。 展开更多
关键词 ARM Cortex—A NEON SIMD OPENCV 中值滤波
下载PDF
基于多尺度特征融合CNN模型的车辆精细型号识别 被引量:6
14
作者 刘廷建 顾乃杰 +1 位作者 张孝慈 林传文 《计算机工程与应用》 CSCD 北大核心 2018年第18期154-160,共7页
车辆精细型号是车辆识别的主要线索之一,也是智能交通系统的重要组成部分。针对车辆精细型号种类繁多、车辆所处环境复杂多变等因素,提出一种基于多尺度特征融合的车辆精细型号识别方法。该方法基于传统的卷积神经网络,通过提取并融合... 车辆精细型号是车辆识别的主要线索之一,也是智能交通系统的重要组成部分。针对车辆精细型号种类繁多、车辆所处环境复杂多变等因素,提出一种基于多尺度特征融合的车辆精细型号识别方法。该方法基于传统的卷积神经网络,通过提取并融合来自网络底层和高层的车辆特征,完成对车辆精细型号的识别。与其他基于卷积神经网络的车辆精细型号识别方法相比,该方法在提高分类准确率的同时还大幅度降低了整体网络的参数规模。实验结果表明,在公开数据集Comp Cars的监控场景下其识别精度达到了98.43%,且模型参数大小仅为3.93 MB,平均每张图片只需0.83 ms的分类时间。 展开更多
关键词 车辆精细型号识别 卷积神经网络 多尺度特征融合 深度学习
下载PDF
基于同余方程和改进的压扁控制流的混淆算法 被引量:2
15
作者 王岩 黄章进 顾乃杰 《计算机应用》 CSCD 北大核心 2017年第6期1803-1807,共5页
针对现有控制流混淆算法的混淆结果单一的问题,提出了一种基于同余方程和改进的压扁控制流混淆算法。首先,使用密钥和一组同余方程来生成源代码的基本块中需要使用的不透明谓词;其次,基于Logistic混沌映射提出了一种新的N态不透明谓词... 针对现有控制流混淆算法的混淆结果单一的问题,提出了一种基于同余方程和改进的压扁控制流混淆算法。首先,使用密钥和一组同余方程来生成源代码的基本块中需要使用的不透明谓词;其次,基于Logistic混沌映射提出了一种新的N态不透明谓词构造算法,并将其应用到现有的压扁控制流算法中,对现有的压扁控制流算法进行改进;最后,将上述两个对源码进行混淆的算法结合,以此来增加源代码中控制流的复杂度,使其更难被破解。与现有的基于混沌不透明谓词的压扁控制流算法相比,所提混淆算法使混淆后代码的防篡改攻击时间平均提高了22%以上,总圈复杂度平均提高了34%以上。实验结果表明,所提算法能够保证混淆后程序执行结果的正确性并且具有很高的圈复杂度,能够有效地抵抗静态攻击和动态攻击。 展开更多
关键词 代码混淆 N态不透明谓词 同余方程 压扁控制流算法
下载PDF
一种多核ARM平台下用户态定时器的实现 被引量:1
16
作者 喻诗祥 顾乃杰 +1 位作者 张旭 曹越 《计算机工程》 CAS CSCD 北大核心 2015年第1期19-23,30,共6页
在ARM平台下,系统提供的posix-timer误差较大,难以满足实时要求,而且传统的Linux用户态定时器通过系统调用及信号传递的方式向进程提供定时服务,当定时器使用规模较大时,进程会在内核态用户态间频繁切换。针对上述问题,提出并实现一种... 在ARM平台下,系统提供的posix-timer误差较大,难以满足实时要求,而且传统的Linux用户态定时器通过系统调用及信号传递的方式向进程提供定时服务,当定时器使用规模较大时,进程会在内核态用户态间频繁切换。针对上述问题,提出并实现一种基于多核ARM平台的新型用户态定时器方案。该方案采用一种新的时间轮数据结构,通过内核态与用户态共享内存等方式向进程提供服务,避免不必要的信号传递,有效地缓解频繁状态切换问题。实验结果表明,该方案保持微秒级的定时精度,定时误差相比posix-timer明显降低。 展开更多
关键词 Linux用户态 定时器 多核 ARM平台 时间轮 共享内存
下载PDF
基于ARM SVE的FFT算法向量化研究 被引量:3
17
作者 李凤娇 顾乃杰 +1 位作者 齐东升 苏俊杰 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2017-2021,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存... 快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存器和向量长度无关(Vector Length Agnostic,VLA)编程模型,具有很好的数据并行性和软件可移植性,适用于高性能计算、机器学习等领域.目前基于ARM SVE的FFT算法的研究尚未充分挖掘其架构特性和计算资源,本文针对数据规模为2的幂次的一维复数FFT,结合SVE谓词驱动的循环控制、非线性访存、复数运算等特性对算法做出了改进.实验结果表明,与FFTW库基于NEON的向量化实现相比,本算法性能有明显提升,在向量长度为1024位时,平均性能提升5.83倍,最高性能提升9.22倍. 展开更多
关键词 FFT ARM SVE SIMD汇编优化 软件性能优化
下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
18
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令字 单指令流多数据流 数字信号处理器 循环展开 并行化 多簇
下载PDF
一种基于魂芯DSP的单模式位并行串匹配算法 被引量:2
19
作者 陈瑞 顾乃杰 叶鸿 《计算机应用与软件》 北大核心 2020年第7期246-252,共7页
在多媒体技术飞速发展的今天,DSP处理器以其低功耗和高性能等特点在信号处理和图像检索领域有着重要的应用。串匹配作为信号处理和图像检索应用中的基本算法,其性能和效率也因此受到越来越多的关注。通过结合DSP处理器的分簇结构和零开... 在多媒体技术飞速发展的今天,DSP处理器以其低功耗和高性能等特点在信号处理和图像检索领域有着重要的应用。串匹配作为信号处理和图像检索应用中的基本算法,其性能和效率也因此受到越来越多的关注。通过结合DSP处理器的分簇结构和零开销循环技术,并利用字符串分段的方法提出一种基于DSP的位并行串匹配算法EPSO。该算法可有效减少条件分支语句的时钟开销和分簇执行过程中的漏配次数,加速了串匹配过程。在国产魂芯DSP的仿真结果表明:EPSO算法的匹配速度是经典Shift-Or算法的7.8倍左右,串匹配效率得到有效提升;以KMP算法为基准,英文语料下该算法的平均匹配速度是KMP算法的6.3倍左右,DNA序列下是KMP算法的10.5倍左右,相比NEW、S2BNDM算法均具有显著的性能提升。 展开更多
关键词 串匹配 移位或算法 魂芯DSP 分簇 位并行
下载PDF
面向龙芯3B体系结构的FFTW库优化 被引量:1
20
作者 王小乐 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2016年第3期622-626,共5页
龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,... 龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能. 展开更多
关键词 FFTW 龙芯3B MIPS 向量化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部