期刊文献+
共找到239篇文章
< 1 2 12 >
每页显示 20 50 100
New multi-DSP parallel computing architecture for real-time image processing 被引量:4
1
作者 Hu Junhong Zhang Tianxu Jiang Haoyang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2006年第4期883-889,共7页
The flexibility of traditional image processing system is limited because those system are designed for specific applications. In this paper, a new TMS320C64x-based multi-DSP parallel computing architecture is present... The flexibility of traditional image processing system is limited because those system are designed for specific applications. In this paper, a new TMS320C64x-based multi-DSP parallel computing architecture is presented. It has many promising characteristics such as powerful computing capability, broad I/O bandwidth, topology flexibility, and expansibility. The parallel system performance is evaluated by practical experiment. 展开更多
关键词 parallel computing image processing REAL-TIME computer architecture
下载PDF
On the Communication-Efficiency of Parallel Systems 被引量:1
2
作者 Lin Hong Chen Guoliang Wang Min(Department of Computer Science, USTC, Hefei, Anhui, PRC Department of Electronic Engineering and information Scisnce, USTC, Hefei, Anhui, PRC) 《Wuhan University Journal of Natural Sciences》 CAS 1996年第Z1期325-328,共4页
This peper defines the communication-efficiency, which is directly related to the cost-efficiency, and Studies the relationship between the communication-efficiency and the processor-efficiency when they are applied t... This peper defines the communication-efficiency, which is directly related to the cost-efficiency, and Studies the relationship between the communication-efficiency and the processor-efficiency when they are applied to scalability analysis. An example of algorithms is given to analyze some typical architectures. 展开更多
关键词 parallel processing ALGORITHM architecture EFFICIENCY SCALABILITY
下载PDF
Compute Unified Device Architecture Implementation of Euler/Navier-Stokes Solver on Graphics Processing Unit Desktop Platform for 2-D Compressible Flows
3
作者 Zhang Jiale Chen Hongquan 《Transactions of Nanjing University of Aeronautics and Astronautics》 EI CSCD 2016年第5期536-545,共10页
Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/N... Personal desktop platform with teraflops peak performance of thousands of cores is realized at the price of conventional workstations using the programmable graphics processing units(GPUs).A GPU-based parallel Euler/Navier-Stokes solver is developed for 2-D compressible flows by using NVIDIA′s Compute Unified Device Architecture(CUDA)programming model in CUDA Fortran programming language.The techniques of implementation of CUDA kernels,double-layered thread hierarchy and variety memory hierarchy are presented to form the GPU-based algorithm of Euler/Navier-Stokes equations.The resulting parallel solver is validated by a set of typical test flow cases.The numerical results show that dozens of times speedup relative to a serial CPU implementation can be achieved using a single GPU desktop platform,which demonstrates that a GPU desktop can serve as a costeffective parallel computing platform to accelerate computational fluid dynamics(CFD)simulations substantially. 展开更多
关键词 graphics processing unit(GPU) GPU parallel computing compute unified device architecture(CUDA)Fortran finite volume method(FVM) acceleration
下载PDF
Locality Aware Optimal Task Scheduling Algorithm for TriBA —— A Novel Scalable Architecture
4
作者 KHAN Haroon-Ur-Rashid 石峰 《Journal of Beijing Institute of Technology》 EI CAS 2008年第3期294-299,共6页
An optimal algorithmic approach to task scheduling for, triplet based architecture(TriBA), is proposed in this paper. TriBA is considered to be a high performance, distributed parallel computing architecture. TriBA ... An optimal algorithmic approach to task scheduling for, triplet based architecture(TriBA), is proposed in this paper. TriBA is considered to be a high performance, distributed parallel computing architecture. TriBA consists of a 2D grid of small, programmable processing units, each physically connected to its three neighbors. In parallel or distributed environment an efficient assignment of tasks to the processing elements is imperative to achieve fast job turnaround time. Moreover, the sojourn time experienced by each individual job should be minimized. The arriving jobs are comprised of parallel applications, each consisting of multiple-independent tasks that must be instantaneously assigned to processor queues, as they arrive. The processors independently and concurrently service these tasks. The key scheduling issues is, when some queue backlogs are small, an incoming job should first spread its tasks to those lightly loaded queues in order to take advantage of the parallel processing gain. Our algorithmic approach achieves optimality in task scheduling by assigning consecutive tasks to a triplet of processors exploiting locality in tasks. The experimental results show that tasks allocation to triplets of processing elements is efficient and optimal. Comparison to well accepted interconnection strategy, 2D mesh, is shown to prove the effectiveness of our algorithmic approach for TriBA. Finally we conclude that TriBA can be an efficient interconnection strategy for computations intensive applications, if tasks assignment is carried out optimally using algorithmic approach. 展开更多
关键词 multiprocessor architecture task scheduling MAPPING parallel processing SPEEDUP
下载PDF
基于图形处理器的水下目标传递函数多频点处理方法
5
作者 钱浩然 王斌 《舰船科学技术》 北大核心 2024年第14期153-157,共5页
为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽... 为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽带内的散射声场,从而显著提高了计算效率。本文以潜航器模型为算例,对不同网格数量下模型的目标散射传递函数计算速度进行对比分析。仿真结果表明,相较于传统的CPU串行计算,采用CUDA快速算法能够实现超过80的加速比,有效提高了计算速度。 展开更多
关键词 板块元方法 图像处理器 计算统一设备架构 并行计算
下载PDF
Optimized parallel architecture of evolutionary neural network for mass spectrometry data processing
6
作者 Amin Jarrah Bashar Haddad +1 位作者 Mohammad A.Al-Jarrah Muhammad Bassam Obeidat 《International Journal of Modeling, Simulation, and Scientific Computing》 EI 2017年第1期231-257,共27页
Evolutionary neural network(ENN)shows high performance in function optimization and in finding approximately global optima from searching large and complex spaces.It is one of the most efficient and adaptive optimizat... Evolutionary neural network(ENN)shows high performance in function optimization and in finding approximately global optima from searching large and complex spaces.It is one of the most efficient and adaptive optimization techniques used widely to provide candidate solutions that lead to the fitness of the problem.ENN has the extraordinary ability to search the global and learning the approximate optimal solution regardless of the gradient information of the error functions.However,ENN requires high computation and processing which requires parallel processing platforms such as field programmable gate arrays(FPGAs)and graphic processing units(GPUs)to achieve a good performance.This work involves different new implementations of ENN by exploring and adopting different techniques and opportunities for parallel processing.Different versions of ENN algorithm have also been implemented and parallelized on FPGAs platform for low latency by exploiting the parallelism and pipelining approaches.Real data form mass spectrometry data(MSD)application was tested to examine and verify our implementations.This is a very important and extensive computation application which needs to search and find the optimal features(peaks)in MSD in order to distinguish cancer patients from control patients.ENN algorithm is also implemented and parallelized on single core and GPU platforms for comparison purposes.The computation time of our optimized algorithm on FPGA and GPU has been improved by a factor of 6.75 and 6,respectively. 展开更多
关键词 Genetic algorithm neural networks evolutionary neural network fieldprogrammable gate array(FPGA) graphic processing unit(GPU) parallel architecture optimization techniques
原文传递
基于DSP模式的计算机图像处理算法研究
7
作者 刘蓓蕾 《长江信息通信》 2024年第9期65-67,共3页
基于DSP架构模式,提出了一种CNN卷积神经网络算法,并将其运用到计算机图像处理中。研究过程中,采用DSP技术进行计算机图像获取、算法处理、算例分析和结果优化,大大提高了计算机图像算法处理质量和效率。经过算法测试验证,结果表明,基于... 基于DSP架构模式,提出了一种CNN卷积神经网络算法,并将其运用到计算机图像处理中。研究过程中,采用DSP技术进行计算机图像获取、算法处理、算例分析和结果优化,大大提高了计算机图像算法处理质量和效率。经过算法测试验证,结果表明,基于DSP数字信号处理器搭建多DSP并行处理架构模式,采用CNN卷积神经网络算法进行计算机图像处理,能够提高图像处理精度。该算法运行时的性能较高,功能低,CPU占用率不高,且DSP计算机处理系统在多DSP并行处理架构模式下进行算法分析,系统的稳健性和可靠性高,能够适应不同规模级别下的计算机图像处理数据集的处理速度、精度、资源消耗和功率要求,可为计算机图像算法处理提供准确、高效、经济的解决方案,对于计算机图像处理算法设计和优化以及应用具有较好的实用参考价值。 展开更多
关键词 DSP数字信号处理器 多DSP并行处理架构模式 CNN卷积神经网络算法 计算机图像处理方法 算法验证
下载PDF
LS MPP并行图像处理机 被引量:11
8
作者 陈朝阳 王忠 +3 位作者 沈绪榜 桑红石 赵冰茹 陈小铁 《计算机学报》 EI CSCD 北大核心 2002年第3期292-296,共5页
L S MPP是一个包含 10 2 4个处理元的细粒度并行 SIMD计算机 .为了满足低级图像处理的需要 ,以二维网格互连构成 32× 32阵列 .该文介绍 L S MPP并行处理机的系统组成、处理元结构、系统控制器、存储器组织 .并对 L S
关键词 大规模并行处理 图像处理 并行图像处理机 LSMPP 计算机
下载PDF
一种新型多DSP并行计算结构及其应用 被引量:14
9
作者 王祖斌 彭应宁 +2 位作者 王秀坛 汤俊 王希勤 《系统工程与电子技术》 EI CSCD 北大核心 2001年第3期19-22,共4页
传统的雷达信号处理系统的设计方法是针对特定应用的 ,因此系统的通用性差 ,而具有超级计算机体系结构的通用高速实时雷达信号处理系统有望解决这一问题。该系统的关键部件为担负具体计算任务的处理结点。首先提出了一种新型的、由 5片A... 传统的雷达信号处理系统的设计方法是针对特定应用的 ,因此系统的通用性差 ,而具有超级计算机体系结构的通用高速实时雷达信号处理系统有望解决这一问题。该系统的关键部件为担负具体计算任务的处理结点。首先提出了一种新型的、由 5片ADSP - 2 10 6x构成的多DSP并行计算结构。它具有运算能力强、I/O带宽大、通信手段多样、能灵活地改变拓扑结构、可扩展、通用性强等特点。并且以此并行计算结构为核心设计实现了通用高速实时雷达信号处理系统的处理结点。 展开更多
关键词 雷达 数字信号处理 计算机体系结构 并行计算结构
下载PDF
一种基于分块的遥感影像并行处理机制 被引量:15
10
作者 曾志 刘仁义 +2 位作者 李先涛 张丰 包卫正 《浙江大学学报(理学版)》 CAS CSCD 2012年第2期225-230,共6页
高性能计算的基础是集群体系下的大规模并行计算.遥感图像处理效率的提高,依赖于并行计算技术的运用.在分析了已有网格计算环境下分布式任务分配方法的基础上,针对远海遥感影像目标物数量相对较少的特点,从软件角度利用四叉树结构对目... 高性能计算的基础是集群体系下的大规模并行计算.遥感图像处理效率的提高,依赖于并行计算技术的运用.在分析了已有网格计算环境下分布式任务分配方法的基础上,针对远海遥感影像目标物数量相对较少的特点,从软件角度利用四叉树结构对目标区域进行划分,同时采用动态负载均衡的任务分配策略与并行计算的思想,提出了对影像进行并行处理的集群体系任务分配算法模型,实验表明该集群体系下任务分配模型能有效提高图像并行处理的速度. 展开更多
关键词 集群体系 并行计算 四叉树结构 影像处理
下载PDF
一种新型的实时图像处理机结构及Sobel电路设计 被引量:7
11
作者 初秀琴 曾祥永 李玉山 《仪器仪表学报》 EI CAS CSCD 北大核心 2003年第5期506-508,511,共4页
设计了基于微机 PCI总线的实时图像处理机 ,设计采用了大规模可编程器件实现处理算法 ;在结构设计上充分利用 FPGA内部 RAM资源 ,集内部缓存结构与处理结构于一体 ;体系结构上采用流水线结构。还给出了平台上 Sobel边缘检测算法的 VHDL... 设计了基于微机 PCI总线的实时图像处理机 ,设计采用了大规模可编程器件实现处理算法 ;在结构设计上充分利用 FPGA内部 RAM资源 ,集内部缓存结构与处理结构于一体 ;体系结构上采用流水线结构。还给出了平台上 Sobel边缘检测算法的 VHDL设计实现及结果。结果证明 ,该设计具有其他处理机所无法比拟的处理速度 ,并且有很大的灵活性和通用性 ,且成本低。 展开更多
关键词 实时图像处理机 PCI总线 可编程器件 图像处理 并行结构 信号处理 Sobel电路
下载PDF
气象数据检索区域查询优化及并行算法设计 被引量:8
12
作者 许婧 任开军 李小勇 《计算机科学》 CSCD 北大核心 2017年第3期42-47,共6页
随着数值天气预报水平和分辨率的不断提高,气象科学数据呈海量增长趋势,导致气象资料归档与检索系统(MARS)处理大数据服务请求的效率较低。针对此情况,开展了基于MARS检索区域查询方式的优化研究,结合数学补集思想与多路数组聚集计算原... 随着数值天气预报水平和分辨率的不断提高,气象科学数据呈海量增长趋势,导致气象资料归档与检索系统(MARS)处理大数据服务请求的效率较低。针对此情况,开展了基于MARS检索区域查询方式的优化研究,结合数学补集思想与多路数组聚集计算原理,提出了一种高效的补集转换区域查询方法(CTRQ),从而实现大范围区域查询下的"大数据"计算转换为"小数据"计算。其基本思路是通过超立方体聚集维尺寸与区域查询服务请求的属性值集合大小比较,执行"过半求补"的索引计算操作,利用二次求补实现气象场数据物理存储信息的检索。实验表明,相比原始的索引计算方法,该方法能够有效降低数据检索时元数据索引计算的系统开销。在此基础上,结合并行处理方法,设计并实现了CTRQ并行算法,相比其改进后的串行算法最大获得1.9倍加速比,进一步提高了MARS的检索效率。 展开更多
关键词 MARS 超立方体 区域查询 元数据索引计算 并行处理
下载PDF
大点数FFT的多DSPs并行处理算法及实现 被引量:9
13
作者 刘莉 高梅国 +1 位作者 周闰 王飞 《系统工程与电子技术》 EI CSCD 北大核心 2003年第10期1193-1196,共4页
在FFT变体的基础上 ,提出一种新的并行算法 :先将数据在几片DSPs上并行地进行前几级蝶型运算 ,然后将结果汇总到另一片DSPs进行后几级蝶型运算 ,以实现大点数的FFT。该算法便于流水处理 ,只有一次简单的数据通讯 ,而且旋转因子规律简单... 在FFT变体的基础上 ,提出一种新的并行算法 :先将数据在几片DSPs上并行地进行前几级蝶型运算 ,然后将结果汇总到另一片DSPs进行后几级蝶型运算 ,以实现大点数的FFT。该算法便于流水处理 ,只有一次简单的数据通讯 ,而且旋转因子规律简单易于将大点数FFT拆分成小点数FFT。应用该算法在多DSPs系统上 (5片TI公司的高速DSP芯片 :1片C6 2 0 2和 4片C6 70 1)实现 2 5 6K点复数FFT只需用 4 9ms,说明该算法有并行度高和易于实现的特点。 展开更多
关键词 多处理器结构 并行算法 信号处理
下载PDF
用COTS多处理机实现红外成像跟踪系统 被引量:8
14
作者 崔春明 王天冠 周起勃 《红外与毫米波学报》 SCIE EI CAS CSCD 北大核心 2002年第4期261-265,共5页
研究了一种基于COTS多处理器的实时红外多目标成像跟踪处理系统 ,详细描述了在COTS多处理器上实现的跟踪处理算法 ,同时给出了整个系统的软硬件框架 .这种基于编程的图像处理系统具有高效 ,灵活的特点 ,修改起来非常方便 .该系统自研制... 研究了一种基于COTS多处理器的实时红外多目标成像跟踪处理系统 ,详细描述了在COTS多处理器上实现的跟踪处理算法 ,同时给出了整个系统的软硬件框架 .这种基于编程的图像处理系统具有高效 ,灵活的特点 ,修改起来非常方便 .该系统自研制成功以来已进行了多次试验 。 展开更多
关键词 红外成像跟踪系统 COTS多处理机 图像处理 多目标跟踪 并行处理 软件体系结构
下载PDF
在构建医院PACS时应该注意的一些技术问题 被引量:6
15
作者 何清华 胡建华 +2 位作者 欧晓光 吴靓 黄志雄 《中国医疗器械杂志》 CAS 2002年第6期420-423,446,共5页
详细地论述了在构建PACS时遇到的各种各样的技术问题,针对于此,提供了多种解决方案并对比分析和比较了它们的优缺点。
关键词 图像归档及通信系统 医学图像处理 并行标准 体系结构 数据格式 数据存储 数据压缩
下载PDF
网络处理器体系结构分析 被引量:4
16
作者 王兴杰 葛敬国 +1 位作者 张道庆 钱华林 《微电子学与计算机》 CSCD 北大核心 2006年第5期89-92,96,共5页
文章在阐述网络处理器NP(NetworkProcessor)产生的技术背景的基础上,介绍了网络处理器的功能,分析了网络处理器两种不同的体系结构模型,最后从体系结构方面详细探讨了网络处理器面临的挑战并提出了一些可行的解决方案。
关键词 网络处理器 体系结构 并行处理
下载PDF
CUDA架构下的快速图像去噪 被引量:12
17
作者 李军 李艳辉 陈双平 《计算机工程与应用》 CSCD 北大核心 2009年第11期183-185,222,共4页
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器... 图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 展开更多
关键词 图形处理器 图像去噪 统一计算设备架构 并行数据处理
下载PDF
HPP:一种支持高性能和效用计算的体系结构 被引量:8
18
作者 孙凝晖 李凯 陈明宇 《计算机学报》 EI CSCD 北大核心 2008年第9期1503-1508,共6页
为了同时做到应对千万亿次高性能计算的技术挑战和满足数据中心(data center)未来的主要应用模式效用计算(utility computing)的需求,提出了一种称为HPP(Hyper Parallel Processing)的高性能计算机体系结构.HPP的主要特征是全局地址空间... 为了同时做到应对千万亿次高性能计算的技术挑战和满足数据中心(data center)未来的主要应用模式效用计算(utility computing)的需求,提出了一种称为HPP(Hyper Parallel Processing)的高性能计算机体系结构.HPP的主要特征是全局地址空间(global address space)和单一操作系统映像的超节点(hyper node).HPP结合了MPP的可扩展性,DSM的高效通信和机群的普及化的优点,为高性能计算和效用计算都提供了许多创新研究的机会.基于HPP体系结构,实现了一个曙光5000高性能计算机的原型系统,初步验证了它的可行性. 展开更多
关键词 高性能计算 效用计算 体系结构 超并行 千万亿次
下载PDF
基于CUDA的超声B模式成像 被引量:16
19
作者 夏春兰 石丹 刘东权 《计算机应用研究》 CSCD 北大核心 2011年第6期2011-2015,共5页
超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但由于从聚焦的射频信号(radio-frequency,RF)到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现... 超声B模式成像是超声成像系统中最基本的成像模式,能够为临床诊断提供器官组织的解剖信息。但由于从聚焦的射频信号(radio-frequency,RF)到B模式图像的基带处理过程中涉及大量运算,为了得到高质量的B模式图像,现有的医疗系统在实际实现过程中通常依赖于复杂的硬件,这大大加大了实现难度及成本。为此提出了一种基于NVID IA公司统一计算设备架构(compute unified device architecture,CUDA)的超声B模式成像的并行实现,利用图形处理单元(graphic processing unit,GPU)并行计算实现从RF到B模式图像过程中的卷积计算、正交解调、包络检测、数据压缩及扫描转换等处理。临床活体组织数据上的实验表明,针对由规模为191×9344的RF数据得到648×512的B模式图像,基于CUDA的并行实现与基于CPU的实现相比,在保证得到相同质量的B模式图像的前提下,速度提高了69倍。 展开更多
关键词 高性能并行计算 超声B模式成像 图形处理器 图像并行处理算法 统一计算设备架构
下载PDF
激光雷达多路距离测量系统设计 被引量:16
20
作者 张飙 周国清 +1 位作者 周祥 程小辉 《激光技术》 CAS CSCD 北大核心 2016年第4期576-581,共6页
为了实现阵列激光雷达发射单脉冲激光瞬间3维成像,解决多路激光距离测量问题,采用并行处理架构设计了25路并行距离测量系统,由4个测量单元和1个复用单元构成1个多核并行处理机。每个测量单元包含8路跨阻放大器和8路高速比较器、1片TDC-... 为了实现阵列激光雷达发射单脉冲激光瞬间3维成像,解决多路激光距离测量问题,采用并行处理架构设计了25路并行距离测量系统,由4个测量单元和1个复用单元构成1个多核并行处理机。每个测量单元包含8路跨阻放大器和8路高速比较器、1片TDC-GPX芯片和1个STM32处理器;复用单元由现场可编程门阵列实现多路测量数据打包,并通过USB2.0完成数据上传。结果表明,多路激光测距误差小于25cm;测量系统具有开放性,测量通道数易于扩展,子板可互换;并提出了按距离分段的误差校正方法,无须重复测量多次,可在单脉冲探测下直接校正测距数据。这为研制更高精度的阵列激光雷达系统奠定了一定的基础。 展开更多
关键词 激光技术 阵列激光雷达 多路激光测距 并行处理架构 TDC-GPX 距离分段误差校正
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部