期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于CPU与GPU的异构模板计算优化研究 被引量:2
1
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
面向二进制移植的虚拟化技术 被引量:5
2
作者 黄聪会 陈靖 +2 位作者 罗樵 张黎 郭一辰 《计算机应用研究》 CSCD 北大核心 2012年第11期4185-4188,共4页
从ISA和ABI两种不同层次出发,探讨了当前二进制移植存在的问题,分析了其对应解决方法的优劣,明确了虚拟化技术是实现二进制移植的重要手段。研究了支持ISA或ABI间二进制移植中的三种虚拟化方法,即解释和二进制翻译、资源虚拟化、内核虚... 从ISA和ABI两种不同层次出发,探讨了当前二进制移植存在的问题,分析了其对应解决方法的优劣,明确了虚拟化技术是实现二进制移植的重要手段。研究了支持ISA或ABI间二进制移植中的三种虚拟化方法,即解释和二进制翻译、资源虚拟化、内核虚拟化。提出了一种结合动态二进制优化技术的高效进程虚拟机Long-Win,其支持Windows应用程序在Linux操作系统上运行,实验结果表明,其性能与Wine相比提高了6%~10%。 展开更多
关键词 软件移植 进程虚拟机 虚拟化 指令集体系结构 应用程序二进制接口
下载PDF
基于TMS320C6201的并行高速实时数字脉冲压缩系统研究 被引量:8
3
作者 李方慧 龙腾 毛二可 《电子学报》 EI CAS CSCD 北大核心 2001年第9期1272-1275,共4页
线性调频脉冲是最经典的大时宽-带宽积信号形式,但是这种信号的数字处理需要极大的处理量.本文研制了一个基于TMS320C6201的高速实时数字脉冲压缩系统,具有1600MIPS处理能力.针对TMS320C6201的特点... 线性调频脉冲是最经典的大时宽-带宽积信号形式,但是这种信号的数字处理需要极大的处理量.本文研制了一个基于TMS320C6201的高速实时数字脉冲压缩系统,具有1600MIPS处理能力.针对TMS320C6201的特点,提出了在VLIW体系结构下,提高FFT并行运算效率的方法,从而使系统完成512点数字脉冲压缩的时间仅为124us,基本达到TMS320C6201的性能极限.针对系统定点运算的问题,提出了定点FFT的改进算法,可以兼顾运算速度和精度的要求;对所提出的定点算法的误差进行了理论分析,并在实际的系统中验证了理论分析的结果.研究并解决了系统实现中高速电路等关键技术问题.目前,该系统已成功应用于某雷达系统中,长期工作稳定可靠. 展开更多
关键词 数字信号处理 线性调频 数字脉冲压缩 TMS320C6201 雷达
下载PDF
发展专长教学论——克拉克论教学结构与认知过程之匹配 被引量:3
4
作者 王文智 盛群力 《远程教育杂志》 CSSCI 2009年第6期27-35,共9页
组织和开展教学的途径主要可以分为接受式、直导式、指导发现式和探究式四种结构。它们反映了吸收、行为和认知三种不同的学习模式。每种教学结构都有其适用的范围,尤其必须考虑学习者的原有经验以及学习任务的迁移类型。应依据学习活... 组织和开展教学的途径主要可以分为接受式、直导式、指导发现式和探究式四种结构。它们反映了吸收、行为和认知三种不同的学习模式。每种教学结构都有其适用的范围,尤其必须考虑学习者的原有经验以及学习任务的迁移类型。应依据学习活动中主要的认知过程特点来提出相应的教学原则——认知减负、集中注意、利用旧知、心智建模、实现迁移、自我监控和认知激励等,同时考虑各项教学原则与四种教学结构间的动态关系,以此达到教学与培训为发展专长服务之目的。 展开更多
关键词 发展专长 教学结构 认知过程 教学原则
下载PDF
高性能微处理器设计技术 被引量:2
5
作者 康宝祥 栾贵兴 《小型微型计算机系统》 CSCD 北大核心 1994年第10期1-10,共10页
最近几年,微处理器设计技术迅速发展,高性能微处理器已经成为当代各类计算机系统的主要支柱。本文首先简要回顾微处理器的发展过程,然后着重介绍微处理器的设计技术,接着概述微处理器的应用,最后介绍国内情况并提出几点看法。
关键词 体系结构 微处理器 设计
下载PDF
基于CUDA的细粒度并行计算模型研究 被引量:1
6
作者 肖汉 肖波 +1 位作者 冯娜 杨锦锦 《计算机与数字工程》 2013年第5期801-804,共4页
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻。但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后。Nvidia在GeForce 8系列显卡上推出的统一计算设备... 作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻。但随着具备细粒度并行计算能力的图形处理器(GPU)进入主流市场,与之相适应的编程模型发展却相对滞后。Nvidia在GeForce 8系列显卡上推出的统一计算设备架构(CUDA)技术,使得通用计算图形处理单元(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。论文从特性、组成和并行架构等几个方面对CUDA并行计算模型进行了研究,充分表明基于GPU进行高性能并行计算,是适应目前大规模计算需求的一个重要发展途径。 展开更多
关键词 图形处理器 图形处理器的通用计算 统一计算设备架构 细粒度并行计算 单指令多数据
下载PDF
一种仿真试验体系结构下的进程控制组件开发
7
作者 蒋涛 芮力 《舰船电子工程》 2013年第11期137-140,共4页
进程控制组件主要提供给用户设计、执行和控制试验进程的功能。通过对试验场各种试验资源操控指令进行分析,抽象出一组公共的控制指令类型,并针对这些类型开发操控函数。用户根据具体试验任务利用抽象出的控制指令类型开发面向试验任务... 进程控制组件主要提供给用户设计、执行和控制试验进程的功能。通过对试验场各种试验资源操控指令进行分析,抽象出一组公共的控制指令类型,并针对这些类型开发操控函数。用户根据具体试验任务利用抽象出的控制指令类型开发面向试验任务的试验指令,然后根据所开发的试验指令和实际试验任务运行流程开发试验流程,从而可以实现用户执行试验流程控制整个试验进程的目的。通过在某种仿真试验体系结构中进行测试,证明该进程控制组件可以满足仿真试验需求。 展开更多
关键词 进程控制 仿真试验体系结构 指令
下载PDF
基于多核ARM体系结构的基础函数优化方法 被引量:5
8
作者 贺爱香 顾乃杰 苏俊杰 《计算机工程》 CAS CSCD 北大核心 2018年第5期47-52,59,共7页
为充分利用嵌入式多核ARM微处理器体积小、功耗低、成本低、性能高的优点,以此提高程序响应速度,研究ARM体系结构及基于该体系结构基础函数的优化问题。基于ARM Cortex-A72平台,结合ARM v8体系结构特点,对Bionic库中字符串和内存处理函... 为充分利用嵌入式多核ARM微处理器体积小、功耗低、成本低、性能高的优点,以此提高程序响应速度,研究ARM体系结构及基于该体系结构基础函数的优化问题。基于ARM Cortex-A72平台,结合ARM v8体系结构特点,对Bionic库中字符串和内存处理函数进行分析。实验结果表明,采用整字处理、循环展开、特殊指令等技术进行程序级优化后,Bionic库中常用基础函数的性能在ARM Cortex-A72平台上均有不同程度的提升。 展开更多
关键词 多核ARM 体系结构 整字处理 循环展开 特殊指令
下载PDF
KSJ-2850机宏指令处理方案的设计与实现
9
作者 苗永成 康宝祥 徐利 《小型微型计算机系统》 CSCD 北大核心 1994年第7期1-8,共8页
KSJ-2850是我国第一台自主研制CPU的、在体系结构级与VAX系列兼容的计算机。它在系统设计上的重要技术成果之一是实现了高效率的宏指令处理方案。这一方案的实施对提高CPU速度起到了重要作用。本文即介绍它的设计思想... KSJ-2850是我国第一台自主研制CPU的、在体系结构级与VAX系列兼容的计算机。它在系统设计上的重要技术成果之一是实现了高效率的宏指令处理方案。这一方案的实施对提高CPU速度起到了重要作用。本文即介绍它的设计思想和实现方法。 展开更多
关键词 计算机 宏指令处理 系统设计
下载PDF
数据并行计算机体系结构研究
10
作者 王鹏飞 张发存 段敬红 《计算机工程》 CAS CSCD 北大核心 2011年第15期249-251,共3页
通过对国内外并行计算机体系结构的分析与研究,提出一种面向多媒体应用的嵌入式数据并行计算机体系结构模型,将可重构总线与PIM技术相结合,弥补传统PIM体系结构下处理元之间通信复杂度高、结构可适应性弱等不足。描述其主要部件的功能... 通过对国内外并行计算机体系结构的分析与研究,提出一种面向多媒体应用的嵌入式数据并行计算机体系结构模型,将可重构总线与PIM技术相结合,弥补传统PIM体系结构下处理元之间通信复杂度高、结构可适应性弱等不足。描述其主要部件的功能和结构,定义该体系结构计算机的指令集,通过一个典型的算法样例介绍其汇编语言程序组成和并行计算过程。 展开更多
关键词 PIM技术 数据并行体系结构 可重构总线 处理元阵列 指令集体系结构
下载PDF
一款可编程语音处理器的设计与应用
11
作者 韩大晗 崔慧娟 +1 位作者 唐昆 刘大力 《计算机工程》 CAS CSCD 北大核心 2007年第12期251-252,255,共3页
为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。该文基于SELP(Sinusoidal Excitation Linear Prediction)算法模型原理,设计了一款高质量多速率语音专用处理器芯片。芯片使用可重构体系结构和超长指令字系统设计方... 为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。该文基于SELP(Sinusoidal Excitation Linear Prediction)算法模型原理,设计了一款高质量多速率语音专用处理器芯片。芯片使用可重构体系结构和超长指令字系统设计方法,将复杂度高的子程序进行优化,能够显著提高指令并行度。仿真结果表明:在该芯片上实现语音压缩编码算法,执行效率高于相同工艺水平的通用数字信号处理器,并保持原有编码质量。该处理器能够实现多种类型的语音压缩算法,使语音算法可以达到高保密性、低复杂度和易开发性。 展开更多
关键词 语音信号处理 语音压缩 专用芯片 可重构体系结构 超长指令字
下载PDF
由X86构架到ARM构架的应用移植流程平台研究
12
作者 冷迪 陈瑞 李英 《电子设计工程》 2022年第12期176-179,184,共5页
单独使用X86架构、ARM架构空间占用不合理,导致平台存储的重复信息较多。针对该问题,提出了由X86构架到ARM构架的应用移植流程平台研究。根据应用移植流程平台结构,设计平台设备驱动。通过LCD控制器结构接收参数指令。调整电路,满足不... 单独使用X86架构、ARM架构空间占用不合理,导致平台存储的重复信息较多。针对该问题,提出了由X86构架到ARM构架的应用移植流程平台研究。根据应用移植流程平台结构,设计平台设备驱动。通过LCD控制器结构接收参数指令。调整电路,满足不同时间的工作要求。设计Apache服务器结构,解析客户端连接请求,并共享缓冲区管理信息。依赖CPU代码,将引导程序复制到引导迁移设备上,设置堆栈读取ARM空间,调用内核,由此设计引导程序移植工作流程。配置管理界面,验证用户身份,完成平台设计。由实验结果可知,该平台存储空间分区结果与实际需求一致,最高重复信息剔除效率为99%,移植效果较好。 展开更多
关键词 X86构架 ARM构架 应用移植流程平台 参数指令
下载PDF
Micro-Task Processing in Heterogeneous Reconfigurable Systems
13
作者 Sebastian Wallner 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第5期624-634,共11页
New reconfigurable computing architectures are introduced to overcome some of the limitations of conventional microprocessors and fine-grained reconfigurable devices (e.g., FPGAs). One of the new promising architect... New reconfigurable computing architectures are introduced to overcome some of the limitations of conventional microprocessors and fine-grained reconfigurable devices (e.g., FPGAs). One of the new promising architectures axe Configurable System-on-Chip (CSoC) solutions. They were designed to offer high computational performance for real-time signal processing and for a wide range of applications exhibiting high degrees of parallelism. The programming of such systems is an inherently challenging problem due to the lack of an programming model. This paper describes a novel heterogeneous system architecture for signal processing and data streaming applications. It offers high computational performance and a high degree of flexibility and adaptability by employing a micro Task Controller (mTC) unit in conjunction with programmable and configurable hardware. The hierarchically organized architecture provides a programming model, allows an efficient mapping of applications and is shown to be easy scalable to future VLSI technologies. Several mappings of commonly used digital signal processing algorithms for future telecommunication and multimedia systems and implementation results axe given for a standard-cell ASIC design realization in 0.18 micron 6-layer UMC CMOS technology. 展开更多
关键词 SYSTEM-ON-CHIP reconfigurable heterogeneous architectures configuration instructions DESCRIPTORS parallel processing system signal processing
原文传递
基于多GPU的Harris角点检测并行算法 被引量:13
14
作者 肖汉 周清雷 张祖勋 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2012年第7期876-881,共6页
提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共... 提出了一种基于多图形处理器(graphic processing unit,GPU)设计思想的Harris角点检测并行算法,使用众多线程将计算中耗时的影像高斯卷积平滑滤波部分改造成单指令多线程(single instruction multi-ple thread,SIMT)模式,并采用GPU中共享存储器、常数存储器和锁页内存机制在统一计算设备架构(com-pute unified device archetecture,CUDA)上完成影像角点检测的全过程。实验结果表明,基于多GPU的Har-ris角点检测并行算法比CPU上的串行算法可获得最高达60倍的加速比,其执行效率明显提高,对于大规模数据处理呈现出良好的实时处理能力。 展开更多
关键词 图形处理器 统一计算设备架构 单指令多线程 角点检测 HARRIS算子
原文传递
可编程语音压缩专用处理器设计 被引量:1
15
作者 韩大晗 崔慧娟 +1 位作者 唐昆 刘大力 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第1期76-79,共4页
为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。基于正弦激励线性预测(SELP)算法模型,设计了一款多速率语音专用处理器。芯片使用可重构体系结构和超长指令字(VLIW),优化了高复杂度函数。仿真结果表明:该处理器对0.... 为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。基于正弦激励线性预测(SELP)算法模型,设计了一款多速率语音专用处理器。芯片使用可重构体系结构和超长指令字(VLIW),优化了高复杂度函数。仿真结果表明:该处理器对0.6kb/s速率SELP算法的执行效率明显优于通用数字信号处理器(DSP)。处理器内部程序数据外部不可见,指令并行度显著提高,常用函数可被修改,从而达到高保密性、低复杂度、易开发性。 展开更多
关键词 语音信号处理 语音压缩 专用芯片 可重构体系结构 超长指令字
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部