期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于多线程技术的C语言程序并行化改造 被引量:1
1
作者 王永红 《电脑知识与技术》 2024年第10期64-67,共4页
针对C语言单线程程序在多核处理器上存在的性能瓶颈、局限性和响应时间延迟问题,基于多线程技术的并行化改造显得尤为重要。该研究通过深入分析多线程技术的基础知识,包括线程的创建与管理、同步与互斥机制等,设计了一套并行化改造策略... 针对C语言单线程程序在多核处理器上存在的性能瓶颈、局限性和响应时间延迟问题,基于多线程技术的并行化改造显得尤为重要。该研究通过深入分析多线程技术的基础知识,包括线程的创建与管理、同步与互斥机制等,设计了一套并行化改造策略和任务划分方法。进而,对数据结构和算法进行并行化优化,实现了线程间的有效通信与协作。文章基于Pthreads库,详细阐述了多线程功能的分析及实现过程,并设计并实现了一个高效的多线程C语言程序。通过并行化改造,程序在多核处理器上的执行效率和响应能力得到了显著提升,验证了多线程技术在优化C语言程序性能方面的有效性和潜力。 展开更多
关键词 c语言 多线程技术 并行化改造 性能优化 Pthreads库
下载PDF
基于C++AMP的两相并行SPH流动模拟
2
作者 梁光川 郑达 +2 位作者 周军 文韵豪 何承宏 《北京石油化工学院学报》 2018年第2期61-64,70,共5页
随着多相流技术在石油工业的地位的提高,对多相流动数值模拟的要求也随之提高。传统的基于网格的数值方法如FDM和FEM处理运动交界面位置时十分困难,近些年兴起的无网格方法则善于处理该类问题。SPH是无网格方法中一种较为成熟的方法,相... 随着多相流技术在石油工业的地位的提高,对多相流动数值模拟的要求也随之提高。传统的基于网格的数值方法如FDM和FEM处理运动交界面位置时十分困难,近些年兴起的无网格方法则善于处理该类问题。SPH是无网格方法中一种较为成熟的方法,相比其他无网格数值方法,基于粒子构架的性质使得SPH法在追踪相间边界的移动变化上有天然优势。为提高程序效率和数据处理能力,对SPH两相流动模拟进行了并行化处理,并行手段为在GPU上使用C++AMP技术。GPU有利于计算流体动力学方法的并行化处理,与传统异构计算技术如CUDA和OpenCL相比,C++AMP在GPU上的并行处理无需预编译,更加简便。通过算例对串行和并行SPH两相流动模型进行了比较,结果表明,并行后的程序有显著的效率提升。 展开更多
关键词 光滑粒子流体动力学方法(SPH) 两相流模拟 并行模型 c++amp
下载PDF
基于C++AMP并行加速的三维弹性波波动方程数值模拟 被引量:2
3
作者 武泗海 赵虎 +1 位作者 尹成 贾鹏 《物探化探计算技术》 CAS CSCD 2017年第5期643-648,共6页
在地震勘探方面,地震数值模拟技术在地球物理反演及观测系统设计领域有着广泛地应用。这里主要提出并实现了利用C++AMP并行加速内存/计算密集型的三维弹性波的正演模拟,使用C++AMP编写的代码可以有效地在图形处理器(GPU)等支持数据并行... 在地震勘探方面,地震数值模拟技术在地球物理反演及观测系统设计领域有着广泛地应用。这里主要提出并实现了利用C++AMP并行加速内存/计算密集型的三维弹性波的正演模拟,使用C++AMP编写的代码可以有效地在图形处理器(GPU)等支持数据并行的硬件上运行。在重点研究C++AMP三维弹性波数值模拟的并行算法实现的基础上,结合CPU串行及CPU多核并行进行加速对比,三维盐丘实验的结果说明,利用GPU的强大并行计算能力的C++AMP,可以极大地提高数值模拟的效率。此外,C++AMP在Windows平台具有良好的可移植性,同时兼容NVIDA和AMD的设备,极大地提升了开发效率。 展开更多
关键词 c++amp GPU并行计算 三维弹性波 正演
下载PDF
基于TMS320C55X的G.729语音压缩算法全汇编优化 被引量:1
4
作者 陈德宏 林加龙 胡兴柳 《安徽工业大学学报(自然科学版)》 CAS 2013年第4期435-439,共5页
G.729语音压缩算法的源代码存在运算量大、在DSP上实现效率低等缺点。为加强其在低功耗便携式设备上的应用,结合C55X平台和G.729算法特点,采用合理的全汇编实现方案,开发1款高度优化的G.729全汇编代码,并给出并行指令优化和指令流水线... G.729语音压缩算法的源代码存在运算量大、在DSP上实现效率低等缺点。为加强其在低功耗便携式设备上的应用,结合C55X平台和G.729算法特点,采用合理的全汇编实现方案,开发1款高度优化的G.729全汇编代码,并给出并行指令优化和指令流水线延迟优化2种汇编代码优化方法及存储空间的优化思路。在TMS320VC5505 EVM上完成全汇编代码的测试和实时实现。测试结果显示代码运算量从1 259.9(mega cycles)/s降为25.3(mega cycles)/s,利用软件工具测得语音质量的MOS得分在3.87左右。 展开更多
关键词 全汇编实现 G 729 TMS320c55X 并行指令优化 流水线优化
下载PDF
基于C674x-DSP的视频图像实时透雾优化 被引量:1
5
作者 路锦正 董川 《自动化仪表》 CAS 2019年第12期80-84,90,共6页
针对传统的暗通道先验算法的视频图像透雾非实时处理问题,研究了面向TI公司C674x-DSP内核的视频图像实时透雾方法。在算法优化中,用均值滤波代替透雾处理中计算复杂的导向滤波,在滤波效果可接受的同时显著降低计算量,以便用数字信号处理... 针对传统的暗通道先验算法的视频图像透雾非实时处理问题,研究了面向TI公司C674x-DSP内核的视频图像实时透雾方法。在算法优化中,用均值滤波代替透雾处理中计算复杂的导向滤波,在滤波效果可接受的同时显著降低计算量,以便用数字信号处理器(DSP)实时实现。在平台优化中,建立了系统级和模块级的两级优化策略。在协同优化中,DSP下的倒数和乘法实现除法运算;修改后的模板操作由DSP下的快速移位操作来替代。试验结果表明,提出的优化方法对浓雾图像透雾效果更佳,处理速度平均提高了50多倍,取得了面向C674x-DSP内核的视频图码阵列(VGA)(640×480)分辨率图像实时透雾。该研究为基于DSP视频图像实时透雾算法优化和工程实现提供了有益借鉴。 展开更多
关键词 c674x-DSP 软件流水 并行处理 优化策略 图像透雾 暗通道先验 均值滤波 实时处理
下载PDF
LS SIMD C编译器的数据通信优化算法
6
作者 王晖 何华灿 +2 位作者 陈丹 胡麒 张宝稳 《计算机科学》 CSCD 北大核心 2001年第9期116-118,115,共4页
LS SIMD is an embedded memory-shared massively parallel machine. In this paper,we present a deep study of data communication optimizations techniques of LS SIMD parallel compiler. First,some conceptions of data layout... LS SIMD is an embedded memory-shared massively parallel machine. In this paper,we present a deep study of data communication optimizations techniques of LS SIMD parallel compiler. First,some conceptions of data layout and data communication are given,and the data communication principle of LS SIMD is analyzed. Second,we propose an optimization algorithm of data communication,and discuss some aspects in detail ,such as the representation of register state space ,decision and generation of inner data communication and batch data communication in PE array. 展开更多
关键词 数据通信 优化算法 c语言 编译器 并行程序
下载PDF
TMS320C6416的软件编程优化
7
作者 曾志斌 周子琛 申振宁 《单片机与嵌入式系统应用》 2005年第1期67-69,共3页
关键词 TMS320c6416 芯片 软件编程 TI公司 并行 指令 高频率 MIPS 优化 处理能力
下载PDF
伪深度域交错网格逆时偏移成像方法及并行优化
8
作者 金宗玮 黄金强 +2 位作者 王甘露 夏鹏 牟雨亮 《石油地球物理勘探》 EI CSCD 北大核心 2020年第4期782-792,701,共12页
基于声波方程的逆时偏移作为现阶段最主要成像手段之一,主要受限于计算机运算速度及内存占用。为减少模型网格数以提高计算效率和减少计算存储占用量,将曲坐标变换引入到正演及逆时偏移中,推导了伪深度域一阶声波方程及其离散形式,并给... 基于声波方程的逆时偏移作为现阶段最主要成像手段之一,主要受限于计算机运算速度及内存占用。为减少模型网格数以提高计算效率和减少计算存储占用量,将曲坐标变换引入到正演及逆时偏移中,推导了伪深度域一阶声波方程及其离散形式,并给出了对应带PML吸收边界的离散方程。进一步,通过C++AMP并行架构实现了相应正演及逆时偏移算法优化,在减少内存占用的基础上还极大地提升了计算效率。最后,通过模型试算验证了算法及并行架构的正确性及高效性。 展开更多
关键词 逆时偏移 伪深度域 c++amp并行优化 交错网格
下载PDF
C语言程序中循环结构的性能优化 被引量:3
9
作者 王舒心 贺细平 《电脑与信息技术》 2019年第5期67-69,共3页
循环结构是C语言程序的基本结构之一。程序运行时,在循环中的时间开销往往占据了总时间开销的大部分。利用C语言程序编译后的存储特性和处理器的局部性原理,适当地调整程序中循环结构的代码,充分释放处理器的潜力,可以大大提高程序的执... 循环结构是C语言程序的基本结构之一。程序运行时,在循环中的时间开销往往占据了总时间开销的大部分。利用C语言程序编译后的存储特性和处理器的局部性原理,适当地调整程序中循环结构的代码,充分释放处理器的潜力,可以大大提高程序的执行效率。文章的对比实验验证以上结论。 展开更多
关键词 c语言 循环结构优化 缓存 并行
下载PDF
基于C++AMP的计算机图像视频处理 被引量:1
10
作者 苏锦 马明栋 《计算机技术与发展》 2018年第5期182-186,共5页
随着计算机并行计算技术的快速发展,需要处理的数据量越来越大,提升并行计算的能力成为亟待解决的一个问题。在计算机图像处理的过程中,每一个环节可能都需要大量的计算,提出的C++AMP并行运算可以很好地提高计算机的处理效率。例如在视... 随着计算机并行计算技术的快速发展,需要处理的数据量越来越大,提升并行计算的能力成为亟待解决的一个问题。在计算机图像处理的过程中,每一个环节可能都需要大量的计算,提出的C++AMP并行运算可以很好地提高计算机的处理效率。例如在视频监控内容处理时,为了获取到更加清楚的图像信息,通常会将图像放大,然而当图像放大后经常会看到边缘信息不清晰,图像异常模糊。能够获取一个清晰的图像边缘,对于信息的获取就非常重要了。对于视频监控图像模糊难以辨别的情况,提出了基于C++AMP的改进Canny算子的图像边缘信息处理方法。首先介绍了C++AMP的概念,以及现行的Canny算子处理方法,针对现行的Canny算子进行优化,并且对C++AMP并行化实现改进的Canny算子进行研究。然后采用改进梯度幅值的方法对Canny算子进行优化,通过对串行处理和改进Canny算子的并行化处理对比,可以看出并行运算的优势,图像越大,优势越明显,图像越清晰,边缘更多、更加明显,运算的时间也更快。 展开更多
关键词 计算机图像视频处理 c++amp cANNY边缘检测 并行运算
下载PDF
基于TMS320C6416的JPEG编码器优化实现
11
作者 王国树 聂友伟 +2 位作者 胡友鹏 秦先全 林嘉宇 《微处理机》 2014年第4期78-82,共5页
结合TI公司TMS320C6416的结构和特点,在分析JPEG编码器结构特点的基础上,阐述了在实现JPEG编码中对算法的软件并行优化实现所做的工作,并在工程中用汇编语言实现了JPEG编码器。在主频为600MHz的TMS320C6416 DSP上处理4008×2672大... 结合TI公司TMS320C6416的结构和特点,在分析JPEG编码器结构特点的基础上,阐述了在实现JPEG编码中对算法的软件并行优化实现所做的工作,并在工程中用汇编语言实现了JPEG编码器。在主频为600MHz的TMS320C6416 DSP上处理4008×2672大小的图像数据,在满足一定编码图像质量的前提下,编码器编码速度达到2帧/秒。 展开更多
关键词 TMS320c6416 JPEG标准 并行 优化 超长指令字
下载PDF
基于多核处理器的文本并行搜索技术研究 被引量:1
12
作者 王文奇 徐香义 《中原工学院学报》 CAS 2014年第6期64-68,共5页
计算机大容量硬盘及大数据的海量内容导致硬盘存储的信息越来越多,这给数据挖掘、敏感信息发现等技术提出了新的挑战。针对这一问题,本文基于当前计算机普遍采用的多核CPU处理技术,研究分析了文本分割技术,对C++AMP异构并行编程模型和... 计算机大容量硬盘及大数据的海量内容导致硬盘存储的信息越来越多,这给数据挖掘、敏感信息发现等技术提出了新的挑战。针对这一问题,本文基于当前计算机普遍采用的多核CPU处理技术,研究分析了文本分割技术,对C++AMP异构并行编程模型和多线程并行编程模型进行了分析比较,提出了一种基于多核处理器的并行搜索技术,以达到提高文本匹配搜索速度的目的。 展开更多
关键词 多核处理器 并行搜索 文本分割 c++amp
下载PDF
基于GPU的北斗B1C信号快速捕获技术
13
作者 张武迅 何迪 陈新 《信息技术》 2019年第4期11-15,共5页
捕获灵敏度和实时性是衡量软件接收机基带信号处理性能的关键指标,然而这两个指标之间却存在着此消彼长的关系。文中提出了一种基于CPU和GPU异构计算平台的北斗B1C信号快速捕获方法,可以较好地平衡捕获灵敏度和实时性能之间的矛盾。通... 捕获灵敏度和实时性是衡量软件接收机基带信号处理性能的关键指标,然而这两个指标之间却存在着此消彼长的关系。文中提出了一种基于CPU和GPU异构计算平台的北斗B1C信号快速捕获方法,可以较好地平衡捕获灵敏度和实时性能之间的矛盾。通过分析B1C信号捕获模块的各个部分访存量和计算量,该方法可以针对性地对计算和带宽资源消耗较大的部分进行GPU并行优化。复杂的逻辑判断和状态转换依靠CPU实现,而大量的彼此之间独立的数据计算则依赖于GPU实现。与CPU实现的软件接收机相比,文中的实现不仅在捕获总耗时上大幅度减少,而且在捕获灵敏度上也比捕获传统的B1I信号提高了将近8个d B。 展开更多
关键词 基带信号处理 B1c信号 捕获灵敏度 GPU 并行优化
下载PDF
DPO3000数字荧光示波器优化嵌入式系统串行总线调试
14
作者 孙丽君 《世界电子元器件》 2008年第5期89-89,共1页
如今嵌入式系统设计正越来越多地用串行总线代替内部并行总线,如I^2C、SPI和CAM。在串行总线上,一个信号可以包括地址、控制、数据和时钟信息。串行总线虽然具有优于并行总线的优势,但其复杂性给设计工程师在调试上带来了重大挑战。... 如今嵌入式系统设计正越来越多地用串行总线代替内部并行总线,如I^2C、SPI和CAM。在串行总线上,一个信号可以包括地址、控制、数据和时钟信息。串行总线虽然具有优于并行总线的优势,但其复杂性给设计工程师在调试上带来了重大挑战。为高效率解决嵌入式系统设计问题,泰克最近推出的DP03000数字荧光示波器系列为行业标准串行总线如I^2C、 展开更多
关键词 嵌入式系统设计 数字荧光示波器 串行总线 调试 优化 并行总线 I^2c 设计工程师
下载PDF
基于异构计算的无人机影像畸变差改正研究 被引量:1
15
作者 李丽敏 宋云山 《测绘》 2015年第5期224-227,共4页
低空无人机航空摄影是获取灾区影像的最为方便、快捷的手段。影像畸变差改正,是进行无人机影像预处理的重要步骤。本文提出了一种基于C++AMP的并行影像畸变差改正算法,能够提高无人机影像畸变差改正的速度;并通过与基于CPU的串行(并行)... 低空无人机航空摄影是获取灾区影像的最为方便、快捷的手段。影像畸变差改正,是进行无人机影像预处理的重要步骤。本文提出了一种基于C++AMP的并行影像畸变差改正算法,能够提高无人机影像畸变差改正的速度;并通过与基于CPU的串行(并行)影像畸变差改正算法进行对比分析,总结出适用于无人机影像畸变差改正的任务调度策略。 展开更多
关键词 c++amp GPU 畸变差改正 并行计算 PPL
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部