期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Pthreads的车辆图像兴趣区域提取并行算法研究
1
作者 周艺华 王文东 +2 位作者 陈宏彩 王婷 张常有 《计算机科学》 CSCD 北大核心 2017年第3期36-37,69,共3页
为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,... 为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,在基本并行算法的基础上,精心设计预处理过程的分解方案,设置多队列缓冲区,减少共用缓冲区的线程数量和每个缓冲区互斥锁锁定的次数。实验证明,所提算法在双CPU 12核(支持超线程到24线程)的服务器上运行,相对于串行算法,实现了13.1x的加速比。 展开更多
关键词 车型识别 兴趣区域 并行化 pthreads 多核
下载PDF
基于Pthreads的并行DSRC压缩算法设计与实现
2
作者 詹科 张云泉 +2 位作者 王婷 郑晶晶 张鹏 《计算机科学》 CSCD 北大核心 2015年第1期90-91,100,共3页
高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthr... 高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。 展开更多
关键词 FASTQ 数据压缩 DSRC pthreads
下载PDF
基于多线程技术的C语言程序并行化改造 被引量:1
3
作者 王永红 《电脑知识与技术》 2024年第10期64-67,共4页
针对C语言单线程程序在多核处理器上存在的性能瓶颈、局限性和响应时间延迟问题,基于多线程技术的并行化改造显得尤为重要。该研究通过深入分析多线程技术的基础知识,包括线程的创建与管理、同步与互斥机制等,设计了一套并行化改造策略... 针对C语言单线程程序在多核处理器上存在的性能瓶颈、局限性和响应时间延迟问题,基于多线程技术的并行化改造显得尤为重要。该研究通过深入分析多线程技术的基础知识,包括线程的创建与管理、同步与互斥机制等,设计了一套并行化改造策略和任务划分方法。进而,对数据结构和算法进行并行化优化,实现了线程间的有效通信与协作。文章基于Pthreads库,详细阐述了多线程功能的分析及实现过程,并设计并实现了一个高效的多线程C语言程序。通过并行化改造,程序在多核处理器上的执行效率和响应能力得到了显著提升,验证了多线程技术在优化C语言程序性能方面的有效性和潜力。 展开更多
关键词 C语言 多线程技术 并行化改造 性能优化 pthreads
下载PDF
改进的并行高斯全主元消去法 被引量:7
4
作者 孙济洲 樊莉亚 +2 位作者 孙敏 于策 张绍敏 《天津大学学报》 EI CAS CSCD 北大核心 2006年第9期1115-1119,共5页
为减少Gauss全主元消法的运行时间,用多进程与多线程混合的方式对其进行了并行化,同时对该算法进行了改进.采用MPI并行I/O技术提高读取数据文件的速度,降低对内存的需求;采用标志数组避免了选主元后换行带来的通信开销;使用线程模型... 为减少Gauss全主元消法的运行时间,用多进程与多线程混合的方式对其进行了并行化,同时对该算法进行了改进.采用MPI并行I/O技术提高读取数据文件的速度,降低对内存的需求;采用标志数组避免了选主元后换行带来的通信开销;使用线程模型确定最优线程数,提高运行消去的速度;通过预先发布机制降低回代求解步骤的时间复杂度.实际运行结果表明,随着方程组阶数增大,加速比也逐渐增大,对于5000元的方程组,8进程同时运行,加速比可达6.68,并行效率稳定在0.85左右.这表明该算法具有可扩展性和稳定的并行效率,适用于大规模并行计算. 展开更多
关键词 Gauss全主元消去法 MPI pthreads 并行算法
下载PDF
多核系统的小波包并行算法及其在电力系统数据压缩中的应用 被引量:5
5
作者 鲁晓帆 刘志刚 吴峰 《电力自动化设备》 EI CSCD 北大核心 2013年第5期130-135,共6页
利用多核并行技术,使用Pthreads与OpenMP并行编程环境在单机双核平台上开发小波包并行算法。通过分析串行算法潜在并行性,基于Pthreads将小波包分解数据分组并分配给不同的线程,由线程并行处理;根据小波包重构对象不同,重构过程实现并... 利用多核并行技术,使用Pthreads与OpenMP并行编程环境在单机双核平台上开发小波包并行算法。通过分析串行算法潜在并行性,基于Pthreads将小波包分解数据分组并分配给不同的线程,由线程并行处理;根据小波包重构对象不同,重构过程实现并行处理近似重构与细节重构。基于OpenMP适当分解循环体,得出小波包嵌套与非嵌套并行算法,并将这些算法应用于电力系统海量数据压缩。与串行小波包算法的耗时比较表明,并行算法的速度可以达到接近串行算法的2倍,显著提高了小波包在电力系统应用中的计算速度及电力系统数据压缩效率。 展开更多
关键词 并行 OPENMP pthreads 小波包 数据压缩 电力系统 数据处理
下载PDF
跨平台的海量波形数据并行绘制算法 被引量:2
6
作者 桂勋 姚兰 钱清泉 《电力系统自动化》 EI CSCD 北大核心 2009年第14期56-60,共5页
针对当前第三方电力暂态数据分析软件在绘制海量波形数据时出现的效率低下、反应缓慢情况,结合多核并行计算技术,提出了一种可跨平台的海量COMTRADE波形数据并行绘制算法及其技术。该算法在分析传统串行绘制系统内部关系的基础上,提出... 针对当前第三方电力暂态数据分析软件在绘制海量波形数据时出现的效率低下、反应缓慢情况,结合多核并行计算技术,提出了一种可跨平台的海量COMTRADE波形数据并行绘制算法及其技术。该算法在分析传统串行绘制系统内部关系的基础上,提出了基于并行绘制的新型关系:将原有单一图层分为波形图层和用户控制图层,其中以并行方式绘制波形图层,而后通过融合图层方式完成最终绘制。通过试验分析Windows和UNIX下的各种图形绘制技术,找到了最适合海量波形数据并行绘制的跨平台技术组合:"QImage+QPainter"技术模式。结合跨平台的线程库Pthreads,详细论述了并行绘制算法的每个步骤,给出了让通道绘制线程能负载平衡运行的绘制工作量均分公式,同时给出了通道绘制线程和图层融合详细算法的伪码。试验证明所提出的并行绘制算法可获得较大加速比,并可随着绘制工作量的加大和CPU核的增多,获得线性加速比。 展开更多
关键词 COMTRADE 海量数据 并行绘制 QT4 pthreads
下载PDF
锥束CT重建FDK算法的两级并行计算研究 被引量:1
7
作者 江鹏 陈志强 邢宇翔 《核电子学与探测技术》 CAS CSCD 北大核心 2006年第1期87-90,共4页
三维锥束CT图像的FDK算法重建由于运算量大,在重建高分辨率的图像时,重建所需时间通常难以满足实际应用的需求,集群并行计算是解决上述问题的常用方法之一。在一个SM P集群系统上,采用M P I和P threads两种模型相结合的方法,通过节点之... 三维锥束CT图像的FDK算法重建由于运算量大,在重建高分辨率的图像时,重建所需时间通常难以满足实际应用的需求,集群并行计算是解决上述问题的常用方法之一。在一个SM P集群系统上,采用M P I和P threads两种模型相结合的方法,通过节点之间的消息传递和节点内部的共享内存,实现了FDK算法的两级并行。 展开更多
关键词 图像重建 FDK算法 MPI pthreads 并行计算
下载PDF
基于刀片式服务器的雷达信号处理软件化研究
8
作者 桂雨洋 李飞 李蒂欢 《火控雷达技术》 2023年第4期81-85,共5页
随着雷达系统软件和硬件的复杂性和功能性逐渐提高,对信号处理软件系统的可编程性,可重构性和可移植性提出了新的挑战,“软件化雷达”也成为了雷达信号处理领域最新的研究方向。本文简要介绍了软件化雷达信号处理部分的硬件基础,并基于... 随着雷达系统软件和硬件的复杂性和功能性逐渐提高,对信号处理软件系统的可编程性,可重构性和可移植性提出了新的挑战,“软件化雷达”也成为了雷达信号处理领域最新的研究方向。本文简要介绍了软件化雷达信号处理部分的硬件基础,并基于该平台设计了一套适用于基本雷达信号处理的软件实现,该信号处理系统的软件化具有良好的通用性、可扩展性和可移植性。 展开更多
关键词 软件化雷达 VPX 计算服务器 pthread线程 MKL
下载PDF
众核处理器和众核集群的并行模拟 被引量:4
9
作者 吕慧伟 程元 +3 位作者 白露 陈明宇 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期1110-1117,共8页
模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行... 模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 展开更多
关键词 并行模拟 众核处理器 众核集群 众核模拟器 MPI pthreads混合编程
下载PDF
基于多线程多GPU并行加速的最小二乘逆时偏移算法 被引量:5
10
作者 柯璇 石颖 +2 位作者 张伟 张振 何伟 《石油物探》 EI CSCD 北大核心 2019年第1期88-102,共15页
最小二乘逆时偏移算法可对地下复杂构造精确成像,但由于计算量大,目前仍难以在实际资料处理中广泛推广应用,因此研究该方法的高效计算策略具有重要意义。结合Pthread标准,提出了多线程多图形处理器(Graphics Processing Unit,GPU)并行... 最小二乘逆时偏移算法可对地下复杂构造精确成像,但由于计算量大,目前仍难以在实际资料处理中广泛推广应用,因此研究该方法的高效计算策略具有重要意义。结合Pthread标准,提出了多线程多图形处理器(Graphics Processing Unit,GPU)并行加速策略,在共炮点道集域分解计算任务,由多GPU并行计算并实时更新数据;并结合GPU存储器优化方法,调用GPU端共享存储和寄存器等高速存储器,提高波场模拟的计算效率;最终实现了二维空间的时域最小二乘逆时偏移算法大幅加速计算。分别对Marmousi2截断模型和Marmousi模型进行加速成像测试,结果表明:基于多线程多GPU并行加速的最小二乘逆时偏移算法具有普适性;随着数据规模的增加,该方法的加速效率可逐渐逼近线性加速,数据同步延迟小,加速效率显著。 展开更多
关键词 时域最小二乘逆时偏移 GPU 多线程 Pthread 存储器优化 共享存储器 寄存器
下载PDF
基于多线程的地震相干体属性提取算法 被引量:3
11
作者 杨尚琴 许自龙 洪承煜 《计算机系统应用》 2012年第11期72-75,共4页
为了充分发挥计算机的多核优势,提高地震数据相干体的计算速度,通过研究在多核上的多线程并行技术,完成了并行相干体算法的设计与实现,并分别对串行和并行算法进行性能比较测试.测试结果表明:Pthread多线程技术可以充分利用多核资源,取... 为了充分发挥计算机的多核优势,提高地震数据相干体的计算速度,通过研究在多核上的多线程并行技术,完成了并行相干体算法的设计与实现,并分别对串行和并行算法进行性能比较测试.测试结果表明:Pthread多线程技术可以充分利用多核资源,取得比较理想的线性加速比,且提高了系统的计算效率,非常适合于大数据量的地震数据处理的应用. 展开更多
关键词 相干体 地震数据处理 Pthread 多线程技术 并行计算
下载PDF
简单要素模型多边形拓扑检查并行算法 被引量:2
12
作者 任沂斌 陈振杰 +2 位作者 李飞雪 周琛 杨云丽 《计算机应用》 CSCD 北大核心 2014年第7期1852-1856,共5页
将并行计算应用到大数据量简单要素模型多边形拓扑检查中,设计实现了简单要素模型多边形拓扑检查并行算法。算法针对拓扑检查的计算特点,改进了主从式并行策略,在主进程中进一步划分线程以实现任务并行,从而隐藏拓扑错误提取和结果写入... 将并行计算应用到大数据量简单要素模型多边形拓扑检查中,设计实现了简单要素模型多边形拓扑检查并行算法。算法针对拓扑检查的计算特点,改进了主从式并行策略,在主进程中进一步划分线程以实现任务并行,从而隐藏拓扑错误提取和结果写入时间。采用MPI和PThread实现进程与线程的结合。利用苏南五市土地现状调查地类图斑数据对算法进行测试。经测试,该算法能够对大数据量简单要素模型多边形进行准确、快速的拓扑检查。算法提出的进程与线程结合的任务并行策略相对于传统主从式策略加速比提高约20%。 展开更多
关键词 并行计算 简单要素模型 拓扑检查 消息传递接口 PThread
下载PDF
一种SMP机群下程序并行化模式的设计与应用 被引量:1
13
作者 刘玮 《微电子学与计算机》 CSCD 北大核心 2005年第11期110-112,共3页
基于SMP机群并行编程环境下,提出了一种MPI+Pthread的程序并行化模式。使用这种并行模式实现了对生物DNA序列拼接程序Phrap的并行化。具体分析了Phrap程序的实现流程,对每一流程针对性的提出并行化方案。并且在曙光3000高性能计算机上... 基于SMP机群并行编程环境下,提出了一种MPI+Pthread的程序并行化模式。使用这种并行模式实现了对生物DNA序列拼接程序Phrap的并行化。具体分析了Phrap程序的实现流程,对每一流程针对性的提出并行化方案。并且在曙光3000高性能计算机上得到了实现,获得了较好的性能。 展开更多
关键词 程序并行 机群 MPI Pthread 序列拼接
下载PDF
面向处理器微体系结构评估的高通量MicroBenchmark研究
14
作者 薛瑞 苗福涛 +2 位作者 叶笑春 孙凝晖 徐文星 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1569-1583,共15页
基准测试程序是评估处理器微体系结构设计的重要手段,然而当前的基准测试程序无法有效全面地评估面向高通量应用的处理器微体系结构的设计.基于此,针对高通量应用的特征,提出了用于评估面向高通量应用的处理器微体系结构设计的基准测试... 基准测试程序是评估处理器微体系结构设计的重要手段,然而当前的基准测试程序无法有效全面地评估面向高通量应用的处理器微体系结构的设计.基于此,针对高通量应用的特征,提出了用于评估面向高通量应用的处理器微体系结构设计的基准测试程序——HTC-MicroBench.首先,提出一种基于应用特征的高通量应用分类方法,并基于此分类方法对高通量应用中的Workload进行分类.其次,针对高通量应用的特征,提出了一种基于线程的作业处理节点并行化模型,基于此模型完成了HTCMicroBench的设计和实现.最后,从作业并发性、作业之间的耦合性和Cache使用效率等指标对HTCMicroBench进行实验评估;并基于HTC-MicroBench对TILE-Gx和Xeon两种处理器的并行加速能力做了评估,高并发、低耦合和由Workload特征所体现出的不同Cache命中率的评估结果说明了HTCMicroBench能够准确刻画高通量应用的特征,并对面向高通量应用的处理器微体系结构的设计进行有效的测评. 展开更多
关键词 高通量应用 处理器微体系结构设计 基准测试程序 并行化 Pthread模型
下载PDF
Performance of Text-Independent Automatic Speaker Recognition on a Multicore System
15
作者 Rand Kouatly Talha Ali Khan 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2024年第2期447-456,共10页
This paper studies a high-speed text-independent Automatic Speaker Recognition(ASR)algorithm based on a multicore system's Gaussian Mixture Model(GMM).The high speech is achieved using parallel implementation of t... This paper studies a high-speed text-independent Automatic Speaker Recognition(ASR)algorithm based on a multicore system's Gaussian Mixture Model(GMM).The high speech is achieved using parallel implementation of the feature's extraction and aggregation methods during training and testing procedures.Shared memory parallel programming techniques using both OpenMP and PThreads libraries are developed to accelerate the code and improve the performance of the ASR algorithm.The experimental results show speed-up improvements of around 3.2 on a personal laptop with Intel i5-6300HQ(2.3 GHz,four cores without hyper-threading,and 8 GB of RAM).In addition,a remarkable 100%speaker recognition accuracy is achieved. 展开更多
关键词 Automatic Speaker Recognition(ASR) Gaussian Mixture Model(GMM) shared memory parallel programming pthreads OPENMP
原文传递
A new synchronization in parallel shortest paths analysis for massive road networks
16
作者 HUANG Yuefeng ZHONG Ershun 《Geo-Spatial Information Science》 SCIE EI 2012年第1期43-49,共7页
To effectively solve the single-source shortest path(SSSP)problem for massive road networks in geographical information systems,a new synchronization method is proposed in the implementations of parallel SSSP algorith... To effectively solve the single-source shortest path(SSSP)problem for massive road networks in geographical information systems,a new synchronization method is proposed in the implementations of parallel SSSP algorithm.It applies spinlock by inline assembly language for the sake of small overheads of controlling the interaction of multiple threads.The performance of our method is compared with widely used Pthreads application programming interfaces and the powerful sequential solution given by DIMACS.The experimental platform is a shared address space workstation with two processors(i.e.eight cores)at a clock speed of 3 GHz.Problem instances for experiments contain a directed road networks of the USA with more than 23 million vertices and 57 million edges,and its 11 subnetworks of variant sizes.This method answers the SSSP of the USA road network in 1231 ms,while Pthreads costs 1808 ms and DIMACS sequential solution takes 4856 ms.It achieves a speedup of 3.95,which is 47%faster than Pthreads with the speedup of 2.69.When the size of instance is larger,our method achieves a better performance. 展开更多
关键词 parallel shortest path pthreads multiple threads SYNCHRONIZATION
原文传递
Highly Parallel SPARQL Engine for RDF
17
作者 Fan Feng Weikang Zhou +1 位作者 Ding Zhang Jinhui Pang 《国际计算机前沿大会会议论文集》 2020年第1期61-71,共11页
In this paper,a highly parallel batch processing engine is designed for SPARQL queries.Machine learning algorithms were applied to make time predictions of queries and reasonably group them,and further make reasonable... In this paper,a highly parallel batch processing engine is designed for SPARQL queries.Machine learning algorithms were applied to make time predictions of queries and reasonably group them,and further make reasonable estimates of the memory footprint of the queries to arrange the order of each group of queries.Finally,the query is processed in parallel by introducing pthreads.Based on the above three points,a spall time prediction algorithm was proposed,including data processing,to better deal with batch SPARQL queries,and the introduction of pthread can make our query processing faster.Since data processing was added to query time prediction,the method can be implemented in any set of data-queries.Experiments show that the engine can optimize time and maximize the use of memory when processing batch SPARQL queries. 展开更多
关键词 SPARQL Pthread MULTITHREADING Performance prediction
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部