题名 基于PAAG的OpenVX核心库函数并行化实现
被引量:5
1
作者
李涛
孙建
王鹏博
机构
西安邮电大学电子工程学院
西安邮电大学计算机学院
出处
《西安邮电大学学报》
2015年第2期7-10,共4页
基金
国家自然科学基金重大项目(61136002)
文摘
针对OpenVX1.0标准中的核心库函数,在新型多态同构阵列处理器平台上实现基于该标准的Kernel函数算法的并行化。以Gaussian Filter、Color Convert、Sobel3×3等kernel函数组成的节点构造图像边缘检测的OpenVX图执行模型,将该执行模型映射到阵列机上实现了并行加速。实验结果证明,PAAG阵列机能实现高复杂度算法的并行实现,并且能获得线性增长的加速比,执行效率更高。
关键词
图像处理
openvx
边缘检测
多态同构阵列机
并行计算
Keywords
image processing
openvx
image edge detection
polymorphic array processor
parallel computing
分类号
TP702
[自动化与计算机技术—检测技术与自动化装置]
题名 Openvx编程模型简介
被引量:1
2
作者
林广栋
黄光红
毛晓琦
刘振
机构
中国电子科技集团公司第三十八研究所
出处
《中国集成电路》
2021年第12期31-38,共8页
文摘
Openvx编程模型是一种新兴的计算机视觉编程模型,适合部署于对性能要求比较高的场景中,方便硬件厂商进行优化。Openvx编程模型以计算图作为核心,计算图中的节点代表一个计算操作或一个中间结果。驱动程序按照计算图中节点之间数据流动的逻辑关系执行计算图中节点代表的计算任务。执行完一个计算图中所有节点的计算任务,就完成了一次计算机视觉计算任务。驱动程序以适合硬件的方式对计算图进行调度和优化。由于深度学习模型由各种神经网络层组成,层与层之间存在数据的流动,也可以看成是一种计算图,因此openvx特别适合用于深度学习模型在边缘侧的部署和优化。本文介绍了openvx编程模型的基本概念、流程,并说明了将openvx用于部署深度学习模型的方法。本文将帮助openvx研究人员熟悉openvx,有助于对openvx的优化算法进行更深入的研究。
关键词
openvx
计算机视觉
深度学习
计算图
Keywords
openvx
computer vision
deep learning
graph
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP312
[自动化与计算机技术—计算机软件与理论]
题名 OpenVX与三维渲染在多态GPU上的并行实现
被引量:4
3
作者
延酉玫
李涛
王鹏博
韩俊刚
李雪丹
姚静
乔虹
机构
西安邮电大学计算机学院
西安邮电大学电子工程学院
出处
《计算机应用》
CSCD
北大核心
2015年第1期53-57,共5页
基金
国家自然科学基金重点项目(61136002)
文摘
针对图像处理与机器视觉以及三维图形渲染等所具有的大规模并行处理特征,通过充分利用面向图形图像处理的多态阵列架构(PAAG)处理器的可编程性以及灵活的并行处理方式,采用操作级并行与数据级并行相结合的并行化设计方法,实现了Open VX中Kernel函数以及3D图形渲染。实验结果表明,在Open VX标准图像处理Kernel函数以及图形渲染的并行实现中,采用PAAG处理器中的多指令多数据(MIMD)并行处理方式可以获得斜率为1的线性加速比,比传统图形处理器(GPU)中单指令多数据(SIMD)并行处理方式所得到的斜率值小于1的非线性加速比效率更高。
关键词
多态阵列机
仿真
openvx
操作并行
数据并行
Keywords
polymorphic array processor
simulation
openvx
operation parallelism
data parallelism
分类号
TP302
[自动化与计算机技术—计算机系统结构]
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于OpenVX的图像预处理算法的并行化研究
被引量:2
4
作者
黄灿
机构
上海交通大学微纳电子学系
出处
《现代计算机》
2020年第34期36-39,共4页
文摘
在人脸识别项目中,为提高图像识别率、使图片尺寸符合系统要求,需进行预处理操作。针对预处理步骤串行执行速度慢、多余数据传输开销问题,提出基于OpenVX的并行化处理方法。利用该图像预处理是细粒度像素级计算的特性,通过设计并行核函数与网络连接成图,实现高效优化代码。基于VeriSilicon公司的VIP8000 GPU和ARM-v7处理器,对所提出的方法与现有查表法、NEON优化进行讨论实现。针对人脸检测和识别网络中的预处理,相对于OpenCV库中高度优化的CPU版本在ARM-v7上的性能,利用GPU多线程和OpenVX的图模型的并行优化能得到12.65倍的加速比,明显优于查表法和NEON优化。该研究为图像预处理在VIP8000上的实现提供一个OpenVX实例,丰富该框架的实例化设计。
关键词
GPU
openvx
NEON
查表法
人脸识别
图像预处理
并行计算
Keywords
GPU
openvx
NEON
Look-up Table
Face Recognition
Image Preprocessing
Parallel Computing
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 面向OpenVX核心图像处理函数的并行架构设计
被引量:2
5
作者
潘风蕊
李涛
邢立冬
张好聪
吴冠中
机构
西安邮电大学电子工程学院
西安邮电大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2022年第7期1570-1582,共13页
基金
陕西省科技统筹项目(2015KTCQ013)
陕西省教育厅协同创新中心项目(17JF032)
陕西省教育厅科研计划项目(20JY058)。
文摘
传统的可编程处理器虽然高度灵活,但其处理速度及性能不及专用集成电路(ASIC),而图像处理往往是多样、密集且重复的操作,因此处理器要兼顾速度、性能及灵活性。OpenVX是图像图形处理、图计算和深度学习等应用的预处理或者辅助处理开源标准,基于最新的OpenVX 1.3标准中的核心图像处理函数库,设计并实现了一种可编程、可扩展的专用指令集处理器(ASIP)——OpenVX并行处理器。首先分析对比了各种互联网络的拓扑特性,选择了性能比较突出的层次交叉互联网络(HCCM+)作为系统主干,在网络节点处设置处理单元(PE)构成支持动态配置的4×4 PE阵列,结合高效的路由通信方式设计了并行处理器,实现可编程的图像处理。其次所提出的架构适合数据并行计算和新兴的图计算,两种计算模式可单独或混合配置使用,分别将核心视觉函数及图计算模型映射到并行处理器上对两种模式进行验证,对比PE数目不同的情况下图像处理的速度。实验结果表明,并行处理器能够完成对基本核心函数和高复杂度的图计算模型的映射,在数据并行计算和流水线处理两种模式下,可以对图像处理线性加速,调用16个PE对各类函数的平均加速比可达15.0375。验证环境采用20 nmXCVU440平台芯片,综合实现后频率为125 MHz。
关键词
openvx 核心图像处理函数
专用指令集处理器(ASIP)
并行处理器
层次交叉互联网络(HCCM+)
图计算模型
Keywords
openvx kernel image processing functions
application specific instruction processor(ASIP)
parallel processor
hierarchically cross-connected mesh+(HCCM+)
graph calculation model
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 OpenVX高效能并行可重构运算通路的设计与实现
被引量:1
6
作者
王宇
李涛
邢立冬
冯臻夫
机构
西安邮电大学电子工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第12期236-248,共13页
基金
陕西省科技统筹项目(2015KTCQ013)
陕西省教育厅协同创新中心项目(17JF032)
陕西省教育厅科研计划项目(20JY058)。
文摘
针对专用硬件在处理图形图像时无法同时兼顾灵活性、可扩展性和时效性的问题,设计一种支持OpenVX 1.3标准的专用处理器。通过对OpenVX 1.3标准中的核函数进行数据通路映射,分析实现函数高效处理所需的运算单元数目,确定适用于该标准的数据通路运算器的结构。通过编写指令对数据通路进行重构,适应OpenVX标准的演进和扩展。应用65 nm CMOS工艺库对整体电路进行综合验证,实现的OpenVX可重构数据通路运算器面积为21076.21μm^(2)、功耗为778.63 mW、系统主频为500 MHz、吞吐量为1.86 GB/s。实验结果表明,该数据通路运算器具有较强的可编程性和可扩展性,能够有效满足实时和高速的通用图像处理要求。
关键词
图像处理
计算机视觉
openvx 标准
并行处理
可重构
Keywords
image processing
computer vision
openvx standard
parallel processing
reconfigurability
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 OpenVX特征抽取函数在可编程并行架构的实现
被引量:1
7
作者
张好聪
李涛
邢立冬
潘风蕊
机构
西安邮电大学电子工程学院
西安邮电大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2022年第7期1583-1593,共11页
基金
陕西省科技统筹项目(2015KTCQ013)
陕西省教育厅协同创新中心项目(17JF032)
陕西省教育厅科研计划项目(20JY058)。
文摘
针对数字图像处理计算量大、串行结构计算速度慢等特点,完成了最新的开源OpenVX计算机视觉加速规范1.3中底层特征抽取核函数的并行实现,使用自主设计的OpenVX可编程并行处理器进行了验证。在对图像的底层特征提取中,前期滤波及平滑处理选择OpenVX规范1.3中基本像素点处理函数ColorConvert(颜色转换)和局部图像处理函数GaussianFilter(高斯滤波)、MedianFilter(中值滤波)等,核心的特征抽取操作选择HarrisCorners(哈里斯角点检测)和CannyEdgeDetector(坎尼边缘检测)核函数,通过将计算量大的复杂结点拆分为多个简单结点,构建不同的基于图的执行模型,并映射在OpenVX并行处理器上,分别实现图像的边缘检测和特征点抽取。使用Verilog语言设计整体硬件电路,经Xilinx公司的FPGA芯片xcvu440-flga-2892-2-e综合验证,与串行映射结构相比,所选核函数在OpenVX可编程并行处理器上的并行加速比最高可达14.269。实验结果表明,OpenVX规范1.3中的核函数尤其是复杂核函数能够在本并行处理结构上达到预期的加速效果,且并行与串行结构加速比呈线性增长。
关键词
openvx 规范1.3
计算机视觉函数
底层特征抽取
图执行模型
并行处理器
Keywords
openvx specification 1.3
computer vision function
low level feature extraction
graph execution model
parallel processor
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 基于OpenVX并行处理器的微程序控制
8
作者
张珂
李涛
邢立冬
机构
西安邮电大学计算机学院
西安邮电大学电子工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第3期403-410,共8页
基金
陕西省科技统筹项目(2015KTCQ013)
陕西省教育厅协同创新中心(17JF032)
陕西省教育厅科研计划(20JY058)。
文摘
针对OpenVX并行处理器中微控制器内部存储量大和转移步骤复杂的问题,利用相联存储器产生微程序初始地址的方法提高了控制存储器的利用率。并依据分组并行判断思想对各个操作执行条件分组,提高了转移地址产生的速度。通过将OpenVX中5类图像处理函数映射到此处理器进行验证,实验结果表明,采用上述结构和方法,控制存储器利用率提高了38.7%,平均转移步数减少了50%。最后优化了微程序,使系统整体的执行效率更高。
关键词
openvx 微程序控制器
转移地址产生模块
相联存储器
分组并行
指令优化
Keywords
openvx microprogram controller
transfer address generation module
associative memory
grouped parallelism
instruction optimization
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 基于PAAG的图形图像算法的并行实现
被引量:3
9
作者
孙建
李涛
李雪丹
机构
西安邮电大学计算机学院
西安邮电大学电子工程学院
出处
《计算机技术与发展》
2015年第11期61-66,共6页
基金
国家自然科学重点基金资助项目(61136002)
文摘
为了解决当前的CMOS技术遇到"功耗墙"和"散热墙"等问题导致的很难通过提高主频来提升芯片性能的问题,文中提出了一种新型多态同构阵列处理器—PAAG(Polymorphic Array Architecture for Graphics)。该阵列机在一个芯片上集成了多个处理器,能够通过将各种高性能复杂的算法合理分解映射到该平台上实现并行计算。通过结合使用数据并行、操作并行的计算方法,对固定渲染管线的图形算法以及由国际标准组织Khronos提出的计算视觉标准Open VX1.0中的Kernel函数图像算法进行了深入分析,并给出了基于这些算法在PAAG上的并行化设计。通过在PAAG硬件平台对应的仿真环境上进行各个算法的并行实现,得到了算法在多个处理单元上的运行时钟,由此计算出算法在多个处理单元上运行的加速比。实验结果表明,文中的并行化设计方法在PAAG上能够实现对图形图像算法的线性加速,与串行相比,效率更高。
关键词
并行计算
多态同构阵列机
图形处理
图像处理
openvx 1.0
Keywords
parallel computing
polymorphic array processor
graphics processing
image processing
openvx 1.0
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 集成萤火虫2号GPU的片上系统设计和实现
被引量:3
10
作者
杜慧敏
王涌钢
李涛
机构
西安邮电大学电子信息工程学院
出处
《西安邮电大学学报》
2015年第3期39-43,共5页
基金
国家自然科学基金重大项目(61136002)
教育部科学研究计划重点项目(2111180)
文摘
设计一个用于图形处理的片上系统。该系统将LEON3处理器和萤火虫2号图形处理器相结合,通过AHB总线互联而成。主模块LEON3处理器通过访问分配给各个从模块地址空间,实现对从模块的控制和主从模块之间的数据通信。以OpenVX内核函数为测试用例,进行功能验证和现场可编程逻辑阵列的验证。结果表明,该系统能够正确读写数据,快速实现图像处理。
关键词
图形图像处理器
处理器
片上系统
现场可编程逻辑阵列
openvx
Keywords
GPU, CPU, SoC, FPGA, openvx
分类号
TN492
[电子电信—微电子学与固体电子学]
题名 基于PAAG的纹理特征提取算法的并行实现
被引量:2
11
作者
李涛
李雪丹
机构
西安邮电大学电子工程学院
出处
《西安邮电大学学报》
2015年第2期11-15,共5页
基金
国家自然科学基金重大项目(61136002)
文摘
针对多态同构阵列机,提出一种新的方法对计算视觉算法中的纹理特征提取算法进行并行处理。该方法在基于计算视觉标准OpenVX的基础上,将纹理特征提取算法的各步骤用OpenVX核函数进行实现,并构造出该算法的图模型,再将图模型利用OpenVX库函数映射到多态同构阵列机上进行并行处理。实验结果表明,该方法所实现的加速比按线性增长,纹理特征提取算法的执行效率得到显著提高。
关键词
多态同构阵列机
计算机视觉
纹理特征提取
openvx
并行设计
Keywords
polymorphic array architecture for graphics and image processing(PAAG)
computer vision
texture feature extraction
openvx
paralle
分类号
TP302
[自动化与计算机技术—计算机系统结构]