期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
阵列处理器分布式存储的簇内全访问结构设计 被引量:2
1
作者 蒋林 刘鹏 +1 位作者 山蕊 刘阳 《西安科技大学学报》 CAS 北大核心 2018年第4期656-662,共7页
采用分布式存储结构来解决阵列处理器片内访问延迟等"存储墙"问题已经成为研究主流。针对阵列处理器中分布式存储簇内互连问题,设计了一种电路结构简单、使用效率高和延迟低的簇内全访问电路结构,实现了簇内16个处理单元对存... 采用分布式存储结构来解决阵列处理器片内访问延迟等"存储墙"问题已经成为研究主流。针对阵列处理器中分布式存储簇内互连问题,设计了一种电路结构简单、使用效率高和延迟低的簇内全访问电路结构,实现了簇内16个处理单元对存储单元的并行访问。实验结果表明,在无冲突情况下,最高频率达223 MHz,访问峰值带宽可达7.42 GB/S.测试结果表明,相比于行列交叉互连结构,全访问结构具有更小的访问延迟。通过对256×256和512×512边缘检测canny算法在该结构上进行并行化实现和性能比较发现,相比于CPU+GPU结构的处理时间,加速比分别提升了2.84倍和2.91倍。 展开更多
关键词 阵列处理器 分布式存储 访问延迟 并行访问
下载PDF
基于自重构结构的ViT网络设计与实现 被引量:3
2
作者 蒋林 刘港国 《西安邮电大学学报》 2023年第5期18-26,共9页
针对Vision Transformer网络在通用处理器上应用存在推理吞吐量低、功耗高及硬件资源消耗高等问题,提出一种基于自重构阵列处理器的Vision Transformer网络并行设计方案。根据Vision Transformer网络运行特点,在4×4处理元阵列上实... 针对Vision Transformer网络在通用处理器上应用存在推理吞吐量低、功耗高及硬件资源消耗高等问题,提出一种基于自重构阵列处理器的Vision Transformer网络并行设计方案。根据Vision Transformer网络运行特点,在4×4处理元阵列上实现Vision Transformer网络的全连接层、位置编码层、编码器层并行重构计算方案,以提高推理吞吐量,减少Vision Transformer网络的片上功耗及资源消耗。实验结果表明,所提方案推理Mnist数据图像的吞吐量为281.69 Gops/s,推理Cifar-10数据图像的吞吐量为94.16 Gops/s;运行功耗为6.12 W,低于CPU和GPU。与相关专用加速器相比,所提方案的推理吞吐量较高,功耗和硬件资源消耗较低。 展开更多
关键词 Vision Transformer网络 注意力机制 阵列处理器 可重构计算 自重构结构
下载PDF
Tile型三角形多向并行扫描算法的设计 被引量:1
3
作者 樊萌 蒋林 +2 位作者 杨博文 郭佳乐 田璞 《计算机工程与设计》 北大核心 2020年第8期2360-2366,共7页
针对图形处理器中光栅化对三角形处理速度的高要求,提出一种基于Tile的三角形多向并行扫描算法。以2×2大小的像素块作为扫描像素块的尺寸,采用并行方式一次处理16个像素,完成在Tile内对三角形内部像素的遍历。对不同种类的三角形... 针对图形处理器中光栅化对三角形处理速度的高要求,提出一种基于Tile的三角形多向并行扫描算法。以2×2大小的像素块作为扫描像素块的尺寸,采用并行方式一次处理16个像素,完成在Tile内对三角形内部像素的遍历。对不同种类的三角形进行实验分析与性能对比,其结果表明,该算法能够显著提高三角形的遍历速度,使得扫描填充率最大可达100%。采用Xilinx公司的ISE开发环境对硬件电路进行FPGA测试,实验结果表明,该方法可以正确且高效实现三角形遍历功能,适用于高性能的图形处理器。 展开更多
关键词 图形处理器 光栅化 分块 三角形遍历 现场可编程门阵列
下载PDF
移动图形处理器的纹理Cache设计 被引量:1
4
作者 韩孟桥 蒋林 +2 位作者 杨博文 山蕊 耿玉荣 《电子技术应用》 2019年第5期17-22,共6页
为了提高移动图形处理器中统一架构染色器的效率,减少其与片外存储器间的访问次数,提出了一种4端口纹理高速缓存结构。该结构采用基于Mipamp算法的纹理映射和基于细化层次(Level of Detail,LOD)选择不同单端口Cache的存储方式,提高了纹... 为了提高移动图形处理器中统一架构染色器的效率,减少其与片外存储器间的访问次数,提出了一种4端口纹理高速缓存结构。该结构采用基于Mipamp算法的纹理映射和基于细化层次(Level of Detail,LOD)选择不同单端口Cache的存储方式,提高了纹理Cache的命中率。此外为了提高数据吞吐率,采用4端口并行读取纹素。设计了FIFO缓冲区预取数据,降低访存延迟。利用SV搭建实验平台对纹理图像进行测试,结果表明纹理Cache的平均命中率为92.5%,数据吞吐率接近单端口Cache的4倍。 展开更多
关键词 移动图形处理器 低功耗 细化层次 命中率 吞吐率
下载PDF
图计算加速器中稀疏向量比较单元的设计与实现
5
作者 田璞 蒋林 +3 位作者 邓军勇 赵一迪 刘新闯 樊萌 《计算机应用与软件》 北大核心 2021年第10期61-66,130,共7页
绝大多数图计算应用都可以映射为稀疏矩阵和向量运算,稀疏向量的比较运算是稀疏矩阵向量运算的计算瓶颈,为解决图计算加速器中稀疏矩阵列向量比较问题,设计一种稀疏向量比较运算电路,主要包括64个比较运算电路和一个共享存储单元。基于V... 绝大多数图计算应用都可以映射为稀疏矩阵和向量运算,稀疏向量的比较运算是稀疏矩阵向量运算的计算瓶颈,为解决图计算加速器中稀疏矩阵列向量比较问题,设计一种稀疏向量比较运算电路,主要包括64个比较运算电路和一个共享存储单元。基于Verilog HDL语言完成电路设计,以SNAP(Stanford Network Analysis Project)上的Flickr数据集为例,在ModelSim SE-6410.1c完成验证工作,采用Xilinx公司的ISE开发环境对硬件电路进行综合,实验结果表明,该电路的工作频率可以达到264 MHz。 展开更多
关键词 图计算 稀疏列向量 比较运算 SNAP
下载PDF
图形处理器中纹理贴图算法的性能分析 被引量:2
6
作者 樊萌 蒋林 +1 位作者 邓军勇 刘洋 《西安邮电大学学报》 2020年第2期74-79,共6页
针对在可重构图形处理器中根据不同性能特征选择最优纹理贴图算法的问题,采用Coffee Lake架构处理器上的硬件性能计数器,分析了最近邻点采样、双线性滤波、Mipmap结合线性滤波等3种算法在立方体、球体、圆环和茶壶等4种渲染场景对象中... 针对在可重构图形处理器中根据不同性能特征选择最优纹理贴图算法的问题,采用Coffee Lake架构处理器上的硬件性能计数器,分析了最近邻点采样、双线性滤波、Mipmap结合线性滤波等3种算法在立方体、球体、圆环和茶壶等4种渲染场景对象中的数据移动量、计算量、功耗、数据缓存以及各指标的相关性。仿真结果表明,为了提高图形处理器性能,点采样和Mipmap结合线性滤波算法重构可减少数据移动量,点采样和双线性滤波算法重构可减少计算量,采用点采样算法可降低功耗,使用双线性滤波算法可提高缓存命中率。 展开更多
关键词 可重构计算 图形处理器 纹理贴图算法
下载PDF
HEVC运动估计中SAD算法的动态可重构实现 被引量:10
7
作者 蒋林 武鑫 +2 位作者 崔继兴 谢晓燕 山蕊 《北京邮电大学学报》 EI CAS CSCD 北大核心 2018年第4期37-43,共7页
高效视频编码(HEVC)标准中引入的不对称分割模式导致运动估计算法中绝对差值和(SAD)运算量成倍增加.为了提高运动估计算法的执行效率,方便用户进行自主选择,设计了同时支持不对称分割模式开启和关闭2种执行模式以及执行模式间自由... 高效视频编码(HEVC)标准中引入的不对称分割模式导致运动估计算法中绝对差值和(SAD)运算量成倍增加.为了提高运动估计算法的执行效率,方便用户进行自主选择,设计了同时支持不对称分割模式开启和关闭2种执行模式以及执行模式间自由切换的可重构阵列结构.为了满足用户要求编码速度的同时,最大限度地利用可重构阵列处理器的资源,在阵列结构为16×16个处理元中通过加载16×8、16×4以及16×2个处理元的指令来进行阵列规模的动态重构,采用指令下发的方式将不同的指令发送到对应处理元进行相应配置.实验结果表明,所提出的可重构实现方式在硬件资源占用量接近条件下,相较于流水化实现处理时间减少了约35%,吞吐量提高了约0.4倍.该实现具有较高的执行效率,能够进行执行模式与阵列规模的切换,具有较好的灵活性. 展开更多
关键词 高效视频编码 绝对差值和 可重构阵列结构 非对称分割
原文传递
基于视频数据特性的动态手势识别 被引量:3
8
作者 谢晓燕 赵欢 蒋林 《北京邮电大学学报》 EI CAS CSCD 北大核心 2020年第5期91-97,共7页
针对现有动态手势识别方法环境适应性低、计算复杂的问题,提出了一种基于视频数据特性的动态手势识别方法.使用基于密度的聚类算法DBSCAN直接从视频编码数据中的运动矢量提取出运动趋势特征,再通过随机森林分类运动趋势,结合卷积神经网... 针对现有动态手势识别方法环境适应性低、计算复杂的问题,提出了一种基于视频数据特性的动态手势识别方法.使用基于密度的聚类算法DBSCAN直接从视频编码数据中的运动矢量提取出运动趋势特征,再通过随机森林分类运动趋势,结合卷积神经网络(CNN)提取的手型特征识别动态手势.实验结果表明,该方法对剑桥大学和美国西北大学数据集中动态手势的平均识别率分别达到94.22%和94.48%,并且与CNN结合长短期记忆网络的识别方法相比,手势识别时间减少了85%.在背景图像复杂且光照条件不足时,该方法仍然能够维持较高的识别率,表现出较好的鲁棒性. 展开更多
关键词 动态手势识别 运动矢量 DBSCAN 随机森林 卷积神经网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部