期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
A General-Purpose Many-Accelerator Architecture Based on Dataflow Graph Clustering of Applications
1
作者 陈鹏 张磊 +1 位作者 韩银和 陈云霁 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第2期239-246,共8页
The combination of growing transistor counts and limited power budget within a silicon die leads to the utilization wall problem (a.k.a. "Dark Silicon"), that is only a small fraction of chip can run at full speed... The combination of growing transistor counts and limited power budget within a silicon die leads to the utilization wall problem (a.k.a. "Dark Silicon"), that is only a small fraction of chip can run at full speed during a period of time. Designing accelerators for specific applications or algorithms is considered to be one of the most promising approaches to improving energy-efficiency. However, most current design methods for accelerators are dedicated for certain applications or algorithms, which greatly constrains their applicability. In this paper, we propose a novel general-purpose many-accelerator architecture. Our contributions are two-fold. Firstly, we propose to cluster dataflow graphs (DFGs) of hotspot basic blocks (BBs) in applications. The DFG clusters are then used for accelerators design. This is because a DFC is the largest program unit which is not specific to a certain application. We analyze 17 benchmarks in SPEC CPU 2006, acquire over 300 DFGs hotspots by using LLVM compiler tool, and divide them into 15 clusters based on graph similarity. Secondly, we introduce a function instruction set architecture (FISC) and illustrate how DFG accelerators can be integrated with a processor core and how they can be used by applications. Our results show that the proposed DFG clustering and FISC design can speed up SPEC benchmarks 6.2X on average. 展开更多
关键词 dataflow graph many-accelerator CLUSTERING function instruction set architecture
原文传递
调度感知同步数据流建模 被引量:3
2
作者 唐麒 吴尚峰 +1 位作者 施峻武 魏急波 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第2期128-133,共6页
对流应用系统进行吞吐量分析需要将周期静态顺序调度建模到数据流图中,吞吐量分析效率依赖于数据流图的规模及建模时间。为了提高吞吐量分析效率,提出基于同构同步数据流图的调度感知同步数据流模型及相应建模方法。通过利用应用模型结... 对流应用系统进行吞吐量分析需要将周期静态顺序调度建模到数据流图中,吞吐量分析效率依赖于数据流图的规模及建模时间。为了提高吞吐量分析效率,提出基于同构同步数据流图的调度感知同步数据流模型及相应建模方法。通过利用应用模型结构特征及周期静态顺序调度,可减少模型中的任务、边和初始符号数目;可以使用已有分析方法对模型进行吞吐量分析。实验结果表明,所提建模方法优于已有方法,可有效提高吞吐量分析效率。 展开更多
关键词 同步数据流图 调度感知 多处理器 状态空间
下载PDF
一种高效的凸连通子图枚举算法 被引量:3
3
作者 薄拾 葛宁 林孝康 《软件学报》 EI CSCD 北大核心 2010年第12期3106-3115,共10页
在可配置处理器的定制指令设计过程中,需要提取热点代码数据流图的凸连通子图.为实现子图的快速枚举,对有向无环图内的凸子图特性进行了研究.根据凸子图特性和节点邻接关系,提出了一种AS(adjacent search)算法用于枚举有向无环... 在可配置处理器的定制指令设计过程中,需要提取热点代码数据流图的凸连通子图.为实现子图的快速枚举,对有向无环图内的凸子图特性进行了研究.根据凸子图特性和节点邻接关系,提出了一种AS(adjacent search)算法用于枚举有向无环图内满足I/O端口约束的凸连通子图.实验数据显示,AS算法比现有算法具有更高的效率,加速比可达10~1000X.当现有算法因数据流图规模较大而失效时,应用AS算法仍能成功完成子图枚举. 展开更多
关键词 凸连通子图 有向无环图 数据流图 枚举 可配置处理器 定制指令
下载PDF
TensorFlow架构与实现机制的研究 被引量:21
4
作者 费宁 张浩然 《计算机技术与发展》 2019年第9期31-34,共4页
在大数据时代,云计算和大规模并行处理基础架构的共同发展不仅使得机器学习和深度人工智能有了更为广阔的应用空间,也激发了人工智能框架的快速迭代和部署。TensorFlow是Google发布的开放源代码的深度学习平台,已经在工业界有了广泛的... 在大数据时代,云计算和大规模并行处理基础架构的共同发展不仅使得机器学习和深度人工智能有了更为广阔的应用空间,也激发了人工智能框架的快速迭代和部署。TensorFlow是Google发布的开放源代码的深度学习平台,已经在工业界有了广泛的应用。文中从TensorFlow平台的设计理念出发,分析了平台的框架和基本结构,对每个模块的功能和应用做了详尽阐述。在此基础上,通过建立一个多层深度学习神经网络,分析了输入层、隐藏层、输出层及激励函数的构建方法。最后在对TensorFlow实例运行和调试的基础上,演示了通过TensorBoard跟踪程序运行状态和参数调制的方法,给出了一维数据和多维数据的可视化结果。研究表明,相比较其他学术界的人工智能平台,TensorFlow有着更好的生态系统,支持更多的硬件架构,具备了一定的实用基础。 展开更多
关键词 TensorFlow 神经网络 数据流图 节点
下载PDF
基于数据流的大图中频繁模式挖掘算法研究 被引量:6
5
作者 汤小春 樊雪枫 +1 位作者 周佳文 李战怀 《计算机学报》 EI CSCD 北大核心 2020年第7期1293-1311,共19页
随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文... 随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文在分析了现有的频繁模式挖掘算法后,提出了一种基于数据流的单个大图频繁模式挖掘方法.首先,建立基于数据流的频繁模式挖掘模型,将MapReduce模型中的“批”数据变成“微批”数据,提高了数据处理的并行度,并且其迭代方式也满足频繁子图挖掘的反单调性;其二,设计了数据流模型中的频繁模式检查、子图实例扩展以及正规编码计算等操作,实现了基于数据流模型的频繁模式挖掘算法;其三,为解决正规编码计算中的复杂性问题,提出了基于不变关系的正规编码计算策略以及基于编码树的优化策略,优化正规编码比未优化编码的计算性能提升了30%,基于编码树的优化策略比原始编码计算策略在性能上提升了10%;最后,对涉及的相关算法进行了实验测试,实验证明,算法提高了频繁模式挖掘的并行性,大幅度减少了大图的搜索空间,降低了正规编码的计算时间,相比于传统算法大规模单图中频繁模式挖掘的效率提升了30%. 展开更多
关键词 图挖掘 频繁模式 数据流模型 并行算法 编码树
下载PDF
面向对象类簇级测试中控制依赖分析方法研究 被引量:6
6
作者 毛澄映 卢炎生 《计算机工程与科学》 CSCD 2005年第8期65-69,共5页
类簇控制依赖信息是进行类间数据流测试的基础。本文通过克服已有类控制流分析的不足之处,提出了CCFG算法,依照类间测试序,通过分析继承、聚集和关联等类间关系特征进而增量式地构造类间控制流图(ICCFG算法),并初步探讨了动态控制依赖... 类簇控制依赖信息是进行类间数据流测试的基础。本文通过克服已有类控制流分析的不足之处,提出了CCFG算法,依照类间测试序,通过分析继承、聚集和关联等类间关系特征进而增量式地构造类间控制流图(ICCFG算法),并初步探讨了动态控制依赖分析方法。实验表明,上述控制流分析方法可方便地用于类间数据流测试,并能有效地探测定义-使用错误。 展开更多
关键词 类控制流图CCFG 类间控制流图ICCFG 类间关系 数据流测试
下载PDF
基于图分割的流应用多处理器映射算法
7
作者 唐麒 吴尚峰 +1 位作者 施峻武 魏急波 《通信学报》 EI CSCD 北大核心 2016年第6期137-143,共7页
为了充分利用多处理器平台所提供的计算资源,需要将应用以适当的方式映射到不同处理器,从而最大程度地挖掘应用所提供的并发性以满足应用严格的实时性要求。提出了并发图来量化、建模应用任务间的并发性,提出了一种基于自同步调度的并... 为了充分利用多处理器平台所提供的计算资源,需要将应用以适当的方式映射到不同处理器,从而最大程度地挖掘应用所提供的并发性以满足应用严格的实时性要求。提出了并发图来量化、建模应用任务间的并发性,提出了一种基于自同步调度的并发图构建算法,并将任务映射问题转换成图分割问题,然后将并发图分割问题建模为纯0-1整数线性规划模型并采用ILP求解器获得最优解。采用了大量随机生成的同步数据流图以及一组实际应用对所提方法进行性能评估,实验结果表明所提方法性能优于已有算法。 展开更多
关键词 同步数据流图 映射 多处理器 图分割
下载PDF
基于异构多核平台的同步数据流图帕累托优化与调度 被引量:3
8
作者 顾玉磊 朱雪阳 +1 位作者 晏荣杰 张广泉 《计算机科学》 CSCD 北大核心 2015年第11期43-47,共5页
同步数据流图被广泛用于多媒体和数字信号处理程序等流应用程序的建模。流应用程序须达到一定吞吐量才能流畅运行,利用异构多核处理器来进一步提高流应用程序的吞吐量已经成为当今嵌入式系统的发展趋势,但是提高吞吐量往往伴随着能耗的... 同步数据流图被广泛用于多媒体和数字信号处理程序等流应用程序的建模。流应用程序须达到一定吞吐量才能流畅运行,利用异构多核处理器来进一步提高流应用程序的吞吐量已经成为当今嵌入式系统的发展趋势,但是提高吞吐量往往伴随着能耗的增加。为了解决这个问题,基于异构多核平台的同步数据流图系统模型,给出了求解所有能耗和吞吐量的帕累托优化点及其相应静态调度的方法。首先将系统模型转换为时间自动机网络,并将分析目标转换为时序逻辑公式;再使用实时模型检测工具UPPAAL寻找解决方案;最后对UPPAAL返回的结果进行分析,找出满足要求的调度。由于模型检测方法可对问题空间进行穷尽搜索,该方法得到的结果是精确的。该方法可帮助设计者在系统开发早期了解系统能耗和吞吐量的量化关系,有利于缩短系统的开发周期,降低开发成本。 展开更多
关键词 同步数据流图 异构多核平台 帕累托优化 调度 模型检测
下载PDF
面向高性能图计算的高效高层次综合方法 被引量:4
9
作者 汤嘉武 郑龙 +1 位作者 廖小飞 金海 《计算机研究与发展》 EI CSCD 北大核心 2021年第3期467-478,共12页
图计算已成为大数据处理领域的主流应用,采用特定硬件加速可以显著提高图计算的性能和能效.众所周知,硬件代码的编写和验证十分耗时,尽管通用高层次综合(high level synthesis,HLS)系统允许用户使用高级语言(如C语言)特性自动生成硬件结... 图计算已成为大数据处理领域的主流应用,采用特定硬件加速可以显著提高图计算的性能和能效.众所周知,硬件代码的编写和验证十分耗时,尽管通用高层次综合(high level synthesis,HLS)系统允许用户使用高级语言(如C语言)特性自动生成硬件结构,但是对于图计算这种不规则算法,其仍缺乏有效的并行性和访存技术支撑,存在综合效果不理想、效率不高等突出问题.提出一种面向图计算的高效HLS方法,结合图算法嵌套循环、随机访存、数据冲突以及幂律分布等特性,采用数据流架构实现高效的并行流水线,保证处理单元的负载均衡.通过提供的编程原语,提出的方法可将通用图算法转化为模块化的数据流中间表示形式,进而映射到参数化的硬件模板.在Xilinx Virtex UltraScale+XCVU9P的实现验证了方法的正确性,不同类型的图算法在多个数据集上的实验结果表明,相比国际上通用的Spatial HLS系统,提出的方法可达到7.9~30.6倍的性能提升. 展开更多
关键词 图计算 高层次综合 数据流架构 中间表示 FPGA
下载PDF
使用SDF图描述的嵌入式DSP系统存储优化
10
作者 吕晖 吴百锋 朱琦 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第11期1575-1579,共5页
提出一种嵌入式DSP系统的存储优化方法 该方法利用遗传算法求得存储需求量较少的同步数据流 (Syn chronousDataFlow ,SDF)图顶点调度序列 ;使用TPFIFO(Two PortFIFO)数据缓冲模型来实现顶点输入边和输出边的存储共享 ,以进一步提高数据... 提出一种嵌入式DSP系统的存储优化方法 该方法利用遗传算法求得存储需求量较少的同步数据流 (Syn chronousDataFlow ,SDF)图顶点调度序列 ;使用TPFIFO(Two PortFIFO)数据缓冲模型来实现顶点输入边和输出边的存储共享 ,以进一步提高数据缓冲的利用率 展开更多
关键词 嵌入式系统 同步数据流图 存储优化 遗传算法
下载PDF
DragDL:一种易用的深度学习模型可视化构建系统 被引量:4
11
作者 汤世征 张岩峰 《计算机科学》 CSCD 北大核心 2021年第8期220-225,共6页
深度学习在各个领域得到了普遍的应用,但是用户在应用深度学习时仍然面临两方面的问题:(1)深度学习有着复杂的理论背景,非专业用户缺乏建模以及调优的背景知识,难以构建性能优化的模型;(2)数据预处理、模型训练、预测等过程往往涉及比... 深度学习在各个领域得到了普遍的应用,但是用户在应用深度学习时仍然面临两方面的问题:(1)深度学习有着复杂的理论背景,非专业用户缺乏建模以及调优的背景知识,难以构建性能优化的模型;(2)数据预处理、模型训练、预测等过程往往涉及比较复杂的编程实现,给没有程序设计基础的非专业用户在入门时带来了一定的困难。针对以上两点易用性问题,文中提出了一种易用的深度学习模型可视化构建系统DragDL,其目的在于降低用户进行数据预处理、模型训练、监控、在线预测等工作的难度。该系统基于PaddlePaddle框架,支持以拖拽图形算子的方式在画布上搭建深度学习网络结构以及推理预测功能,并将数据预处理操作过程抽象成数据流图展示,以方便用户理解和调试。系统还提供训练过程中的质量监控和性能监控的可视化功能,帮助用户实时观察训练情况。同时,DragDL提供经典模型库帮助用户完成建模任务,支持以微调经典模型的方式构建新的模型,降低用户建模时的难度。DragDL基于集群服务器和Web客户端进行部署,服务器为每个训练任务构建虚拟机服务,并支持大规模异步任务调度,具有一定的并发处理能力。 展开更多
关键词 深度学习 图形化编程 数据流图 预训练模型 PaddlePaddle
下载PDF
基于数据流的Java字节码分析 被引量:3
12
作者 倪程 李志蜀 《微计算机信息》 2009年第12期231-232,270,共3页
本文基于数据流框架理论,提出了如何将数据流分析方法应用于JAVA字节码中,通过建立数据流与半格、数据流和函数调用图的关系,从而对类型信息进行分析。实验表明该数据流分析方法能够对文件中的类型信息进行较精确的分析。
关键词 数据流分析 半格 JAVA字节码 控制流图
下载PDF
数据流语言
13
作者 黄兰 乐毓俊 王峰 《天津师大学报(自然科学版)》 1995年第4期49-53,共5页
本文介绍了一种新型的计算机语言──数据流语言,并讨论数据流语言的特性和它的执行模式、设计规则。
关键词 流程图 点火规则 数据流语言 程序语言
下载PDF
CADSE: communication aware design space exploration for efficient run-time MPSoC management
14
作者 Amit Kumar SINGH Akash KUMAR +1 位作者 Jigang WU Thambipillai SRIKANTHAN 《Frontiers of Computer Science》 SCIE EI CSCD 2013年第3期416-430,共15页
Real-time multi-media applications are increasingly mapped on modern embedded systems based on multiprocessor systems-on-chip (MPSoC). Tasks of the applications need to be mapped on the MPSoC resources efficiently i... Real-time multi-media applications are increasingly mapped on modern embedded systems based on multiprocessor systems-on-chip (MPSoC). Tasks of the applications need to be mapped on the MPSoC resources efficiently in order to satisity their performance constraints. Exploring all the possible mappings, i.e., tasks to resources combinations exhaustively may take days or weeks. Additionally, the exploration is performed at design-time, which cannot handle dynamism in applications and resources' status. A runtime mapping technique can cater for the dynamism but cannot guarantee for strict timing deadlines due to large computations involved at run-time. Thus, an approach performing feasible compute intensive exploration at design-time and using the explored results at run-time is required. This paper presents a solution in the same direction. Communicationaware design space exploration (CADSE) techniques have been proposed to explore different mapping options to be selected at run-time subject to desired performance and available MPSoC resources. Experiments show that the proposed techniques for exploration are faster over an exhaustive exploration and provides almost the same quality of results. 展开更多
关键词 multiprocessor systems-on-chip design space exploration run-time mapping synchronous dataflow graphs THROUGHPUT
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部