-
题名基于FPGA的排序加速方法综述
- 1
-
-
作者
孔浩
卢文岩
陈岩
鄢贵海
李晓维
-
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
中国科学院大学
中科驭数(北京)科技有限公司
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第3期780-798,共19页
-
基金
国家自然科学基金项目(62002340,61872336,62090020)
中国科学院战略性先导科技专项(XDB44030100)
中国科学院青年创新促进会(Y201923)。
-
文摘
对于FPGA排序加速来说,各类性能指标的选取与优化至关重要,如延时、吞吐率、功耗、硬件利用率和带宽利用率等.梳理了性能驱动下的排序加速发展脉络,在数据规模、数据类型、算法支持、软硬件协同和新型硬件等方面均取得了进展;分析了在设计、实现、测试等各不同阶段所面临的问题及优化策略,其中归并排序因其自身优良的硬件并行性、可扩展性和控制逻辑简单等特性成为主流.排序加速是与特定应用场景深度绑定的架构设计,进一步从数据库系统加速角度出发,针对数据库排序所面临的资源竞争、数据组织方式、特有操作以及用户请求多样性等问题,分析了其所进行的架构调整.最后针对现有研究的问题及缺陷,从分布式排序加速、数据处理器、高层次综合辅助工具链等方面对未来的发展方向进行了展望.
-
关键词
加速
数据库
现场可编程门阵列
综述
排序
-
Keywords
acceleration
database
FPGA
review
sort
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名HyperTree:高并发B+树索引加速器
被引量:1
- 2
-
-
作者
吴婧雅
卢文岩
鄢贵海
李晓维
-
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
中国科学院大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第7期1661-1677,共17页
-
基金
国家自然科学基金项目(62002340,61872336,61572470)
中国科学院青促会基金项目(Y404441000)。
-
文摘
B+树是关系型数据库中用来加速查询的常用索引结构,通过构建平衡树维护关键属性的顺序.索引提升了数据库查询性能,但其严格的有序关系增加了数据库表的维护开销.特别是在大数据场景下,数据量激增使得索引查询和维序性能进一步下降.如何平衡B+树的查询和维序性能,以及在大数据场景下提升索引查询和维序的效率,对提升索引系统性能具有重要意义.由此设计了一种专用的B+树索引加速系统,对存储和计算进行协同优化,均衡提升索引查询和维序性能.利用内存突发读写高带宽的特性设计规则的树和节点存储格式以提升内存带宽利用效率,设计高效的同构计算架构和多数据通道以提升索引操作并行度.同时设计解耦合的子树结构缓解索引维护时的树读写冲突.实验结果表明,相比于CPU,B+树索引加速系统能够提升系统查询性能超过6.84倍,提升索引维序性能提升超过29.14倍.
-
关键词
B+树
现场可编程门阵列
加速器
高吞吐量
高并发
数据库查询
-
Keywords
B+tree
FPGA
accelerator
high throughput
high concurrency
database query
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名基于FPGA的软硬件协同的多表哈希连接加速器
- 3
-
-
作者
吴婧雅
卢文岩
鄢贵海
李晓维
-
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
-
出处
《高技术通讯》
CAS
2023年第11期1123-1135,共13页
-
基金
国家自然科学基金(61572470,62002340,61872336)
中国科学院大学青促会基金项目(Y404441000)资助。
-
文摘
多表连接操作难以实现硬件加速。一方面,多表连接请求中表的数目不确定且连接方式多变,这种灵活的计算请求与固定的硬件行为之间存在矛盾;另一方面,多表连接的中间结果随表的增加而扩充,数据结构的管理和维护也要求更高的硬件开销。为支持灵活高效的多表连接计算,本文提出一种软硬件协同的优化方法。软件部分,将多表连接抽象为正向和反向2种计算模式并支持不同方式的多表连接。硬件设计采用访存和计算协同优化的方法:设计一种规则的硬件哈希表结构以提高内存访存带宽;设计支持正反向计算的同构专用计算引擎,配置多数据通道和指令控制系统实现高效的并行运算,提升多表哈希连接的计算效率。实验结果表明,相比中央处理器(CPU)执行表连接操作,单计算引擎能够提升性能9.2~11.0倍。通过多路并行的技术,实现8路并行的多表哈希引擎,能够充分利用板卡片外(DDR)内存带宽,实现相比CPU超过71.1倍的性能提升。
-
关键词
现场可编程门阵列(FPGA)
多表连接
哈希连接
软硬件协同
-
Keywords
field programmable gate array(FPGA)
multi-table join
Hash join
hardware-software co-design
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TN791
[电子电信—电路与系统]
-
-
题名计算机系统容错设计简述
被引量:1
- 4
-
-
作者
鄢贵海
李晓维
-
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
-
出处
《集成技术》
2013年第6期82-88,共7页
-
文摘
高可靠计算机系统是是保证信息服务质量的基石。从第一台计算机ENIAC诞生起,可靠性就是计算机系统面临的主要挑战之一,容错设计是实现可靠性的有效途径,也是一项典型的跨计算机多个设计层次的系统科学。从底层的器件到顶层的应用程序,都存在优化可靠性的设计空间,每个层次的设计面向特定的可靠性设计挑战。文章将遵循自底向上的逻辑层次简述这些经典的设计方法。
-
关键词
计算机系统
可靠性
容错设计
-
Keywords
computer system
reliability
fault tolerance
-
分类号
TP302.7
[自动化与计算机技术—计算机系统结构]
-
-
题名适应宽温环境的集成电路低功耗实现技术
被引量:2
- 5
-
-
作者
邱吉冰
鄢贵海
韩银和
-
机构
北京计算机技术及应用研究所
中国科学院计算技术所计算机体系结构国家重点实验室
中国科学院大学
-
出处
《计算机工程与设计》
北大核心
2016年第1期269-274,F0003,共7页
-
基金
国家自然科学基金项目(61076037)
-
文摘
在分析电路时序与温度、电压关系的基础上,提出基于延迟负反馈的硬件自适应电压调节结构。采用包含温度补偿的时延测量电路在线感知关键路径时序余量的变化,通过磁滞PID控制逻辑动态调节电压转换器的供电电压,使功能电路能够保证一定的时序余量不发生时序违规,调低工作电压降低功耗。控制结构采用RTL实现,不需软件参与,应用于浮点运算器的实验结果表明,电路工作温度在-55℃~125℃范围内变化时,功耗减小29.6%,且不发生时序违,使用该技术的集成电路在不同温度下的功耗和电压需求与太阳能帆板-蓄电池的输出特性相适应,有利于能源的高效利用。
-
关键词
温度变化
延迟测量
自适应电压调节
闭环控制
低功耗
-
Keywords
temperature fluctuation
delay measurement
self-adaptive voltage tuning
close-loop control
low power
-
分类号
TP306.2
[自动化与计算机技术—计算机系统结构]
-
-
题名大规模高通量计算系统的可靠性设计研究年度报告
- 6
-
-
作者
李晓维
鄢贵海
韩银和
-
机构
中国科学院计算技术研究所
-
出处
《科技创新导报》
2016年第9期169-169,共1页
-
文摘
高通量计算系统由海量的计算节点、存储节点通过网络互连而成。由于规模巨大,系统的可靠性成为一个非常严重的问题,部件失效已经成为一种常态,系统设计必须考虑容错的问题。我们需要建立新的高通量计算系统的可靠性保障框架,来适应高通量计算中不同层次的可靠性需求,研究从芯片级到系统级跨层次的可靠计算技术。围绕该目标,该研究从高通量处理芯片的故障检测和容错设计方法,高通量计算系统的失效检测和恢复方法和从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合(5S)支撑环境3方面展开研究。截至2013年各项工作按照任务书原定计划正在稳步推进,部分工作取得阶段性成果。在(1)针对NBTI老化故障的在线预测技术;(2)深度学习等系统故障预测技术;(3)寄存器故障诊断;(4)片上网络通信隔离技术等技术点上取得了突破,共发表录用了IEEE Transactions论文6篇,其他期刊论文1篇。从研究点覆盖来看,部署到研究点已经全部覆盖了任务书规定的所有研究计划,并对某些研究点进行了细化。
-
关键词
可靠性设计
故障检测
深度学习
在线预测
通信隔离
-
Keywords
Reliability design
Fault detectionIDeep learning
Online prediction
Communication isolation
-
分类号
TP334.4
[自动化与计算机技术—计算机系统结构]
-
-
题名基于资源配置等效性的数据中心能耗优化
被引量:2
- 7
-
-
作者
孙发强
鄢贵海
李华伟
韩银和
-
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
-
出处
《高技术通讯》
CAS
CSCD
北大核心
2016年第4期323-332,共10页
-
基金
国家自然科学基金(61221062
61376043
+2 种基金
61432017
61572470
61532017)资助项目
-
文摘
针对数据中心服务器的低能效问题,进行了利用资源配置的等效性来优化服务器能效比的研究。研究发现,应用程序的多种资源分配方案具有相同的性能,但表现出较大的能耗差异,这种现象叫做"基于性能等效的资源配置",简称"等效配置"。基于这种观察,提出了两种优化能效比的算法——SmartRank算法和Smart Balance算法。SmartRank算法使用资源等效替换的方法寻找能耗最低的资源配置,来达到局部最优的能效比;Smart Balance算法通过评估资源需求向量与剩余资源间的关系来均衡资源分配,同时兼顾单个应用的能耗开销,从而达到全局最大能效比。实验表明,通过对这两个算法的优化,可实现平均节省3%的系统能耗,局部最大可以节省12.5%的能耗。
-
关键词
功耗管理
数据中心
资源等效替换
资源利用率
资源分配
-
Keywords
power management, datacenter, resource equivalent replacement, resource utilization, resource allocation
-
分类号
TP308
[自动化与计算机技术—计算机系统结构]
-
-
题名机器学习算法可近似性的量化评估分析
被引量:1
- 8
-
-
作者
江树浩
鄢贵海
李家军
卢文岩
李晓维
-
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第6期1337-1347,共11页
-
基金
国家自然科学基金项目(61572470
61532017
+4 种基金
61522406
61432017
61376043
61521092)
中国科学院青年创新促进会项目(404441000)~~
-
文摘
近年来,以神经网络为代表的机器学习算法发展迅速并被广泛应用在图像识别、数据搜索乃至金融趋势分析等领域.而随着问题规模的扩大和数据维度的增长,算法能耗问题日益突出,由于机器学习算法自身拥有的近似特性,近似计算这种牺牲结果的少量精确度降低能耗的技术,被许多研究者用来解决学习算法的能耗问题.我们发现,目前的工作大多专注于利用特定算法的近似特性而忽视了不同算法近似特性的差别对能耗优化带来的影响,而为了分类任务使用近似计算时能够做出能耗最优的选择,了解算法"可近似性"上的差异对近似计算优化能耗至关重要.因此,选取了支持向量机(SVM)、随机森林(RF)和神经网络(NN)3类常用的监督型机器学习算法,评估了针对不同类型能耗时不同算法的可近似性,并建立了存储污染敏感度、访存污染敏感度和能耗差异度等指标来表征算法可近似性的差距,评估得到的结论将有助于机器学习算法在使用近似计算技术时达到最优化能耗的目的.
-
关键词
监督机器学习算法
近似计算
可近似性
能耗优化
-
Keywords
supervised machine learning algorithm
approximate computing
approxim atability
energy consumption optimization
quantitative model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名PPTM:一种面向异构系统的主动式任务映射方法
- 9
-
-
作者
龚施俊
鄢贵海
李晓维
-
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
中国科学院大学
-
出处
《高技术通讯》
CAS
2022年第2期161-172,共12页
-
基金
国家自然科学基金(61872336,61572470,61532017,61432017,61521092,61376043)
中国科学院青年创新促进会(404441000)资助项目。
-
文摘
在数据高速增长的背景下,异构计算作为满足新兴应用不断提高的算力需求的有效途径,涌现了许多异构加速系统。在这些异构加速系统中,高效的任务映射是充分发挥加速器潜能提升应用程序性能的关键之一。先前工作提出了许多基于有向无环图如何最小化应用程序整体执行时间和最小化异构多处理器之间通信开销等高效的任务映射方法,这些工作通常采用将任务映射到加速器上来提高整个应用的性能。但某些应用程序如果将所有子任务全部映射到加速器上执行,会带来额外的通信开销,进而可能达不到提升性能的预期,甚至造成整个应用程序的性能下降。因此,本文提出了一种基于预测的主动式任务映射算法(PPTM)来应对这样的场景,实现高效的任务映射。实验表明,本文算法能够更准确感知计算任务的运行时状态,大幅提高应用程序的整体性能。
-
关键词
异构计算
异构加速系统
任务映射
主动式
预测算法
加速器
-
Keywords
heterogeneous computing
heterogeneous accelerating system
task mapping
proactive
prediction algorithm
accelerator
-
分类号
TP332
[自动化与计算机技术—计算机系统结构]
-
-
题名专用处理器比较分析
被引量:4
- 10
-
-
作者
鄢贵海
卢文岩
李晓维
孙凝晖
-
机构
中国科学院计算技术研究所
-
出处
《中国科学:信息科学》
CSCD
北大核心
2022年第2期358-375,共18页
-
基金
国家自然科学基金(批准号:61872336,62002340,62090020)
中国科学院2020年度青年创新促进会优秀会员(批准号:Y201923)
中国科学院B类战略性先导科技专项(批准号:XDB44030100)资助。
-
文摘
微处理器是现代信息系统的核心基础设施.大数据、人工智能、5G等技术的快速发展催生了数据量的爆发性增长,随之对数据处理能力的需求也急剧增长.专用计算技术被广泛认为是后摩尔时代的计算机体系结构演化的重要方向.专用处理器技术的发展一直伴生着通用处理器的发展,数字信号处理技术甚至早于传统意义上的通用处理器.通用处理器技术的发展,不仅在商业上取得了巨大的成功,很多关键技术也被专用处理器吸收借鉴用于提升专用计算的性能、优化可编程性等.本文主要分析了数字信号处理器(DSP)、图像处理器(GPU)、深度学习处理器(AI芯片)和网络处理器(NPU)的关键技术特征,并进一步对专用计算架构未来发展可能涉及的关键点作出了简要的评述.
-
关键词
专用处理器
数字信号处理
图像处理
深度学习
网络处理
-
Keywords
domain-specific processor
digital signal processing
graphic processing
deep learning
network processing
-
分类号
TP332
[自动化与计算机技术—计算机系统结构]
-
-
题名专用处理器芯片自动设计技术与应用
- 11
-
-
作者
无
王颖
李晓维
李华伟
鄢贵海
-
机构
中国科学院计算技术研究所
中科驭数(北京)科技有限公司
中科物栖(北京)科技有限责任公司
中国科学院计算技术研究所计算机体系结构国家重点实验室
-
出处
《中国科技成果》
2022年第5期76-76,F0003,共2页
-
文摘
集成电路芯片的敏捷开发与自动设计技术被认为是后摩尔时代降低芯片开发成本与设计周期的关键技术路径,也是未来集成电路的电子设计自动化(EDA)技术的重要发展方向.为了应对人工智能物联网(AIoT)时代海量端设备对于专用处理器芯片的碎片化设计需求,变革现有专用处理器芯片设计方法,研究专用处理器芯片自动设计技术,对于降低处理器芯片的设计门槛与成本,打破国外EDA技术壁垒具有重要意义.
-
关键词
专用处理器
处理器芯片
敏捷开发
自动设计
集成电路芯片
技术路径
芯片开发
碎片化设计
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-