期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
面向处理器功能验证的硬件化System Verilog断言设计
1
作者 张子卿 石侃 +2 位作者 徐烁翔 王梁辉 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1436-1449,共14页
功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有... 功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升. 展开更多
关键词 断言 处理器验证 硬件仿真 现场可编程逻辑门阵列 原型验证
下载PDF
基于无裁剪图形流水线的三维图形处理器
2
作者 赵皓宇 王重熙 +1 位作者 宋鹏皓 章隆兵 《高技术通讯》 CAS 北大核心 2024年第7期681-691,共11页
传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采... 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。 展开更多
关键词 三维图形处理器 图形流水线 裁剪 向量内积
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:1
3
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
香山开源高性能RISC-V处理器设计与实现 被引量:4
4
作者 王凯帆 徐易难 +28 位作者 余子濠 唐丹 陈国凯 陈熙 勾凌睿 胡轩 金越 李乾若 李昕 蔺嘉炜 刘彤 刘志刚 王华强 王诲喆 张传奇 张发旺 张林隽 张紫飞 张梓悦 赵阳洋 周耀阳 邹江瑞 蔡晔 郇丹丹 李祖松 赵继业 何伟 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第3期476-493,共18页
近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在... 近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在著名开源项目托管平台GitHub上获得超过3200个星标(Star),形成超过400个分支(Fork),成为国际上最热门的开源硬件项目之一,得到国内外企业和研究者的积极支持.香山处理器在近两年时间中历经两代版本演进,第一代“雁栖湖”微架构已经成功流片,回片性能符合预期;第二代“南湖”微架构已进入最后的优化迭代阶段,即将投片,据已知消息,其仿真评估性能在当前开源处理器中排名第一.主要讨论香山前两代微架构的实现细节与设计演进,并系统介绍开发香山过程中的各类挑战与经验. 展开更多
关键词 RISC-V 高性能处理器 开源 芯片设计 敏捷开发
下载PDF
基于SoC-FPGA的RISC-V处理器软硬件系统级平台 被引量:3
5
作者 齐乐 常轶松 +4 位作者 陈欲晓 张旭 陈明宇 包云岗 张科 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1204-1215,共12页
构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软... 构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率. 展开更多
关键词 硅前系统级平台 软硬件全系统评估 RISC-V指令集处理器 SoC-FPGA
下载PDF
HyWarm:针对处理器RTL仿真的自适应混合预热方法
6
作者 周耀阳 韩博阳 +7 位作者 蔺嘉炜 王凯帆 张林隽 余子濠 唐丹 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1246-1261,共16页
在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍... 在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大.HyWarm框架的提出是为了加速性能测算过程中的预热过程.HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间.HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%. 展开更多
关键词 高性能处理器 芯片设计 敏捷开发 负载采样 功能预热
下载PDF
紧耦合异构线程处理器
7
作者 李文青 齐寒 +2 位作者 肖子原 朱威浦 王剑 《高技术通讯》 CAS 2023年第2期113-123,共11页
异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括... 异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括一个硬件CPU线程和一个硬件加速器线程,二者采用流水线紧耦合的硬件线程间通信接口和共享存储的方式降低了通信代价,大幅提高了系统性能。为验证该结构的优势,本文在开源BOOM核的基础上设计了硬件线程间通信接口,实现了一个具有高级加密标淮(AES)加速器的紧耦合异构线程处理器,并在现场可编程门阵列(FPGA)上进行了评估。结果显示,在加密任务中,该处理器吞吐量约是Intel Comet Lake使用AES指令集(AES-NI)的5.7倍,是BOOM平台上仅使用通用指令的4000倍。实验进一步验证了通过CPU和加速器快速通信实现的细粒度并行可以取得更多的性能收益。由此得出结论:该结构能敏捷地将加速器整合到CPU周围,有效降低了通信时间,实现CPU线程和加速器线程的细粒度并行,有效地发挥出异构计算的优势,取得可观的性能收益。 展开更多
关键词 异构计算 异构接口 紧耦合 通信 细粒度并行
下载PDF
基于超低延迟SSD的页交换机制关键技术
8
作者 王紫芮 蒋德钧 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期557-570,共14页
随着内存密集型应用的快速发展,应用对单机内存容量的需求日益增大.然而,受到颗粒密度的限制,内存容量的扩展度较低.页交换机制是进行内存扩展的经典技术,该机制通过将较少使用的内存页面暂存在存储设备,以达到扩展内存的目的.过去页交... 随着内存密集型应用的快速发展,应用对单机内存容量的需求日益增大.然而,受到颗粒密度的限制,内存容量的扩展度较低.页交换机制是进行内存扩展的经典技术,该机制通过将较少使用的内存页面暂存在存储设备,以达到扩展内存的目的.过去页交换机制由于慢速磁盘的读写速度限制,无法被广泛应用.近年来,得益于超低延迟固态硬盘(solid state drive,SSD)的快速发展,页交换机制可以利用其低延迟的读写特性,提升页交换效率.然而,在低I/O延迟的情况下,传统页交换机制的I/O栈存在巨大的软件开销.首先对使用超低延迟SSD的Linux页交换机制进行测试与分析,发现现有页交换机制的主要瓶颈在于发送请求时存在队头阻塞问题、I/O合并和调度开销,以及内核返回路径上的中断处理和直接内存回收开销.基于分析结果,提出基于超低延迟SSD的页交换机制Ultraswap.Ultraswap在Linux I/O栈的基础上增加对轮询请求的处理,并降低I/O合并与调度开销,实现轻量级的I/O栈.基于Ultraswap的I/O栈,对内核页交换机制的换入与换出路径进一步优化.通过优化对缺页、直接内存回收的处理,降低页交换机制关键路径上的时间开销.实验结果表明Ultraswap在应用测试场景下相比Linux页交换机制能够提升19%的平均性能;在可使用内存比例为20%的情况下,Ultraswap可达到33%的性能提升. 展开更多
关键词 页交换 I/O栈 超低延迟SSD 轮询 NVMe SSD
下载PDF
龙芯指令系统架构技术 被引量:7
9
作者 胡伟武 汪文祥 +5 位作者 吴瑞阳 王焕东 曾露 徐成华 高翔 张福新 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期2-16,共15页
介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch).LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确... 介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch).LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确保现有龙芯电脑上应用二进制的无损迁移,而且能够实现多种国际主流指令系统的高效二进制翻译.LoongArch已经被实现于龙芯中科技术股份有限公司研制的3A5000四核CPU.SPEC CPU2006的实验结果表明,在相同微结构下,LoongArch性能比龙芯CPU原指令系统MIPS平均提升超过7%.在硬件辅助支持下,SPEC CPU2000程序从MIPS翻译到LoongArch可以实现无损翻译,其定点程序子集和浮点程序子集从x86翻译到LoongArch的效率分布达QEMU二进制翻译器的3.6倍和47.0倍.LoongArch有望消除指令系统之间的壁垒,使得不同指令集的软件能够融合到统一的LoongArch平台上,不加区别地高效运行. 展开更多
关键词 龙芯CPU MIPS架构 龙架构 二进制翻译 兼容 软件生态系统
下载PDF
边缘计算中面向互动直播的用户分配策略 被引量:1
10
作者 刘伟 张骁宇 +1 位作者 杜薇 彭若涛 《计算机研究与发展》 EI CSCD 北大核心 2023年第8期1858-1874,共17页
将互动直播部署在边缘计算环境中,可以在网络边缘对直播视频进行转码和传输,通过用户附近的边缘服务器提供低延迟的直播服务.然而,在多边缘服务器、多用户场景下存在着直播用户分配问题,导致直播用户体验质量(quality of experience, Q... 将互动直播部署在边缘计算环境中,可以在网络边缘对直播视频进行转码和传输,通过用户附近的边缘服务器提供低延迟的直播服务.然而,在多边缘服务器、多用户场景下存在着直播用户分配问题,导致直播用户体验质量(quality of experience, QoE)无法得到保证.为了提高直播用户QoE,需要根据用户的个性化需求合理地分配服务器资源.首先分析真实数据集,发现大多数用户处于多基站重叠覆盖区域内,并且不同用户的互动需求存在差异;然后根据互动直播的特点提出一种适用于边缘计算场景的用户QoE模型,该模型综合考虑了直播用户的视频质量和互动体验;最后设计一种高效的直播用户分配算法,优化了多边缘服务器重叠覆盖区域内的直播用户QoE.仿真实验表明,所提出的用户分配策略可为用户提供高码率和低延迟的直播视频,同时能有效降低边缘服务器切换次数和码率抖动,使直播用户QoE相较于其他策略提升超过19%. 展开更多
关键词 互动直播 边缘计算 用户体验 重叠覆盖区域 用户分配
下载PDF
ORB-SLAM系统特征分析研究 被引量:1
11
作者 薛瑞 李易 +3 位作者 李文明 安述倩 叶笑春 唐志敏 《高技术通讯》 CAS 2022年第11期1112-1125,共14页
随着自动驾驶汽车、机器人、无人机、虚拟现实和增强现实等应用的飞速发展,其核心技术同步定位和建图(SLAM)成为目前热门研究方向之一。ORB-SLAM系统作为典型的基于特征点法的SLAM系统,具有更好的鲁棒性和更高的计算效率,无论在系统优... 随着自动驾驶汽车、机器人、无人机、虚拟现实和增强现实等应用的飞速发展,其核心技术同步定位和建图(SLAM)成为目前热门研究方向之一。ORB-SLAM系统作为典型的基于特征点法的SLAM系统,具有更好的鲁棒性和更高的计算效率,无论在系统优化层面还是底层硬件架构设计层面一直被广泛关注。然而目前学术界和工业界缺乏面向ORB-SLAM系统底层硬件架构设计的系统特征分析研究。本文从跟踪线程、地图构建线程和回环检测线程出发详细介绍ORB-SLAM系统,选取了ORB-SLAM2系统进行了性能分析实验,得到了ORB特征提取和块求解器2个热点函数,并分析了2个热点函数的执行特征。在Intel i5-6500和ARM Neoverse-N1处理器平台实验对比评估了2个热点函数的IPC、分支预测失效率、一级数据缓存读失效率、最后一级缓存失效率和最后一级缓存MPKI等特征,并总结了对体系结构设计的需求,为面向ORB-SLAM系统的底层硬件架构设计提供了指导性建议。 展开更多
关键词 ORB-SLAM 热点函数 特征分析 硬件架构设计
下载PDF
Puzzle:面向深度学习集成芯片的可扩展框架
12
作者 王梦迪 王颖 +5 位作者 刘成 常开颜 高成思 韩银和 李华伟 张磊 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1216-1231,共16页
芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软... 芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用.然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势.因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)--Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销.实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5%的工作负载运行延迟. 展开更多
关键词 芯片敏捷定制 芯粒 深度学习芯片 神经网络处理器 任务调度
下载PDF
容错深度学习加速器跨层优化
13
作者 张青 刘成 +4 位作者 刘波 黄海同 王颖 李华伟 李晓维 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1370-1387,共18页
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的... 容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销. 展开更多
关键词 跨层优化 容错深度学习加速器 脆弱因子 异构架构 选择性冗余
下载PDF
基于紧耦合加速器的高性能Java压缩系统
14
作者 王雪 李文青 +3 位作者 张婷婷 张福新 王剑 敖琪 《高技术通讯》 CAS 北大核心 2024年第4期386-395,共10页
Java无损压缩应用广泛,尽管软件算法在不断改进,但仍然存在压缩速度慢、耗时严重等问题。本文使用领域前沿的紧耦合框架集成压缩加速器的处理器平台,设计了一个高性能Java压缩系统,在Java虚拟机(JVM)内部实现了对紧耦合无损压缩加速器... Java无损压缩应用广泛,尽管软件算法在不断改进,但仍然存在压缩速度慢、耗时严重等问题。本文使用领域前沿的紧耦合框架集成压缩加速器的处理器平台,设计了一个高性能Java压缩系统,在Java虚拟机(JVM)内部实现了对紧耦合无损压缩加速器的封装,并为其提供了轻量级运行时环境。本系统可以有效减少通信开销、避免数据拷贝问题,具有易编程、快速压缩的特点,充分发挥加速器给Java压缩带来的性能优势。实验结果表明,此系统大幅提升了Java压缩性能,压缩速度达到主流Java Gzip软件压缩的63倍,最高可达247倍,且在大数据集下性能提升更显著。 展开更多
关键词 Java压缩 无损压缩 紧耦合加速器 Java虚拟机(JVM)
下载PDF
基于FPGA的排序加速方法综述
15
作者 孔浩 卢文岩 +2 位作者 陈岩 鄢贵海 李晓维 《计算机研究与发展》 EI CSCD 北大核心 2024年第3期780-798,共19页
对于FPGA排序加速来说,各类性能指标的选取与优化至关重要,如延时、吞吐率、功耗、硬件利用率和带宽利用率等.梳理了性能驱动下的排序加速发展脉络,在数据规模、数据类型、算法支持、软硬件协同和新型硬件等方面均取得了进展;分析了在... 对于FPGA排序加速来说,各类性能指标的选取与优化至关重要,如延时、吞吐率、功耗、硬件利用率和带宽利用率等.梳理了性能驱动下的排序加速发展脉络,在数据规模、数据类型、算法支持、软硬件协同和新型硬件等方面均取得了进展;分析了在设计、实现、测试等各不同阶段所面临的问题及优化策略,其中归并排序因其自身优良的硬件并行性、可扩展性和控制逻辑简单等特性成为主流.排序加速是与特定应用场景深度绑定的架构设计,进一步从数据库系统加速角度出发,针对数据库排序所面临的资源竞争、数据组织方式、特有操作以及用户请求多样性等问题,分析了其所进行的架构调整.最后针对现有研究的问题及缺陷,从分布式排序加速、数据处理器、高层次综合辅助工具链等方面对未来的发展方向进行了展望. 展开更多
关键词 加速 数据库 现场可编程门阵列 综述 排序
下载PDF
HSEGRL:一种分层可自解释的图表示学习模型
16
作者 李平 宋舒寒 +3 位作者 张园 曹华伟 叶笑春 唐志敏 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1993-2007,共15页
近年来,随着图神经网络(graph neural network,GNN)技术在社交、信息、化学、生物等领域的广泛应用,GNN可解释性也受到广泛的关注.然而,现有的解释方法无法捕获层次化的解释信息,同时,这些层次信息未能被充分利用以提升图分类任务的准确... 近年来,随着图神经网络(graph neural network,GNN)技术在社交、信息、化学、生物等领域的广泛应用,GNN可解释性也受到广泛的关注.然而,现有的解释方法无法捕获层次化的解释信息,同时,这些层次信息未能被充分利用以提升图分类任务的准确率.基于这一问题,提出了一种层次化自解释的图表示学习(hierarchical self-explanation graph representation learning,HSEGRL)模型,该模型通过发现图结构中的层次信息进行图分类预测的同时,输出层次化的模型自解释结果.具体而言,针对图层次信息的发现设计了提取信息的基本单元——解释子,该解释子由提取节点特征的编码器获取层次化解释感知子图的池化层和抽取高阶解释信息的解码器组成.其中,为了准确提取层次化的解释子图,针对该模型的池化操作进行了解释感知优化设计,该设计通过评估模型的拓扑及特征重要性,层次化地筛选解释子图,实现分层自解释的同时完成图分类任务.HSEGRL是一个功能完备且便于迁移的图表示学习自解释模型,可以层次化综合考虑模型的拓扑信息与节点特征信息.在模型有效性验证层面,分别在分子、蛋白质和社交数据集上进行大量实验,实验结果表明所提模型在图分类任务中的分类准确率高于已有的先进的GNN自解释模型和GNN模型,并通过可视化分层解释结果的信息证明了该解释方法可信. 展开更多
关键词 图表示学习 图神经网络 可自解释模型 图拓扑 消息传递机制
下载PDF
面向设备直通的高效低延时的中断直通方法
17
作者 吕晨 张福新 +3 位作者 朱琛 毛碧波 邓平科 潘筱涵 《高技术通讯》 CAS 北大核心 2024年第8期842-853,共12页
针对对称多处理器(SMP)虚拟机(VM)的虚拟中央处理器(vCPU)调度延迟会降低虚拟机输入/输出(I/O)响应性的问题,本文基于设备直通提出了一种高效低延迟的中断直通方法。该方法基于硬件辅助技术,搭建了中断直通架构,并设计了中断重定向机制... 针对对称多处理器(SMP)虚拟机(VM)的虚拟中央处理器(vCPU)调度延迟会降低虚拟机输入/输出(I/O)响应性的问题,本文基于设备直通提出了一种高效低延迟的中断直通方法。该方法基于硬件辅助技术,搭建了中断直通架构,并设计了中断重定向机制,将直通设备中断从被抢占的vCPU重定向至正在运行的vCPU。实验结果表明,网络往返时延平均减少了34.1%,吞吐量最高提升7.9%,Apache测试每个服务器请求所需时间平均减少了13.6%,磁盘I/O操作时延平均减少了6.7%~8.4%。实验结果证明,该方法能有效减少虚拟机虚拟CPU调度对I/O延迟的影响,提高虚拟机I/O响应性。 展开更多
关键词 中断重映射 输入/输出(I/O)虚拟化 设备直通 基于内核的虚拟机(KVM) I/O响应性
下载PDF
面向高密度混部的动态资源分配方法
18
作者 郭静 胡存琛 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第9期2384-2399,共16页
当前的无服务计算提供商采用了一种灵活度低、固定CPU和内存分配比例的耦合式资源分配策略.随着更多类型应用被部署在无服务计算平台中,该策略已无法满足函数应用的多样化资源需求.由于函数应用的资源分配粒度小、部署密度高,若将CPU与... 当前的无服务计算提供商采用了一种灵活度低、固定CPU和内存分配比例的耦合式资源分配策略.随着更多类型应用被部署在无服务计算平台中,该策略已无法满足函数应用的多样化资源需求.由于函数应用的资源分配粒度小、部署密度高,若将CPU与内存资源的分配进行解耦,需解决资源配置空间爆炸问题.提出Semi-Share,一个面向无服务计算的解耦式资源管理系统,为函数寻找最优资源配置的同时降低混部函数之间的干扰.为解决资源配置空间爆炸问题,Semi-Share构建了一个2层资源分配架构,将资源配置空间划分为多个子空间来降低问题复杂度.第1层是函数分组,基于函数的资源使用特征和历史负载信息进行函数分组,根据分组将资源配置空间划分为多个子空间.第2层是资源分配,利用贝叶斯优化和加权打分函数来指导模型在资源配置空间中朝正确的方向搜索,降低时间开销.实验结果显示,Semi-Share相较于被广泛使用的梯度下降搜索法降低了平均85.77%的时间开销,并为函数带来平均42.72%的性能提升;与同样使用贝叶斯优化的耦合式资源分配系统COSE相比,Semi-Share能带来平均32.25%的性能提升. 展开更多
关键词 无服务计算 混部 性能保障 服务质量 资源分配 高部署密度
下载PDF
X-Debugger:基于FPGA的扫描调试器设计及实现
19
作者 李小波 唐志敏 《高技术通讯》 CAS 北大核心 2024年第8期824-831,共8页
针对芯片硅后调试面临内部信号可观测性差、可控制性弱、内部状态不易恢复重建等问题,本文设计和实现了一款基于现场可编程门阵列(FPGA)的快速扫描调试器XDebugger。该调试器复用传统可测试设计(DFT)扫描链路逻辑,在芯片的设计阶段插入... 针对芯片硅后调试面临内部信号可观测性差、可控制性弱、内部状态不易恢复重建等问题,本文设计和实现了一款基于现场可编程门阵列(FPGA)的快速扫描调试器XDebugger。该调试器复用传统可测试设计(DFT)扫描链路逻辑,在芯片的设计阶段插入基于功能模块前导码的扫描控制电路,实现了芯片内部各数字逻辑模块信号100%可见;通过基于FPGA的扫描调试器X-Debugger可以快速完成芯片内部寄存器状态获取和修改,并结合硬件加速器可以完成芯片内部逻辑状态的快速重建,从而形成硅后调试闭环。在某处理器芯片硅后调试实践中的结果表明,对于小于100万触发器的功能模块可以在1 s内完成内部状态获取、修改和重建,全芯片通过X-Debugger内部信号获取和重建小于1 min,极大提高了该处理器芯片的硅后调试效率。 展开更多
关键词 硅后调试 现场可编程门阵列(FPGA) 扫描链 寄存器回读 状态重建
下载PDF
图知识蒸馏综述:算法分类与应用分析
20
作者 刘静 郑铜亚 郝沁汾 《软件学报》 EI CSCD 北大核心 2024年第2期675-710,共36页
图数据,如引文网络,社交网络和交通网络,广泛地存在现实生活中.图神经网络凭借强大的表现力受到广泛关注,在各种各样的图分析应用中表现卓越.然而,图神经网络的卓越性能得益于标签数据和复杂的网络模型,而标签数据获取困难且计算资源代... 图数据,如引文网络,社交网络和交通网络,广泛地存在现实生活中.图神经网络凭借强大的表现力受到广泛关注,在各种各样的图分析应用中表现卓越.然而,图神经网络的卓越性能得益于标签数据和复杂的网络模型,而标签数据获取困难且计算资源代价高昂.为了解决数据标签的稀疏性和模型计算的高复杂性问题,知识蒸馏被引入到图神经网络中.知识蒸馏是一种利用性能更好的大模型(教师模型)的软标签监督信息来训练构建的小模型(学生模型),以期达到更好的性能和精度.因此,如何面向图数据应用知识蒸馏技术成为重大研究挑战,但目前尚缺乏对于图知识蒸馏研究的综述.旨在对面向图的知识蒸馏进行全面综述,首次系统地梳理现有工作,弥补该领域缺乏综述的空白.具体而言,首先介绍图和知识蒸馏背景知识;然后,全面梳理3类图知识蒸馏方法,面向深度神经网络的图知识蒸馏、面向图神经网络的图知识蒸馏和基于图知识的模型自蒸馏方法,并对每类方法进一步划分为基于输出层、基于中间层和基于构造图知识方法;随后,分析比较各类图知识蒸馏算法的设计思路,结合实验结果总结各类算法的优缺点;此外,还列举图知识蒸馏在计算机视觉、自然语言处理、推荐系统等领域的应用;最后对图知识蒸馏的发展进行总结和展望.还将整理的图知识蒸馏相关文献公开在GitHub平台上,具体参见:https://github.com/liujing1023/Graph-based-Knowledge-Distillation. 展开更多
关键词 图数据 图神经网络 知识蒸馏
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部