期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
面向多应用混部的性能保障方法综述
1
作者 郭静 胡存琛 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期43-65,共23页
数据中心的高投入和低资源利用率一直是云服务提供商关注的问题.面对这个难题,直接的解决方案是在同等资源上混合部署更多的应用以提高资源使用效率.然而,由于混部应用对共享资源的竞争导致了应用间的性能干扰,从而影响了应用的性能、... 数据中心的高投入和低资源利用率一直是云服务提供商关注的问题.面对这个难题,直接的解决方案是在同等资源上混合部署更多的应用以提高资源使用效率.然而,由于混部应用对共享资源的竞争导致了应用间的性能干扰,从而影响了应用的性能、服务质量(quality of service,QoS)和用户满意度,因此如何保障应用的性能已成为混部场景下的关键问题.着重从应用和集群特征分析(基础)、干扰检测(前提)、单节点资源分配(微观层面策略)和集群作业调度(宏观层面策略)4个方面阐述多应用混部性能保障的相关背景、挑战和关键技术.在不同的混部场景下,由于应用和集群特征等不同,性能保障工作所面临的挑战和问题复杂度也各异,例如单位资源上混合部署的应用数量会直接影响到搜索资源空间的时间开销,应用的运行方式会影响到共享资源的竞争强度.因此,从问题复杂度角度出发,从应用和集群特征、资源干扰维度和混部应用个数3个维度对相关研究工作面临的挑战进行讨论和分析.探讨了面向高密度混部场景应用性能保障方法的发展方向和挑战,认为全栈式的软硬件协同方法是保障高密度混部下应用性能的趋势,该方法有助于全面地提升应用性能的可靠性和数据中心的资源利用率. 展开更多
关键词 混部 性能保障 服务质量 资源共享 资源隔离 干扰检测 资源管理 作业调度
下载PDF
面向高密度混部的动态资源分配方法
2
作者 郭静 胡存琛 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第9期2384-2399,共16页
当前的无服务计算提供商采用了一种灵活度低、固定CPU和内存分配比例的耦合式资源分配策略.随着更多类型应用被部署在无服务计算平台中,该策略已无法满足函数应用的多样化资源需求.由于函数应用的资源分配粒度小、部署密度高,若将CPU与... 当前的无服务计算提供商采用了一种灵活度低、固定CPU和内存分配比例的耦合式资源分配策略.随着更多类型应用被部署在无服务计算平台中,该策略已无法满足函数应用的多样化资源需求.由于函数应用的资源分配粒度小、部署密度高,若将CPU与内存资源的分配进行解耦,需解决资源配置空间爆炸问题.提出Semi-Share,一个面向无服务计算的解耦式资源管理系统,为函数寻找最优资源配置的同时降低混部函数之间的干扰.为解决资源配置空间爆炸问题,Semi-Share构建了一个2层资源分配架构,将资源配置空间划分为多个子空间来降低问题复杂度.第1层是函数分组,基于函数的资源使用特征和历史负载信息进行函数分组,根据分组将资源配置空间划分为多个子空间.第2层是资源分配,利用贝叶斯优化和加权打分函数来指导模型在资源配置空间中朝正确的方向搜索,降低时间开销.实验结果显示,Semi-Share相较于被广泛使用的梯度下降搜索法降低了平均85.77%的时间开销,并为函数带来平均42.72%的性能提升;与同样使用贝叶斯优化的耦合式资源分配系统COSE相比,Semi-Share能带来平均32.25%的性能提升. 展开更多
关键词 无服务计算 混部 性能保障 服务质量 资源分配 高部署密度
下载PDF
面向处理器功能验证的硬件化System Verilog断言设计
3
作者 张子卿 石侃 +2 位作者 徐烁翔 王梁辉 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1436-1449,共14页
功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有... 功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升. 展开更多
关键词 断言 处理器验证 硬件仿真 现场可编程逻辑门阵列 原型验证
下载PDF
基于开源大趋势的芯片设计正在走向开放
4
作者 包云岗 《新经济导刊》 2023年第4期33-38,共6页
开源项目中体现的数字优先思维方式和远程优先协作模式是解决创新研发生态商业协同难题的有效生产方式,已经成为EDA等关键软硬件技术升级和产业发展的主要模式。在芯片设计领域,开源RISC-V发展迅速,生态、产品化均有长足进展。AI大模型... 开源项目中体现的数字优先思维方式和远程优先协作模式是解决创新研发生态商业协同难题的有效生产方式,已经成为EDA等关键软硬件技术升级和产业发展的主要模式。在芯片设计领域,开源RISC-V发展迅速,生态、产品化均有长足进展。AI大模型的运算,需要在处理单元与存储单元之间做大量的数据迁移,给芯片的功耗、成本带来极大负担,对算力提出更高需求。RISC-V作为一种开源指令集,其开放性可以在芯片开发中给予设计人员更大的自由度与创新空间。作为最受关注的开源硬件项目之一,中国的香山(一款开源RISC-V处理器核)在Git Hub获得了超过3580个芯标,在全球有着巨大的影响力。香山项目如何发展,如何进一步发挥RISC-V开源优势推进创新,中国在全球RISC-V生态中发挥着怎样的作用,未来发展趋势如何演变等,已成为市场关注的重点方向。 展开更多
关键词 开源 芯片开放设计 RISC-V 香山 德州仪器模式 变革与机遇
下载PDF
前言
5
作者 李华伟 包云岗 梁云 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1202-1203,共2页
处理器芯片是电子信息产业的基石,应用驱动逐渐成为后摩尔时代处理器芯片发展的一大趋势.大量直接面向应用领域的专用处理器芯片定制需求将芯片设计推向更高抽象层次,甚至应用软件端.而依赖于现有电子设计自动化(EDA)技术,设计与制造一... 处理器芯片是电子信息产业的基石,应用驱动逐渐成为后摩尔时代处理器芯片发展的一大趋势.大量直接面向应用领域的专用处理器芯片定制需求将芯片设计推向更高抽象层次,甚至应用软件端.而依赖于现有电子设计自动化(EDA)技术,设计与制造一款处理器芯片涉及到多个环节,包括体系结构设计、外围IP模块选型、前端逻辑设计、可测试性设计、后端物理设计、流片与封装测试等,每个环节都需要相当多的资金、人力与时间投入.发展处理器芯片敏捷设计方法与关键技术对于解决芯片设计的门槛高、投入大、周期长,以及工具链被国际EDA巨头长期垄断等难题具有重大意义. 展开更多
关键词 处理器芯片 专用处理器 应用软件 可测试性设计 工具链 敏捷设计 电子信息产业 封装测试
下载PDF
香山开源高性能RISC-V处理器设计与实现 被引量:3
6
作者 王凯帆 徐易难 +28 位作者 余子濠 唐丹 陈国凯 陈熙 勾凌睿 胡轩 金越 李乾若 李昕 蔺嘉炜 刘彤 刘志刚 王华强 王诲喆 张传奇 张发旺 张林隽 张紫飞 张梓悦 赵阳洋 周耀阳 邹江瑞 蔡晔 郇丹丹 李祖松 赵继业 何伟 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第3期476-493,共18页
近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在... 近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在著名开源项目托管平台GitHub上获得超过3200个星标(Star),形成超过400个分支(Fork),成为国际上最热门的开源硬件项目之一,得到国内外企业和研究者的积极支持.香山处理器在近两年时间中历经两代版本演进,第一代“雁栖湖”微架构已经成功流片,回片性能符合预期;第二代“南湖”微架构已进入最后的优化迭代阶段,即将投片,据已知消息,其仿真评估性能在当前开源处理器中排名第一.主要讨论香山前两代微架构的实现细节与设计演进,并系统介绍开发香山过程中的各类挑战与经验. 展开更多
关键词 RISC-V 高性能处理器 开源 芯片设计 敏捷开发
下载PDF
基于SoC-FPGA的RISC-V处理器软硬件系统级平台 被引量:2
7
作者 齐乐 常轶松 +4 位作者 陈欲晓 张旭 陈明宇 包云岗 张科 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1204-1215,共12页
构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软... 构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率. 展开更多
关键词 硅前系统级平台 软硬件全系统评估 RISC-V指令集处理器 SoC-FPGA
下载PDF
K-Query:基于关键点查询的全景分割方法 被引量:1
8
作者 姚治成 王卅 包云岗 《计算机学报》 EI CAS CSCD 北大核心 2023年第8期1693-1708,共16页
全景分割是图像语义分割与实例分割的融合,在自动驾驶、机器人应用等领域有重要应用价值.在当前基于深度学习的全景分割方法中,基于“查询”的方法在分割流程上统一了语义分割任务和实例分割任务,取得了当前最优全景分割效果.该类方法... 全景分割是图像语义分割与实例分割的融合,在自动驾驶、机器人应用等领域有重要应用价值.在当前基于深度学习的全景分割方法中,基于“查询”的方法在分割流程上统一了语义分割任务和实例分割任务,取得了当前最优全景分割效果.该类方法将自然语言处理中的注意力机制应用到了图像分割领域,然而由于输入图片数据量远大于文本句子数据量,该方法无法直接采用输入数据作为查询向量,为此构建了固定数量的静态向量作为“查询”.但是,该静态查询设计存在查询向量个数不好确定,容易出现实例表示混淆等问题.在基于静态查询的设计中,需要人为地根据经验去设定实例查询向量的个数,但是在实际情况中,输入图片中实例的个数不是固定的,在动态变化.如果把需要的查询向量个数设置的太少,少于图片中的实例数,则多的实例就无法表示.且由于每一个查询向量在解析过程中都会生成一张对应的掩码图片,多一倍的查询向量就会多一倍的资源开销,因此如果设置了太多的查询向量,在一些图片输入下就可能导致大量的资源浪费.另一方面,由于静态设置的查询向量和需要解析的输入图片不相关,在某些情况下,一个静态查询向量可能会得到多个事物的掩码,或者多个静态查询向量得到相同物体的掩码,导致查询向量在事物表示上发生混淆.为了解决该问题,我们期望查询向量是动态的,和输入图片中待查询的事物相关,且每个查询向量之间都具有一定的可区分性,为此本文提出了一种基于目标物体关键点的动态查询全景分割方法,称之为K-Query.为了让实例查询向量与图片中的实例直接关联,并在它们之间具有一定的区分距离,本方法首先将图片中的实例通过深度神经网络映射为可区分的高维嵌入编码,并保证同一个物体对应像素点的编码距离足够近,不同物体间像素点的编码距离足够远,然后基于快速“行列式”聚类方法为每一个物体都挑选一个对应的高维嵌入编码和对应的位置编码作为最终的实例查询向量.K-Query方法中的查询向量,动态地来自于输入图片中目标物体自身的高维嵌入编码,能避免静态查询面临的问题,进一步提升了全景分割性能.本文基于detectron2框架对K-Query进行了实现,并在多个数据集上进行了验证.测试结果表示,在Res50的骨干网络配置下,K-Query在Cityscapes val数据集上的全景分割结果为63.2%PQ,在COCO panoptic 2017 val数据集上的PQ值为52.9%,相比当前最优全景分割方法,它在PQ值上分别提升了1.1和1.0个点(points). 展开更多
关键词 深度学习 图像分割 聚类 实例分割 全景分割
下载PDF
HyWarm:针对处理器RTL仿真的自适应混合预热方法
9
作者 周耀阳 韩博阳 +7 位作者 蔺嘉炜 王凯帆 张林隽 余子濠 唐丹 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1246-1261,共16页
在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍... 在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大.HyWarm框架的提出是为了加速性能测算过程中的预热过程.HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间.HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%. 展开更多
关键词 高性能处理器 芯片设计 敏捷开发 负载采样 功能预热
下载PDF
以RISC-V为目标的动态二进制翻译代码质量优化方法
10
作者 余子濠 陈璐 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2322-2334,共13页
动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其... 动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其当源指令集和目标指令集存在差异时.为探究该问题,以RISC-V64指令集为目标指令集,分析了当RISC-V64,RISC-V32,MIPS32,x86分别作为源指令集时,影响动态二进制翻译技术翻译质量的因素.针对这些因素,分别提出相应优化方法,并借助RISC-V B扩展和RISC-V P扩展中的部分指令提升翻译质量.最后,提出一个新的动态二进制翻译程序DBT-FEMU实现优化.在模拟器和FPGA中的评估数据显示,运行SPEC CPU2006的整数基准程序时,优化方法可使目标程序所执行的动态指令数平均减少57%,平均性能达QEMU-i386的4.12倍. 展开更多
关键词 动态二进制翻译 RISC-V 指令集 翻译质量 优化
下载PDF
BOOM-KV:基于RDMA的高性能NVM键值数据库
11
作者 李文捷 蒋德钧 +1 位作者 熊劲 包云岗 《高技术通讯》 CAS 2023年第1期29-41,共13页
随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通... 随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通信协议。遗憾的是,现有工作或采用NVM不感知的RDMA协议,或采用低效的NVM感知的RDMA协议,这导致它们无法最大化KV数据库的性能。本文提出了BOOM协议——一种新型的NVM感知的RDMA协议。相较于NVM不感知的协议,BOOM协议允许直接对远端NVM进行RDMA操作,消除了冗余的数据拷贝;相较于现有的NVM感知的协议,它可以显著减少元数据请求,降低KV请求的端对端延迟。在BOOM协议的基础上构建了BOOM-KV,并针对服务端中央处理器(CPU)利用率和宕机持久化等问题进一步进行优化。将BOOM-KV与最新的研究成果进行对比,结果表明,BOOM-KV能显著降低请求延迟,其中PUT延迟最大降低了42%,GET延迟最大降低了41%,并且展现出良好的扩展性。 展开更多
关键词 非易失性内存(NVM) 远程直接内存访问(RDMA) 键值(KV)数据库
下载PDF
处理器芯片敏捷设计方法:问题与挑战 被引量:5
12
作者 包云岗 常轶松 +11 位作者 韩银和 黄立波 李华伟 梁云 罗国杰 尚笠 唐丹 王颖 解壁伟 喻文健 张科 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1131-1145,共15页
现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾... 现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture,OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战. 展开更多
关键词 处理器芯片设计 面向对象体系结构 设计范式 芯片敏捷设计语言 EDA工具
下载PDF
一种新型计算机体系结构模拟器的研究与实现 被引量:4
13
作者 包云岗 许建卫 +1 位作者 陈明宇 樊建平 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第7期1471-1475,1522,共6页
模拟器是研究新型高性能计算机体系结构的一种快速、有效的手段。并行计算机体系结构模拟器SandFox是为了开展对网格化动态自组织体系结构(DSAG)研究而研制的新模拟器,在设计中采用模块化和层次化设计思想,通过四个层次的逐级模拟实现了... 模拟器是研究新型高性能计算机体系结构的一种快速、有效的手段。并行计算机体系结构模拟器SandFox是为了开展对网格化动态自组织体系结构(DSAG)研究而研制的新模拟器,在设计中采用模块化和层次化设计思想,通过四个层次的逐级模拟实现了对DSAG结构全系统模拟,并体现了DSAG的结构特点如资源按需分配,资源部件管理,资源部件可重构等,模拟器自身也可以通过交互式界面动态调整系统配置。应用测试及对测试数据的分析,表明了SandFox模拟器的正确性、可扩展性与动态性。 展开更多
关键词 DSAG 模拟器 SandFox 高性能计算机
下载PDF
数据中心保障应用服务质量面临的挑战与机遇 被引量:1
14
作者 包云岗 《集成技术》 2013年第6期71-81,共11页
在当今信息时代,随着移动设备、互联网应用以及云计算模式的快速发展,数据中心已成为社会基础设施。然而数据中心面临资源利用率与应用服务质量之间的矛盾,一方面通过多个应用同时在数据中心部署实现资源共享能有效提高资源利用率,另一... 在当今信息时代,随着移动设备、互联网应用以及云计算模式的快速发展,数据中心已成为社会基础设施。然而数据中心面临资源利用率与应用服务质量之间的矛盾,一方面通过多个应用同时在数据中心部署实现资源共享能有效提高资源利用率,另一方面多个应用共享资源又会出现相互干扰,严重影响应用的服务质量。因此,目前企业不得不采用预留额外资源以保障延迟敏感的关键应用服务质量,这导致数据中心的利用率很低。并且,随着多核技术的发展,单个服务器内的资源越来越多,其上混合部署的应用数目也在不断增加,更加剧这种矛盾。如何解决资源利用率与应用服务质量之间的矛盾,是数据中心面临的核心挑战之一,同时也为计算机系统结构研究带来很多机遇。文章主要介绍了数据中心所面临的上述矛盾以及一些研究进展,最后介绍了资源可编程体系结构PARD(Programmable Architecture of Resourcing on-Demand)思想,从硬件上支持资源容量隔离与性能隔离,从而保障多应用混合环境下关键应用的服务质量,允许更大程度混合部署应用以提高数据中心资源利用率。 展开更多
关键词 数据中心 资源利用率 服务质量 资源可编程体系结构
下载PDF
高带宽远程内存结构中的预取研究 被引量:2
15
作者 许建卫 陈明宇 包云岗 《计算机科学》 CSCD 北大核心 2005年第8期15-20,共6页
高速电路和光互联技术的发展极大地提高了网络的速度与带宽。因而,突破高性能计算机 CPU与内存紧耦合的传统结构成为可能,CPU与内存的耦合不再受距离的限制,这必将引起体系结构的变革。文[1]提出 DSAG结构——CPU与内存在空间上分离,每... 高速电路和光互联技术的发展极大地提高了网络的速度与带宽。因而,突破高性能计算机 CPU与内存紧耦合的传统结构成为可能,CPU与内存的耦合不再受距离的限制,这必将引起体系结构的变革。文[1]提出 DSAG结构——CPU与内存在空间上分离,每个CPU节点上仅留少量内存,将海量内存放在远程统一管理作为内存服务器,CPU节点和内存服务器之间通过高速网络互连。这种新的体系结构带来了更好的共享性和可扩展性,但同时也对我们解决CPU和内存之间的不平衡性问题带来了挑战。为了降低DSAG这种远程内存结构增加的访存时延,我们考虑到CPU正常访存没有充分利用网络的高带宽,因此可以利用剩余的网络带宽来进行远程内存数据的预取。本论文在应用程序执行时记录本地(相对于远程内存)不命中的地址信息,以页对齐分析其中存在的页框流(Page Frame Stream)的统计特征,并提出可基于页框流的预取机制可降低访存延迟、提升系统性能的观点。最后我们采用模拟的方法验证了观点的可行性与正确性,进一步提出了三种预取策略,比较并分析影响预取效果的因素。 展开更多
关键词 DSAG结构 页框流 内存结构 预取策略 高带宽 远程 高性能计算机 网络互连 高速电路 体系结构
下载PDF
领域概念语义关系类型的半自动提取技术 被引量:2
16
作者 何海芸 包云岗 袁春风 《计算机工程》 EI CAS CSCD 北大核心 2005年第18期68-70,118,共4页
提出了一种基于模板从汉语自然文本中半自动提取领域概念间语义关系的技术,对计算机组成原理这个领域的句子进行实验考察,取得了较为满意的结果。从语义关系类型、提取技术的基本特点和具体实现、实验的结果与分析、下一步工作的开展这... 提出了一种基于模板从汉语自然文本中半自动提取领域概念间语义关系的技术,对计算机组成原理这个领域的句子进行实验考察,取得了较为满意的结果。从语义关系类型、提取技术的基本特点和具体实现、实验的结果与分析、下一步工作的开展这几个方面进行介绍。 展开更多
关键词 语义关系 元组 语义关系模板
下载PDF
一种监测函数语义信息访存地址序列的方法 被引量:1
17
作者 陈荔城 崔泽汉 +3 位作者 包云岗 陈明宇 沈林峰 梁祺 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期1100-1109,共10页
准确地获取应用程序在真实系统上运行的访存地址序列(traces)是进行内存系统调度及结构优化的基础.HMTT是自主研发的软硬件结合的内存监测分析系统,能够实时获取完整的全系统访存traces.但是得到的traces与应用程序上层事件之间存在语... 准确地获取应用程序在真实系统上运行的访存地址序列(traces)是进行内存系统调度及结构优化的基础.HMTT是自主研发的软硬件结合的内存监测分析系统,能够实时获取完整的全系统访存traces.但是得到的traces与应用程序上层事件之间存在语义鸿沟问题,比如上层函数执行流与访存traces的同步问题.针对该问题提出了一种软硬件结合获取包含函数级别语义信息访存traces的方法,软件方面通过二进制插桩的方式,直接修改内存中的进程映像,在目标函数的入口及出口各插入标记tag访存指令,进而能够被HMTT卡监测并识别.采用二进制插桩不需要程序的源代码,不需要对程序重新编译链接,而且引入的运行开销很小.实验表明采用软硬件结合的方式能够有效地获取包含函数级别语义信息的访存traces,对于SPECCPU2006中的访存密集型程序引入的性能开销只是原程序的62%,而使用Pin工具的纯软件方式获取访存traces将导致至少10.4倍的性能开销. 展开更多
关键词 HMTT 访存traces 函数级别语义鸿沟 二进制插桩 ELF tag访存
下载PDF
系统软件前沿进展专题前言
18
作者 武延军 陈海波 +1 位作者 包云岗 李玲 《软件学报》 EI CSCD 北大核心 2020年第10期2981-2982,共2页
系统软件是计算系统中连接底层硬件、应用软件和用户的核心基础软件,是IT生态的核心环节,涵盖了操作系统、编程语言、编译器、运行时环境、集成开发环境等.随着移动计算、物联网、云计算、人工智能、开源软件、开源指令集等领域的飞速发... 系统软件是计算系统中连接底层硬件、应用软件和用户的核心基础软件,是IT生态的核心环节,涵盖了操作系统、编程语言、编译器、运行时环境、集成开发环境等.随着移动计算、物联网、云计算、人工智能、开源软件、开源指令集等领域的飞速发展,相关的软硬件都迎来了新的发展机遇.近10多年来,传统操作系统已经衍生出移动操作系统、物联网操作系统、智能操作系统等,同时也涌现出了很多新的编程语言和编译器,为用户提供了更高效、更高质量的开发和运行支持.此外,开源软件成为软件行业的重要发展模式,正在重塑软件产业格局,但安全性和可靠性问题并没有得到很好的解决.最后,以RISC-V为代表的开放指令集崛起,也给系统软件带来了新的机遇和挑战. 展开更多
关键词 开源软件 智能操作系统 指令集 编程语言 移动计算 人工智能 运行时环境 应用软件
下载PDF
Key-Value型NoSQL本地存储系统研究 被引量:26
19
作者 马文龙 朱妤晴 +4 位作者 蒋德钧 熊劲 张立新 孟潇 包云岗 《计算机学报》 EI CSCD 北大核心 2018年第8期1722-1751,共30页
NoSQL系统因其高性能、高可扩展性的优势在大数据管理中得到广泛应用,而key-value(KV)模型则是NoSQL系统中使用最广泛的一种存储模型.KV型本地存储系统对于以机械磁盘为持久化存储的情形,存在许多性能优化技术,但这些优化技术面对当前... NoSQL系统因其高性能、高可扩展性的优势在大数据管理中得到广泛应用,而key-value(KV)模型则是NoSQL系统中使用最广泛的一种存储模型.KV型本地存储系统对于以机械磁盘为持久化存储的情形,存在许多性能优化技术,但这些优化技术面对当前的硬件发展新趋势,如多核处理器、大内存和低延迟闪存、非易失性内存NVM(Non-Volatile Memory)等,难以充分发挥新硬件的优势,如数据索引、并发控制、事务日志管理等技术在多核架构下存在多核扩展性问题,又如数据存储策略不适应闪存SSD(Solid State Drive)的新存储特性而产生了IO利用率低效的问题.针对多核处理器、大内存和闪存、NVM等硬件发展新趋势,文中面向当前的大数据应用背景,综述了KV型本地存储系统在索引技术、并发控制、事务日志管理和数据放置等核心模块上的最新优化技术和系统研究成果.从处理器、内存和持久化存储的角度概括了KV型本地存储系统当前存在的最优技术,总结了当前研究尚未解决的技术挑战,并对KV型本地存储系统在CPU缓存高效性、事务日志扩展性和高可用性等方面的研究进行了展望. 展开更多
关键词 NOSQL 键值存储 多核扩展性 并发数据结构 日志结构合并型存储 SSD/NVM
下载PDF
芯片敏捷开发实践:标签化RISC-V 被引量:15
20
作者 余子濠 刘志刚 +4 位作者 李一苇 黄博文 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期35-48,共14页
随着开放指令集RISC-V的流行,开源芯片的概念逐渐进入人们的视野.但是目前的芯片设计项目需要投入相当的人力和时间才能开展,并且具有一定的风险,这些情况一定程度上限制了开源芯片的发展.为了进一步降低芯片开发的门槛,加州大学伯克利... 随着开放指令集RISC-V的流行,开源芯片的概念逐渐进入人们的视野.但是目前的芯片设计项目需要投入相当的人力和时间才能开展,并且具有一定的风险,这些情况一定程度上限制了开源芯片的发展.为了进一步降低芯片开发的门槛,加州大学伯克利分校先后设计了开放指令集RISC-V,开放了其SoC实现Rocket Chip的项目源码,并提出了一门面向敏捷开发的硬件构建语言Chisel.RISC-V,Rocket Chip和Chisel是如何赋能开源芯片敏捷开发?将基于中国科学院计算技术研究所的研究工作"标签化RISC-V"项目开发过程中的若干案例,展示:1)开放又活跃的指令集生态(如RISC-V)是推动芯片研发创新的必要条件;2)Chisel的信号整体连接、元编程、面向对象编程以及函数式编程等特性可大幅缩减代码量,提升代码可维护性;3)敏捷开发能在编码效率提升一个数量级的同时,达到与传统硬件开发模式相当甚至更优的性能、功耗与面积. 展开更多
关键词 RISC-V Chisel 开源 芯片设计 敏捷开发
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部