期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于全局同步逻辑时间的访存依赖约减方法 被引量:1
1
作者 唐士斌 宋风龙 +2 位作者 张帅 范东睿 刘志勇 《计算机学报》 EI CSCD 北大核心 2014年第7期1487-1499,共13页
并发执行的并行多线程程序执行过程中,不同的访存顺序会得到不同的执行结果.由于再次执行时,难以重现首次执行时的错误,导致并行程序的调试非常困难.确定性重放是解决该问题的一种方法,目的是通过记录并行程序执行过程中的不确定性事件... 并发执行的并行多线程程序执行过程中,不同的访存顺序会得到不同的执行结果.由于再次执行时,难以重现首次执行时的错误,导致并行程序的调试非常困难.确定性重放是解决该问题的一种方法,目的是通过记录并行程序执行过程中的不确定性事件,然后利用记录的事件重现出程序的原始执行.然而,已有的确定性重放方法会产生大量的记录日志,如何减小记录日志是确定性重放领域的研究热点,在实际应用中也是非常具有挑战性的问题.为了减小记录日志的开销,文中提出了一种基于逻辑时间的访存依赖约减方法,并在支持松弛存储一致性模型的处理器上提出具体的实现技术,该方法利用了访存依赖对应的逻辑时间之间的序关系进行约减.通过模拟评估所提出方法的性能和可扩展性.其中,在8核模拟平台上,通过Splash2测试程序进行评估,结果显示所提出的记录方法平均日志开销为0.11Bytes/Kilo-Instruction,与目前最好的访存依赖约减方法Timetraveler相比提高了75%;通过4核、8核和16核平台的评估结果,表明所提出约减方法具有较好的可扩展性. 展开更多
关键词 多核 并行程序 确定性重放 访存冲突
下载PDF
基于硬件辅助的用户态并行程序记录方法
2
作者 唐士斌 宋风龙 +2 位作者 王达 李文明 刘志勇 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2243-2248,共6页
程序调试工作的首要基础是错误可重现,然而并行程序执行过程存在天然的不确定性,尤其在多核处理器上,如何重现并行程序的错误是一个巨大的挑战.现有的方法或记录整个系统的状态或需要细粒度插桩,存在可用性差与运行时开销大等问题.本文... 程序调试工作的首要基础是错误可重现,然而并行程序执行过程存在天然的不确定性,尤其在多核处理器上,如何重现并行程序的错误是一个巨大的挑战.现有的方法或记录整个系统的状态或需要细粒度插桩,存在可用性差与运行时开销大等问题.本文首次提出一种基于硬件辅助的面向用户态并行程序的轻量级记录与重放方法,该方法通过软件协助来记录信号、系统调用与操作系统调度相关的序关系;利用硬件记录访存冲突,同时在记录过程中采用基于目录的方法来压缩日志存储.通过在16核模拟平台上评估,本文提出的方法不仅方便了用户态并行程序调试,同时减少了81%的存储日志开销. 展开更多
关键词 多核 并行程序 确定性重放 访存冲突
下载PDF
VMM中Guest OS非陷入系统调用指令截获与识别 被引量:6
3
作者 熊海泉 刘志勇 +2 位作者 徐卫志 唐士斌 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2348-2359,共12页
针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下G... 针对虚拟化环境下Guest OS某些特定指令行为不会产生陷入从而在虚拟机管理器(virtual machine monitor,VMM)中无法对其进行监控处理的问题,提出通过改变非陷入指令正常运行条件,使其执行非法产生系统异常陷入VMM的思想;据此就x86架构下Guest OS中3种非陷入系统调用指令在VMM中的截获与识别进行研究:其中基于int和sysenter指令的系统调用通过使其产生通用保护(general protection,GP)错系统异常而陷入,基于syscall指令的系统调用则通过使其产生UD(undefined)未定义指令系统异常而陷入,之后VMM依据虚拟处理器上下文现场信息对其进行识别;基于Qemu&Kvm实现的原型系统表明:上述方法能成功截获并识别出Guest OS中所有3种系统调用行为,正常情况下其性能开销也在可接受的范围之内,如在unixbench的shell测试用例中,其性能开销比在1.900~2.608之间.与现有方法相比,它们都是以体系结构自身规范为基础,因此具有无需修改Guest OS、跨平台透明的优势. 展开更多
关键词 客户操作系统 虚拟机管理器 虚拟化 非陷入指令 系统调用
下载PDF
一种带有无效缓存路访问过滤机制的低功耗高速缓存
4
作者 范灵俊 唐士斌 +2 位作者 张轮凯 郑亚松 张浩 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2231-2236,共6页
功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid ... 功耗是当今处理器设计领域的重要问题之一.随着多核处理器的普及,片上缓存占有了越来越多的芯片面积和功耗.提出一种带有无效缓存路访问过滤机制的低功耗高速缓存结构来降低CPU的动态功耗,具体为,通过无效缓存块的预先检查(Pre-Invalid Way Checking,PIWC)消除对无效缓存路的访问,及通过不匹配缓存路的预先检测(Pre-Mismatch Way Detecting,PMWD)消除对tag低位不匹配缓存路的访问.对实际程序的测试表明,65.2%-88.9%缓存路的无效访问可以通过以上方法被消除,约60.9%-85.6%由缓存访问带来的动态能耗从而被降低.同时,跟tag-data顺序访问方法相比,对于大多数程序,我们的方法可以获得5.1%-13.8%的节能效果提升. 展开更多
关键词 组相联缓存 动态功耗 无效缓存路检查 不匹配缓存路检测
下载PDF
PartitionSim:一个面向众核结构的并行模拟器 被引量:2
5
作者 焦帅 徐卫志 +2 位作者 唐士斌 范东睿 孙凝晖 《计算机学报》 EI CSCD 北大核心 2011年第11期2084-2092,共9页
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方... 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%. 展开更多
关键词 并行模拟 众核 Godson-T 时序分割
下载PDF
BDSim:面向大数据应用的组件化高可配并行模拟框架 被引量:5
6
作者 李文明 叶笑春 +5 位作者 张洋 宋风龙 王达 唐士斌 范东睿 谢向辉 《计算机学报》 EI CSCD 北大核心 2015年第10期1959-1975,共17页
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决... 大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,该文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系.为了提高组件之间的通信和同步效率,该文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法.模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,该算法与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上. 展开更多
关键词 组件化并行模拟框架 并行离散事件模拟 非阻塞无锁通信 CMB算法 高可配 大数据
下载PDF
Thinker:可重构混合神经网络计算芯片
7
作者 尹首一 欧阳鹏 +7 位作者 唐士斌 涂锋斌 李秀冬 郑时轩 陆天翼 谷江源 刘雷波 魏少军 《人工智能》 2018年第2期34-45,共12页
深度神经网络已被广泛应用于人工智能系统中,神经网络专用计算芯片成为学术界和工业界的关注热点。Thinker是一款基于可重构计算架构的低功耗神经网络计算芯片,其支持卷积网络、全连接网络和递归网络的混合计算。为了实现高能效,Thinke... 深度神经网络已被广泛应用于人工智能系统中,神经网络专用计算芯片成为学术界和工业界的关注热点。Thinker是一款基于可重构计算架构的低功耗神经网络计算芯片,其支持卷积网络、全连接网络和递归网络的混合计算。为了实现高能效,Thinker提出了三种优化技术。首先,每个处理单元(PE)支持位宽自适应计算,以满足神经层的不同位宽。 展开更多
关键词 混合神经网络 THINKER 深度神经网络 卷积层
下载PDF
一种面向实时系统的程序基本块指令预取技术 被引量:4
8
作者 王恩东 倪璠 +2 位作者 陈继承 王洪伟 唐士斌 《软件学报》 EI CSCD 北大核心 2016年第9期2426-2442,共17页
面向通用计算机系统的指令预取技术无法满足实时系统的应用需求,其中一个重要原因是:无效预取引起的指令Cache内容污染使得实时任务WCET评估值不够精确,导致系统可调度性下降,严重影响系统效率.以简化实时任务WCET分析、降低任务WCET评... 面向通用计算机系统的指令预取技术无法满足实时系统的应用需求,其中一个重要原因是:无效预取引起的指令Cache内容污染使得实时任务WCET评估值不够精确,导致系统可调度性下降,严重影响系统效率.以简化实时任务WCET分析、降低任务WCET评估值为目标,提出一种基于程序基本块的指令预取方法.该方法以基本块为粒度执行指令预取,避免了传统指令预取技术引入的无效预取;通过简化最坏情况下的指令访问命中/缺失情况判定,简化任务WCET分析过程并优化WCET评估值.实时基准测试程序评估结果表明:与常规无预取方法相比,该预取方法可使实时任务WCET评估值降低约20%,平均执行情况下的指令Cache访问性能提升约10%. 展开更多
关键词 实时系统 最坏情况执行时间 高速缓存性能 指令预取 基本块
下载PDF
计算机体系结构模拟技术现状、挑战与展望 被引量:3
9
作者 王恩东 陈继承 +3 位作者 王洪伟 倪璠 唐士斌 史宏志 《小型微型计算机系统》 CSCD 北大核心 2016年第1期178-185,共8页
体系结构模拟技术在计算机体系结构研究和系统设计中发挥着重要作用.通过对计算机系统的建模、仿真及评估,科研人员可以验证新型体系结构设计;将该技术导入产品设计则可以优化系统方案、降低设计风险并提升开发效率.随着半导体工艺的迅... 体系结构模拟技术在计算机体系结构研究和系统设计中发挥着重要作用.通过对计算机系统的建模、仿真及评估,科研人员可以验证新型体系结构设计;将该技术导入产品设计则可以优化系统方案、降低设计风险并提升开发效率.随着半导体工艺的迅速提升,分布式共享内存计算机系统已步入千核时代,处理器微结构、存储层次、片间互连及cache一致性协议等对系统性能的影响愈发复杂,对体系结构模拟技术也提出更高挑战.本文依据计算机体系结构模拟技术特征,从精度、速度、可用性和易用性四个方面对现有体系结构模拟技术进行了分析、总结.针对计算机系统发展趋势与当前模拟器存在的问题,归纳了体系结构模拟技术面临的挑战,进而提出了未来体系结构模拟技术发展的4A理论. 展开更多
关键词 体系结构模拟 模拟器 精度 速度 可用性 易用性
下载PDF
一种基于共享转发态的多级缓存一致性协议 被引量:3
10
作者 陈继承 李一韩 +3 位作者 赵雅倩 王恩东 史宏志 唐士斌 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期764-774,共11页
在CC-NUMA架构系统中,为了减少缓存一致性维护的开销,大规模CC-NUMA系统通常采用多级缓存一致性域设计,降低平均一致性维护操作数量,从而有效缓解系统性能扩展与一致性维护开销的矛盾.传统的MESI,MESIF,MOESI协议主要是针对单级一致性... 在CC-NUMA架构系统中,为了减少缓存一致性维护的开销,大规模CC-NUMA系统通常采用多级缓存一致性域设计,降低平均一致性维护操作数量,从而有效缓解系统性能扩展与一致性维护开销的矛盾.传统的MESI,MESIF,MOESI协议主要是针对单级一致性域优化设计,并且没有考虑到大型数据库应用中查询(数据读访问)业务量占据主导地位的特点,故该类一致性协议在多级缓存一致性域场景下存在着跨域操作频度高、执行效率低等缺点.针对上述问题,提出了一种基于共享转发态的多级缓存一致性协议MESI-SF.该协议创建了一个共享转发态Share-F,允许多个一致性域内同时存在远端数据副本的可读可转发状态,从而能够为同一域内同地址的读请求直接提供共享数据,有效减少了跨域操作,提升系统性能.SPLASH-2程序集模拟结果表明,对于两级Cache一致性域系统,相比MESI协议,MESI-SF能够减少23.0%跨结点访问次数,指令平均执行周期数(cycles per instruction,CPI)降低7.5%;相比MESIF协议,MESI-SF能够减少12.2%跨结点访问次数,指令平均执行周期数降低5.95%. 展开更多
关键词 多核处理器 CC-NUMA系统 多级一致性域 缓存一致性 MESI协议
下载PDF
多核处理器目录缓存结构设计 被引量:2
11
作者 王恩东 唐士斌 +3 位作者 陈继承 王洪伟 倪璠 赵雅倩 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1242-1253,共12页
随着物联网、云计算与网络舆情分析等应用的快速发展,大数据处理的应用已经成为数据中心的核心负载.数据中心服务器普遍采用多核处理器,而目录缓存作为多核处理器结构中维护缓存一致性的关键部件,对其结构研究(如稀疏目录)更多地关注于... 随着物联网、云计算与网络舆情分析等应用的快速发展,大数据处理的应用已经成为数据中心的核心负载.数据中心服务器普遍采用多核处理器,而目录缓存作为多核处理器结构中维护缓存一致性的关键部件,对其结构研究(如稀疏目录)更多地关注于目录缓存的容量与可扩展性,更适合处理高性能计算等计算密集型应用.然而,当多核处理器执行延迟敏感的大数据应用程序时,目录缓存的高访存延迟严重制约了数据中心的服务质量.针对该问题,新型主从目录缓存结构优化了数据访问过程中的一致性协议通路,其中主目录区分共享与私有数据,管理私有数据的访存操作,降低私有数据的访存延迟,提高了从目录的容量利用率;从目录维护共享数据的缓存一致性,采用有限位标签结构,提高了从目录的存储效率.实验在Simics+GEMS模拟平台上对大数据程序测试集Cloudsuite-v1.0进行评估.结果表明在以大数据应用程序为主的运行环境下,与2倍容量的稀疏目录相比,主从目录缓存结构降低了24.39%的硬件开销,降低了28.45%的缓存缺失延时,提升了3.5%的处理器IPC;与缓存内目录相比,主从目录结构虽然损失了5.14%的缓存缺失延时与1.1%的处理器IPC,但是降低了42.59%的硬件开销. 展开更多
关键词 大数据 多核处理器 缓存一致性 目录缓存 稀疏目录
下载PDF
MPD:结点具有多个并行缓存一致性域的CC-NUMA系统
12
作者 陈继承 赵雅倩 +3 位作者 李一韩 王恩东 史宏志 唐士斌 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期775-786,共12页
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点... 大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%. 展开更多
关键词 CC-NUMA系统 两级一致性域 并行缓存一致性域 一致性协同芯片 系统可扩展性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部