期刊文献+
共找到17,339篇文章
< 1 2 250 >
每页显示 20 50 100
一种可重构异构内存架构和控制器
1
作者 靳晓忠 刘海坤 +4 位作者 赖皓 毛伏兵 张宇 廖小飞 金海 《电子学报》 EI CAS CSCD 北大核心 2024年第9期3038-3051,共14页
融合传统动态随机访问存储器(Dynamic Random Access Memory,DRAM)与新型非易失性内存(NonVolatile Memory,NVM)可构建平行架构或层次架构的异构内存系统.平行架构的异构内存系统往往需要通过页迁移技术把热点数据从NVM迁移到DRAM以提... 融合传统动态随机访问存储器(Dynamic Random Access Memory,DRAM)与新型非易失性内存(NonVolatile Memory,NVM)可构建平行架构或层次架构的异构内存系统.平行架构的异构内存系统往往需要通过页迁移技术把热点数据从NVM迁移到DRAM以提高访存性能,然而在操作系统中实现热页监测和迁移会带来巨大的软件性能开销.硬件实现的层次架构由于增加了访存层次,对于访存局部性差的大数据应用反而增加了访存延迟.为此,本文提出可重构的异构内存架构,可以运行时在平行和层次架构间进行转换以动态适配不同应用的访存特性.设计了基于新型指令集架构RISC-V(Reduced Instruction Set Computing-V)的DRAM/NVM异构内存控制器,利用少量硬件计数器实现了访存踪迹统计和分析,并实现了DRAM和NVM物理页间的动态映射和高效迁移机制.实验表明,DRAM/NVM异构内存控制器可提高43%的应用性能. 展开更多
关键词 非易失性内存 异构内存系统 异构内存控制器 内存访问监测 页迁移
下载PDF
一种面向计算图的及时内存重用算法
2
作者 曹博钧 钱入意 徐远超 《计算机工程与科学》 CSCD 北大核心 2024年第9期1539-1546,共8页
有限的设备内存容量制约了深度神经网络模型的进一步发展,内存重用是少有的在不引入额外开销的前提下节省内存使用的方法之一。计算图中的中间张量占据着主要的内存空间,是内存重用算法的主要优化对象。现有的典型内存重用算法,包括大... 有限的设备内存容量制约了深度神经网络模型的进一步发展,内存重用是少有的在不引入额外开销的前提下节省内存使用的方法之一。计算图中的中间张量占据着主要的内存空间,是内存重用算法的主要优化对象。现有的典型内存重用算法,包括大张量优先算法和短生命周期优先算法,仅从单一特征出发,只考虑张量之间的生命周期是否重叠,忽略了邻近张量之间的生命周期相对位置关系,计算图越复杂,对内存重用的挖掘越不够充分。针对该问题,提出一种新的内存重用算法——UMR,通过深入分析图中邻近张量的生命周期相对位置关系,并及时进行重用,从而获得了更多的内存重用机会。基于MLPerf中的真实推理模型对算法进行评估,结果显示UMR算法的内存重用率不低于现有的主流算法,且能达到该模型内存重用的理论最优。基于相对复杂的计算图对算法进行的评估表明,与大张量优先与短生命周期优先2种算法相比,UMR算法最高节省了21.6%和18.7%的内存占用,平均分别节省了6.5%与13.2%的内存占用。 展开更多
关键词 计算图 内存优化 内存重用 内存利用率
下载PDF
结合模糊测试和动态分析的内存安全漏洞检测 被引量:1
3
作者 马莺姿 陈哲 +1 位作者 殷家乐 毛瑞琪 《计算机科学》 CSCD 北大核心 2024年第2期352-358,共7页
C语言因其在运行速度及内存控制方面的优势而被广泛应用于系统软件和嵌入式软件的开发。指针的强大功能使得它可以直接对内存进行操作,然而C语言并未提供对内存安全性的检测,这就使得指针的使用会导致内存泄露、缓冲区溢出、多次释放等... C语言因其在运行速度及内存控制方面的优势而被广泛应用于系统软件和嵌入式软件的开发。指针的强大功能使得它可以直接对内存进行操作,然而C语言并未提供对内存安全性的检测,这就使得指针的使用会导致内存泄露、缓冲区溢出、多次释放等内存错误,有时这些错误还会造成系统崩溃或内部数据破坏等的致命伤害。当前已存在多种能够对C程序进行内存安全漏洞检测的技术。其中动态分析技术通过插桩源代码来实现对C程序的运行时内存安全检测,但是只有当程序执行到错误所在路径时才能发现错误,因此它依赖于程序的输入;而模糊测试是一种通过向程序提供输入并监视程序运行结果来发现软件漏洞的方法,但是无法检测出没有导致程序崩溃的内存安全性错误,也无法提供错误所在位置等详细信息。除此之外,由于C语言的语法比较复杂,在对一些大型复杂项目进行分析时,动态分析工具经常无法正确处理一些不常见的特定结构,导致插桩失败或者插桩后的程序无法被正确编译。针对上述问题,通过将动态分析技术与模糊测试技术结合,并对已有方法进行改进后,提出了一种能够对包含特定结构的C程序进行内存安全检测的方法。文中进行了可靠性和性能的实验,结果表明,在增加对C语言中特定结构的处理方法之后,能对包含C语言中特定结构的程序进行内存安全检测,并且结合模糊测试技术后具有更强的漏洞检测能力。 展开更多
关键词 内存安全 源代码插桩 动态分析 模糊测试 内存错误
下载PDF
Fortran内存泄漏静态检测方法研究
4
作者 罗坤 金大海 宫云战 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1778-1786,共9页
内存泄漏在没有垃圾回收机制的语言中是常见的问题,虽然Fortran95引入ALLOCATABLE数组解决了部分泄漏问题,但是通过指针申请内存资源仍然会造成泄漏,现有研究对Fortran内存泄漏的检测流程适配度不高且面向Fortran内存状态分析的效率和... 内存泄漏在没有垃圾回收机制的语言中是常见的问题,虽然Fortran95引入ALLOCATABLE数组解决了部分泄漏问题,但是通过指针申请内存资源仍然会造成泄漏,现有研究对Fortran内存泄漏的检测流程适配度不高且面向Fortran内存状态分析的效率和精确度上仍存在优化空间.针对这一问题,本文提出了一种面向Fortran指针引发的内存泄漏静态检测方法.首先引入指针引用控制流图(PR-CFG,Pointer Reference-Control Flow Graph)来精简程序模型,并符号化程序节点的内存状态信息,依据数据流生成路径敏感的符号化函数摘要作用于过程间分析,最终通过PR-CFG节点上由抽象内存状态计算得到的内存状态集进行故障模式状态机的状态转化来实现内存泄漏的检测.实验表明,本方法提高了Fortran指针引发内存泄漏的检测精度和效率,降低了检测的误报率. 展开更多
关键词 Fortran指针 内存泄漏检测 PR-CFG 符号化函数摘要 抽象内存状态计算
下载PDF
面向高密度闪存的内存页大小探索
5
作者 俞丁翠 罗龙飞 +2 位作者 宋云鹏 李文通 石亮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1167-1174,共8页
近年来,固态硬盘SSD向高带宽、大容量的方向飞速发展。为了扩大SSD的容量,闪存页面从4 KB增长到了16 KB。然而,操作系统依然以4 KB内存页为粒度向SSD下发读写请求,导致应用难以充分利用SSD的高带宽。增加内存页面的大小,以使操作系统下... 近年来,固态硬盘SSD向高带宽、大容量的方向飞速发展。为了扩大SSD的容量,闪存页面从4 KB增长到了16 KB。然而,操作系统依然以4 KB内存页为粒度向SSD下发读写请求,导致应用难以充分利用SSD的高带宽。增加内存页面的大小,以使操作系统下发的I/O请求和SSD读写闪存的粒度统一是可能可行的解决方案。将首次深入探索内存页大小对系统I/O性能与SSD寿命的影响。具体来说,将内存页大小设置为16 KB,运行测试程序并将实验结果与4 KB内存页进行比较。得出以下结论:(1)16 KB内存页具有更好的读性能;(2)应用的写粒度决定了16 KB内存页的性能;(3)16 KB内存页放大了页内无效数据对SSD寿命的影响。 展开更多
关键词 固态硬盘 高密度闪存 内存管理 内存页大小 I/O性能测试分析
下载PDF
基于内存保护键值的细粒度访存监控
6
作者 王睿伯 吴振伟 +3 位作者 张文喆 邬会军 张于舒晴 卢凯 《计算机工程与科学》 CSCD 北大核心 2024年第1期21-27,共7页
基于内存保护键值硬件扩展,提出了一种轻量化且细粒度的页保护机制。突破了传统页保护方法仅支持页粒度访存监控的技术局限,实现了能够拦截每个访存操作的细粒度页保护机制。充分利用内存保护键值提供的用户态线程局部页访问权限控制,... 基于内存保护键值硬件扩展,提出了一种轻量化且细粒度的页保护机制。突破了传统页保护方法仅支持页粒度访存监控的技术局限,实现了能够拦截每个访存操作的细粒度页保护机制。充分利用内存保护键值提供的用户态线程局部页访问权限控制,性能开销相比传统页保护的降低了30%以上。通过融合细粒度页保护与编译插桩,弥补了传统编译插桩方法无法覆盖程序中不可重编译部分的局限性。 展开更多
关键词 访存监控 内存保护键值 页保护 编译插桩
下载PDF
Spark内存计算课程教学改革探索
7
作者 梁晶 胡新荣 《计算机教育》 2024年第9期180-184,共5页
分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学... 分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学中将基础能力训练和综合能力培养相结合的教学方法,为其他大数据相关课程的教学提供参考。 展开更多
关键词 大数据 SPARK 内存计算 实践教学 教学改革
下载PDF
结合计算机运行时内存结构的C语言教学方法研究
8
作者 高磊 魏路 廖联军 《计算机教育》 2024年第9期77-81,共5页
针对计算机教学中学生对计算机程序的编译过程及编译后的程序运行机制理解不够深入等问题,在分析C语言特点的基础上,提出结合计算机运行时内存结构的C语言教学方法,从源程序的编译过程、流程控制语句的实现机制、函数参数的传递机制、... 针对计算机教学中学生对计算机程序的编译过程及编译后的程序运行机制理解不够深入等问题,在分析C语言特点的基础上,提出结合计算机运行时内存结构的C语言教学方法,从源程序的编译过程、流程控制语句的实现机制、函数参数的传递机制、运行时变量的内存结构、多模块编译5方面,介绍教学方法应用,旨在使学生深入理解C语言程序的运行机制,掌握命令式语言程序运行的一般形式,提升学生的计算机系统软硬件综合能力。 展开更多
关键词 C语言教学 汇编语言 运行时内存结构 编译过程
下载PDF
基于STREAM的内存性能测试设计与分析
9
作者 刘建 黄奇 +2 位作者 官慧敏 张明娟 吴宸 《电子质量》 2024年第5期81-86,共6页
主要对STREAM内存性能测试工具进行了深入研究,同时对内存性能影响因素进行了分析,详细地阐述了CPU、内存、编译器等影响因素对内存性能可能存在的影响点,进一步选取不同架构CPU、不同内存速率、不同版本的GCC编译器设计相关案例进行内... 主要对STREAM内存性能测试工具进行了深入研究,同时对内存性能影响因素进行了分析,详细地阐述了CPU、内存、编译器等影响因素对内存性能可能存在的影响点,进一步选取不同架构CPU、不同内存速率、不同版本的GCC编译器设计相关案例进行内存性能测试。测试结果表明,CPU架构、内存速率与GCC编译器版本均对内存性能有一定影响,其中CPU架构影响最大,满线程测试结果最大相差4.17倍,内存速率影响最小,单线程测试结果几乎无影响。 展开更多
关键词 可持续内存带宽 内存性能 影响因素
下载PDF
基于类C语言内存模型的复杂数据结构验证方法
10
作者 李薛剑 王俊宜 《计算机技术与发展》 2024年第8期57-66,共10页
对系统中操作复杂结构程序的正确性验证是保证软件高可信的重要途径,目前大多数基于高层抽象建模和程序结构拆分的方法难以满足复杂数据结构程序的验证要求。针对这一问题,论文提出基于类C语言内存模型的验证方法。首先,以内存块为基础... 对系统中操作复杂结构程序的正确性验证是保证软件高可信的重要途径,目前大多数基于高层抽象建模和程序结构拆分的方法难以满足复杂数据结构程序的验证要求。针对这一问题,论文提出基于类C语言内存模型的验证方法。首先,以内存块为基础将复杂数据结构的操作进行函数形式的定义和描述,形式化描述内存对象操作性质;其次,针对程序层定义了符合复杂结构描述的文法和语义,并基于符号化的程序逻辑进行推理。实验对嵌入式操作系统内核μC/OS-III中的复杂数据结构进行分析和自动化验证,断言描述和验证条件脚本通过了自动定理证明器的求解。 展开更多
关键词 形式化验证 复杂数据结构 程序逻辑 内存模型 操作系统内核
下载PDF
嵌入式软件内存管理方法研究
11
作者 赵昶宇 王喜龙 《科技与创新》 2024年第16期129-131,共3页
为提高嵌入式系统内存的利用率,有效解决内存碎片和内存泄露的问题,并实现内存的快速分配和释放,提出一种嵌入式软件内存管理方法。该方法采用静态分配的方式,首先设置内存区的分区个数及每个分区内各内存块的大小和数量,然后基于池式... 为提高嵌入式系统内存的利用率,有效解决内存碎片和内存泄露的问题,并实现内存的快速分配和释放,提出一种嵌入式软件内存管理方法。该方法采用静态分配的方式,首先设置内存区的分区个数及每个分区内各内存块的大小和数量,然后基于池式内存管理机制对用户内存区采用动态内存分配的方式,利用内存分配器来实现动态内存的申请和释放,最后对传统的内存申请、分配和回收算法进行了改进。 展开更多
关键词 嵌入式软件 内存管理 动态分配 内存释放
下载PDF
面向非易失性内存的高性能计算并行优化研究
12
作者 辛华 《现代科学仪器》 2024年第2期198-203,209,共7页
针对非易失性内存在高性能计算运行过程中存在的内存分配不均匀问题,研究非易失性内存的高性能计算并行优化方法。结合新型高速网络RDMA和非易失性存储设备,提出分布式非易失性内存新型存储结构,加入一致性模块和本地非易失性内存管理模... 针对非易失性内存在高性能计算运行过程中存在的内存分配不均匀问题,研究非易失性内存的高性能计算并行优化方法。结合新型高速网络RDMA和非易失性存储设备,提出分布式非易失性内存新型存储结构,加入一致性模块和本地非易失性内存管理模块,同时加强本地非易失性内存的管理;通过SPL框架进行分布式并行计算,经过数据预加载后,使用分布式独立内存分配算法优化多任务多线程的并行计算过程。实验结果表明:该方法能够使非易失性内存的数据保持一致,增强读写性能,提升工作效率;对于并行多线程任务的内存分配具有更好的扩展性,增强系统并行运算能力,同时适用性广泛。 展开更多
关键词 非易失性内存 高性能计算 并行优化 分布式储存结构 内存分配算法 CPU资源分配
下载PDF
基于大页共享内存的5小基站PCIe驱动程序设计
13
作者 吴凡 宋长城 王益龙 《电子制作》 2024年第21期81-84,共4页
针对5G小基站研发需求,文中介绍了一体化基站的基本原理和组成结构,重点剖析了采用大页共享的PCIe驱动的关键设计要点,详述了程序的主要步骤,并测试驱动程序软件所引入的时延,实验结果满足上层协议栈高速传输数据的要求。
关键词 小基站 PCIExpress(PCIe) 直接内存访问(DMA) 大页共享内存
下载PDF
嵌入式实时系统内存池技术分析
14
作者 罗浩 《中国新通信》 2024年第5期34-36,211,共4页
在嵌入式实时系统中,内存资源的使用通常要求较小的响应时间,并减少内存碎片的产生。为满足这些要求,开发者普遍采用内存池技术。通过内存池技术,申请和释放内存的过程无需系统调用的介入,这提高了执行效率,因此在嵌入式实时系统中被广... 在嵌入式实时系统中,内存资源的使用通常要求较小的响应时间,并减少内存碎片的产生。为满足这些要求,开发者普遍采用内存池技术。通过内存池技术,申请和释放内存的过程无需系统调用的介入,这提高了执行效率,因此在嵌入式实时系统中被广泛应用。本文详细分析了常用的内存池资源管理技术的原理,并探讨了它们在实践中采用的实现方法。同时,总结了它们的优缺点,并根据各自的特点提出了一些有效的改进思路,以改善系统的响应速度并减少内存碎片的生成。 展开更多
关键词 内存 响应时间 内存碎片
下载PDF
MMOS:支持超卖的多租户数据库内存资源共享方法
15
作者 徐海洋 刘海龙 +2 位作者 杨超云 王硕 李战怀 《计算机科学》 CSCD 北大核心 2024年第2期27-35,共9页
多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提... 多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提升平台收益。为了支持资源超卖,需要准确预测租户的资源需求,动态地按需为租户分配资源。已有的针对多租户数据库的资源共享方法的研究对象主要是CPU资源,鲜有支持超卖的内存资源共享方法。鉴于此,在联机分析处理场景下,提出了一种支持超卖的多租户数据库内存资源共享方法MMOS(Multi-tenant database Memory resource Overselling and Sharing)。该方法通过准确预测每个租户的内存需求区间,按照区间上限为租户动态调整内存配额,在不影响租户性能的前提下,统一管理空闲内存资源以支持更多租户,实现内存超卖。实验结果表明,MMOS在租户负载动态变化的场景下具有较好效果。在不同资源量的资源池下,支持的租户数可以增加2~2.6倍,资源利用率峰值提升175%~238%。同时,每个租户的业务与性能未受影响。 展开更多
关键词 多租户数据库 资源超卖 内存资源 资源预测 资源分配
下载PDF
基于非易失性内存的知识图谱系统优化研究
16
作者 柴艳峰 李加姝 +4 位作者 李雨航 柴云鹏 张蔷 张睿 潘理虎 《计算机工程与应用》 CSCD 北大核心 2024年第15期270-276,共7页
分布式系统的高扩展性和高可用性使得在其上构建大规模知识图谱已经成为产业发展趋势。新兴的分布式图数据库更推崇采用NoSQL等数据模型,如键值存储作为其存储引擎,以进一步提高其可扩展性和实用性。在这种情况下,上层的图查询语言的语... 分布式系统的高扩展性和高可用性使得在其上构建大规模知识图谱已经成为产业发展趋势。新兴的分布式图数据库更推崇采用NoSQL等数据模型,如键值存储作为其存储引擎,以进一步提高其可扩展性和实用性。在这种情况下,上层的图查询语言的语句会被翻译成一组混合的键值操作。为了加速查询翻译生成的键值操作,提出了基于非易失性内存查询性能加速(knowledge graph booster,KGB)的知识图谱系统。KGB主要包含面向邻域查询加速的NVM辅助索引,用于降低键值存储的读取成本;快速响应的改进Raft算法,用于实现高效的键值存取操作;以及面向键值存储引擎的调优机制,为知识图谱存储系统获得额外的性能提升。通过实验表明,KGB能有效降低知识图谱系统的平均延迟和尾延迟的影响,实现更高的性能提升。 展开更多
关键词 知识图谱 键值存储 非易失性内存
下载PDF
APLI:一种基于持久化内存的高性能学习索引
17
作者 王中华 赖必梁 +2 位作者 赵泽阳 鲁凯 万继光 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2110-2118,共9页
持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究... 持久化内存(Persistent Memory,PM)已成为容量有限的DRAM的最有潜力的补充或者替代品.学习索引(Learned Index,LI)作为一种感知数据分布的索引结构,在大数据集上能够以较小的内存使用量展现远优于B+树的性能而被广泛关注.最近,一些研究者尝试将学习索引部署在持久化内存中,然而现有的持久化学习索引存在读写性能次优化、结构扩展性不足、动态负载性能不统一等问题.为此,本文在深入分析了持久化内存和学习索引特性的基础上,提出了一种自适应的持久化学习索引结构APLI.APLI由两部分组成:1)高效的混合介质的持久化学习索引树(EPL-Tree),提供稳定的读写性能和结构扩展;2)轻量级的哈希表(SW-Table),用于快速感知负载变化并提升热点访问的性能.在持久化内存真实设备上的评估表明,相比现有的持久化索引结构,APLI读写性能最高分别提升3.2倍和3.3倍,而且拥有更稳定的结构扩展性能.另外,APLI能在较小的DRAM空间占用前提下,实现各种负载场景下的稳定高性能访问. 展开更多
关键词 非易失内存 索引结构 学习索引 持久化索引 键值存储
下载PDF
仿真建模工具内存分配优化
18
作者 乔仕岭 刘晨 +2 位作者 王学松 孙林 丁光亮 《科技创新与应用》 2024年第22期46-49,共4页
在一体化仿真建模工具的性能优化时,内存分配优化方面提出内存池式分配方式,该分配方式特采用全局内存池基础实现并加上并行线程内存管理的方法来较好地匹配仿真工具的系统多临时对象和多动态分配内存的应用特点,性能测试表明,该内存池... 在一体化仿真建模工具的性能优化时,内存分配优化方面提出内存池式分配方式,该分配方式特采用全局内存池基础实现并加上并行线程内存管理的方法来较好地匹配仿真工具的系统多临时对象和多动态分配内存的应用特点,性能测试表明,该内存池具有良好的空间特性和效率,比传统的操作系统直接分配内存节省约50.7%的分配时间。 展开更多
关键词 内存 仿真建模工具 分配优化 管理模块 模块设计
下载PDF
基于静态和动态混合分析的内存拷贝类函数识别
19
作者 尹小康 蔡瑞杰 +1 位作者 杨启超 刘胜利 《软件学报》 EI CSCD 北大核心 2024年第7期3291-3313,共23页
缓冲区溢出等内存错误漏洞的产生往往来自对内存拷贝类函数的不当使用.对二进制程序中的内存拷贝类函数进行识别有利于发现内存错误漏洞.目前针对二进制程序中内存拷贝类函数的识别方法主要借助静态分析来提取函数的特征、控制流、数据... 缓冲区溢出等内存错误漏洞的产生往往来自对内存拷贝类函数的不当使用.对二进制程序中的内存拷贝类函数进行识别有利于发现内存错误漏洞.目前针对二进制程序中内存拷贝类函数的识别方法主要借助静态分析来提取函数的特征、控制流、数据流等信息进行识别,具有较高的误报率和漏报率.为了提高对内存拷贝类函数识别的效果,提出一种基于静态和动态混合分析的技术CPSeeker.所提方法结合静态分析和动态分析各自的优势,分阶段对函数的全局静态信息和局部执行信息进行搜集,对提取到的信息进行融合分析,进而识别二进制程序中的内存拷贝类函数.实验结果表明,尽管CPSeeker在运行时间上有所增加,但在内存拷贝类函数识别的效果上,其F1值达到了0.96,远优于最新的工作BootStomp、SaTC、CPYFinder以及Gemini,并且不受编译环境(编译器版本、编译器种类、编译器优化等级)的影响.此外,CPSeeker在真实的固件测试中也有更好的表现. 展开更多
关键词 静态分析 动态分析 仿真执行 内存拷贝类函数 函数识别
下载PDF
动态性感知的深度学习内存分配器
20
作者 黄奕桐 张昱 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2049-2054,共6页
深度学习应用程序通常被认为在训练小批量步之间具有规律的内存分配模式.这种规律性在许多情况下是正确的,但由于未知的张量大小以及各种并行执行模式下不确定的执行顺序等因素,内存分配请求在运行时可能会变得动态和不规律.在这些因素... 深度学习应用程序通常被认为在训练小批量步之间具有规律的内存分配模式.这种规律性在许多情况下是正确的,但由于未知的张量大小以及各种并行执行模式下不确定的执行顺序等因素,内存分配请求在运行时可能会变得动态和不规律.在这些因素作用下,一些基于内存分配的规律性所进行的优化在运行时存在许多不匹配的情况.为了解决这个问题,本文提出了一个动态性感知的深度学习内存分配器.这个分配器在运行时收集内存分配信息并生成内存分配计划,然后通过模拟分配的方式动态调整生成的内存分配计划.实验结果表明,与TensorFlow相比,本文所设计的分配器平均可以达到1.24的加速比,并减少56.34%的CPU内存使用量以及21.13%的GPU显存使用量. 展开更多
关键词 深度学习 动态性 内存分配 模型训练
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部