期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
分布式技术在大模型训练和推理中的应用
1
作者 郑纬民 《大数据》 2024年第5期1-10,共10页
近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统S... 近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统SuperFS,能够同时满足低延迟和可扩展的要求。在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用,使大模型能够充分利用计算资源,加快训练速度,有利于人工智能领域的发展。 展开更多
关键词 分布式技术 大模型 海量小文件 大数据处理引擎 检查点 KVCache
下载PDF
Unix进程检查点设置关键技术 被引量:5
2
作者 王春露 汪东升 《计算机工程与应用》 CSCD 北大核心 2002年第1期90-93,136,共5页
Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自... Unix进程的检查点设置是实现分布/并行系统容错、重播调试、进程迁移、系统模拟和作业切换等功能的基础。该论文主要论述UNIX进程检查点基本信息的保存与恢复、文件检查点、检查点信息的优化等关键技术,最后介绍Libckpt、Condor以及自行设计的Libcsm等检查点设置工具。 展开更多
关键词 检查点 文件检查点 回卷恢复
下载PDF
一种检查点感知的文件恢复算法 被引量:1
3
作者 陈海涛 韦中伟 卢宇彤 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期169-174,共6页
针对进程检查点技术应用于含有文件系统访问的长时间应用程序时所面临的进程状态和文件状态不一致性问题,提出了一种能解决容灾环境下应用恢复的低开销文件恢复算法——CAR算法,并从理论上证明了算法的正确性.原型测试结果验证了CAR算... 针对进程检查点技术应用于含有文件系统访问的长时间应用程序时所面临的进程状态和文件状态不一致性问题,提出了一种能解决容灾环境下应用恢复的低开销文件恢复算法——CAR算法,并从理论上证明了算法的正确性.原型测试结果验证了CAR算法的高效率和可用性. 展开更多
关键词 容灾 业务连续性 一致性 进程检查点 文件检查点
下载PDF
基于Lustre文件系统的MPI检查点系统实现技术与性能测试 被引量:4
4
作者 谢旻 卢宇彤 +2 位作者 周恩强 曹宏嘉 杨学军 《计算机研究与发展》 EI CSCD 北大核心 2007年第10期1709-1716,共8页
基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同... 基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术,其性能开销主要为协同协议和检查点映像存储所决定.描述了一个在MPICH2中实现的应用透明的并行检查点系统,相比已有的技术,该系统有以下特点:1)协同协议操作利用了并行应用的近邻通信特性,通过虚连接方法减少协议的处理开销;2)采用Lustre文件系统简化检查点映像文件管理的复杂性;3)通过并行I/O操作提高性能,优化检查点映像的存储过程.实际应用的测试表明,该检查点系统具有较小的运行时间开销和良好的可扩展性. 展开更多
关键词 容错技术 MPICH2 回卷恢复 协同式检查点 LUSTRE文件系统
下载PDF
一种无文件恢复的检查点算法
5
作者 慈轶为 张展 +2 位作者 左德承 吴智博 杨孝宗 《高技术通讯》 EI CAS CSCD 北大核心 2010年第9期924-928,共5页
在容错计算中,检查点技术的使用可以使进程在失效后恢复到一个最近状态,从而有效控制计算损失。考虑进程在计算过程中可能对一些外部资源进行操作,如对文件进行更新,进程恢复时若不进行外部资源恢复,那么进程所见的外部资源状态可能与... 在容错计算中,检查点技术的使用可以使进程在失效后恢复到一个最近状态,从而有效控制计算损失。考虑进程在计算过程中可能对一些外部资源进行操作,如对文件进行更新,进程恢复时若不进行外部资源恢复,那么进程所见的外部资源状态可能与实际不一致。若允许外部资源恢复将会带来可观的已获取信息丢失,同样是不希望的。为此我们提出了一个扩展的AFS文件语义,在该语义下检查点设置依赖于文件状态,但在进程恢复过程中无需进行文件卷回。这一方面减少了存储信息的丢失,另一方面可提供快速的恢复。 展开更多
关键词 容错 分布式文件系统 检查点 文件语义
下载PDF
容错系统中文件状态的保存与恢复算法 被引量:1
6
作者 魏晓辉 鞠九滨 《计算机学报》 EI CSCD 北大核心 1998年第8期738-746,共9页
在机群计算环境中实现容错是人们日益关心的热点.许多著名的机群计算环境都使用检查点实现了容错的功能.但目前的检查点算法在使程序卷回执行的同时,不能相应地恢复文件系统的状态,因而对应用程序访问文件系统有较多的限制.本文在... 在机群计算环境中实现容错是人们日益关心的热点.许多著名的机群计算环境都使用检查点实现了容错的功能.但目前的检查点算法在使程序卷回执行的同时,不能相应地恢复文件系统的状态,因而对应用程序访问文件系统有较多的限制.本文在原子操作和并发控制的基础上,提出了能够恢复文件系统状态的SCR算法,进一步发展了文件系统可恢复性的概念.SCR算法与检查点机制结合使用,便可支持分布式应用程序在容错运行时对文件系统的任意访问. 展开更多
关键词 文件系统 可恢复性 容错系统 计算机
下载PDF
通过非易失存储和检查点优化缓解日志开销 被引量:6
7
作者 万虎 徐远超 +2 位作者 闫俊峰 孙凤芸 张伟功 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1351-1361,共11页
在文件系统进行用户数据和元数据的持久化过程中,如果出现异常掉电或系统崩溃,可能导致文件系统出现数据的不一致性问题.现有的Ext4文件系统通过写前日志(write-ahead logging,WAL)技术结合事务机制来保证持久化操作的一致性.写前日志... 在文件系统进行用户数据和元数据的持久化过程中,如果出现异常掉电或系统崩溃,可能导致文件系统出现数据的不一致性问题.现有的Ext4文件系统通过写前日志(write-ahead logging,WAL)技术结合事务机制来保证持久化操作的一致性.写前日志技术将文件系统元数据写入磁盘2次,元数据的粒度小、数量大、重复度高,影响了程序的性能,也缩短了Flash存储介质的使用寿命.针对这一问题,提出了使用新型非易失存储(non-volatile memory,NVM)作为存放日志的独立外部设备,并通过存取指令(load/store)接口直接访问;同时使用倒序扫描(reverse scan)技术对检查点(checkpoint)流程进行优化,减少同一数据块的重复写操作.实验结果表明,使用NVM作为外部日志分区,对于写操作比重较大的程序,在HDD上带宽提升接近50%;在SSD上带宽提升达到23%;在checkpoint时使用倒序扫描之后,写入次数降低明显,带宽提升接近20%. 展开更多
关键词 文件系统 非易失存储 日志 事务 崩溃一致性 检查点
下载PDF
面向大规模计算系统的Cache式并行检查点 被引量:1
8
作者 刘勇燕 刘勇鹏 +1 位作者 冯华 迟万庆 《计算机科学》 CSCD 北大核心 2011年第5期287-289,F0003,共4页
检查点机制是高性能并行计算系统中重要的容错手段,随着系统规模的增大,并行检查点的可扩展性受文件访问的制约。针对大规模并行计算系统的多级文件系统结构,提出了cache式并行检查点技术。它将全局同步并行检查点转化为局部文件操作,... 检查点机制是高性能并行计算系统中重要的容错手段,随着系统规模的增大,并行检查点的可扩展性受文件访问的制约。针对大规模并行计算系统的多级文件系统结构,提出了cache式并行检查点技术。它将全局同步并行检查点转化为局部文件操作,并利用多处理器结构进行乱序流水线式写回调度,将检查点的写回时机合理分布,从而有效地隐藏了检查点的写回开销,保证了并行检查点文件访问的高性能和高可扩展性。 展开更多
关键词 Cache式检查点 并行计算 多级文件系统 多处理器 乱序流水线
下载PDF
分布式计算平台中任务调度的模拟器研究
9
作者 张学锋 朱红莉 《小型微型计算机系统》 CSCD 北大核心 2011年第8期1604-1607,共4页
提出与描述一个分布式计算平台中任务调度的模拟器,该模拟器可以用来仿真与评测网络计算平台上的主-从模式的并行分布式应用.它采用任务跟踪的方式,周期性的收集任务相关的收据来实现.该模拟器支持多种运行场景、根据应用的需求来控制... 提出与描述一个分布式计算平台中任务调度的模拟器,该模拟器可以用来仿真与评测网络计算平台上的主-从模式的并行分布式应用.它采用任务跟踪的方式,周期性的收集任务相关的收据来实现.该模拟器支持多种运行场景、根据应用的需求来控制输入参数;能够完成不同任务调度策略分析与检查点文件共享策略分析.分析了两种类型的任务调度算法在模拟器上的仿真:FCFS(First Come First Served)策略和MinMax(unassigned min-max)策略.模拟与性能结果表明:该模拟器可以仿真因特网上的大规模分布式计算平台的调度策略与检查点策略对通信轮回时间的影响,是一种接近真实世界的仿真结果,方便了程序员的操作. 展开更多
关键词 分布式计算平台 模拟器 通信轮回时间 任务调度 检查点文件
下载PDF
基于虚拟文件操作的文件检查点设置 被引量:3
10
作者 刘少锋 汪东升 朱晶 《软件学报》 EI CSCD 北大核心 2002年第8期1528-1533,共6页
实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态... 实现分布/并行系统容错的基础是单进程检查点设置和卷回恢复技术,而对活动文件信息进行保存和恢复则是这种技术的重要方面.提出一种虚拟文件操作策略,实现了对用户文件的检查点设置,有效地解决了发生故障时用户文件内容与进程全局状态的不一致的问题.该方法通过文件块式管理、检查点分布操作等技术,使得在空间开销、正常运行时间、恢复时间等性能指标上优于其他方法,并且具有对用户透明、可最大限度地保留已完成工作的特点. 展开更多
关键词 虚拟文件操作 文件检查点设置 文件集 磁盘文件 进程 操作系统
下载PDF
分布式系统检查点算法中程序卷回时文件系统的状态恢复 被引量:4
11
作者 沙丽杰 武秀川 韦鵷 《计算机工程与应用》 CSCD 北大核心 2002年第17期131-134,共4页
检查点技术,也称为“回溯恢复”,是软件容错的重要手段,它主要用于保存和恢复程序的运行状态。在分布式计算和并行计算系统中有十分重要的作用。该文从减少检查点的开销角度,对分布式系统检查点算法中关于程序卷回时文件系统状态的恢复... 检查点技术,也称为“回溯恢复”,是软件容错的重要手段,它主要用于保存和恢复程序的运行状态。在分布式计算和并行计算系统中有十分重要的作用。该文从减少检查点的开销角度,对分布式系统检查点算法中关于程序卷回时文件系统状态的恢复问题进行了分析讨论和进一步的研究。 展开更多
关键词 分布式系统 检查点算法 程序卷回 文件系统 状态恢复 计算机网络
下载PDF
基于AutoCAD和RTK的地形图数学精度检测 被引量:10
12
作者 伍素贞 方子岩 莫志恒 《测绘与空间地理信息》 2012年第3期187-189,193,共4页
当对一个较大测区用全站仪或摄影测量方法测绘某种比例尺地形图时,可获得数量较多的地形图。对获取的数字地形图进行精度评定,是质量检查中的一个重要环节,而且工作量较大。AutoCAD为平台开发的测图软件在测绘行业十分流行,测绘行业生... 当对一个较大测区用全站仪或摄影测量方法测绘某种比例尺地形图时,可获得数量较多的地形图。对获取的数字地形图进行精度评定,是质量检查中的一个重要环节,而且工作量较大。AutoCAD为平台开发的测图软件在测绘行业十分流行,测绘行业生产的数字地图一般都能转化为DWG格式。对于DWG格式的地形图,在AutoCAD打开的图上拾取若干地物点,并把这些点的坐标自动形成一个坐标文件,与外业测量仪器RTK采集相应点形成的坐标文件,通过精度评定程序进行同名点号的坐标值对比,获得数字地形图数学精度,大大提高了数字地图精度检测工作的效率。 展开更多
关键词 精度评定 AUTOCAD DWG格式 LISP语言 拾取点坐标 坐标文件 RTK采集检查点坐标
下载PDF
一种基于行为特征的文件检查点优化策略 被引量:1
13
作者 周益帆 吴咏 《软件》 2017年第7期137-142,共6页
检查点机制是高性能计算平台的一项重要特性。它能够在程序运行的某一时刻保存程序的运行状态,并在系统故障后恢复程序状态继续执行。由于文件操作在应用程序中的普遍性,支持文件回卷对于检查点技术来说是十分必要的。文件数据备份可以... 检查点机制是高性能计算平台的一项重要特性。它能够在程序运行的某一时刻保存程序的运行状态,并在系统故障后恢复程序状态继续执行。由于文件操作在应用程序中的普遍性,支持文件回卷对于检查点技术来说是十分必要的。文件数据备份可以使文件在回卷后恢复到正常状态,但是开销太大。本文提出了一种基于行为特征的文件检查点优化策略(BBFC),能够提供文件数据的正确恢复,有效保证了程序回卷恢复到上一个检查点时文件状态与进程其它状态保持一致。BBFC对文件行为特征进行分类,并根据这些行为特征采取相应的保存恢复策略,从而在很大概率上减少了检查点间隔需要保存的文件内容,降低了文件检查点的时间、空间开销。它对用户透明,简单易用。 展开更多
关键词 计算机软件 文件检查点 行为特征 回卷恢复 -致性 检查点间隔
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部