期刊文献+
共找到173篇文章
< 1 2 9 >
每页显示 20 50 100
Enhanced Best Fit Algorithm for Merging Small Files
1
作者 Adnan Ali Nada Masood Mirza Mohamad Khairi Ishak 《Computer Systems Science & Engineering》 SCIE EI 2023年第7期913-928,共16页
In the Big Data era,numerous sources and environments generate massive amounts of data.This enormous amount of data necessitates specialized advanced tools and procedures that effectively evaluate the information and ... In the Big Data era,numerous sources and environments generate massive amounts of data.This enormous amount of data necessitates specialized advanced tools and procedures that effectively evaluate the information and anticipate decisions for future changes.Hadoop is used to process this kind of data.It is known to handle vast volumes of data more efficiently than tiny amounts,which results in inefficiency in the framework.This study proposes a novel solution to the problem by applying the Enhanced Best Fit Merging algorithm(EBFM)that merges files depending on predefined parameters(type and size).Implementing this algorithm will ensure that the maximum amount of the block size and the generated file size will be in the same range.Its primary goal is to dynamically merge files with the stated criteria based on the file type to guarantee the efficacy and efficiency of the established system.This procedure takes place before the files are available for the Hadoop framework.Additionally,the files generated by the system are named with specific keywords to ensure there is no data loss(file overwrite).The proposed approach guarantees the generation of the fewest possible large files,which reduces the input/output memory burden and corresponds to the Hadoop framework’s effectiveness.The findings show that the proposed technique enhances the framework’s performance by approximately 64%while comparing all other potential performance-impairing variables.The proposed approach is implementable in any environment that uses the Hadoop framework,not limited to smart cities,real-time data analysis,etc. 展开更多
关键词 big data Hadoop MapReduce small file HDFS
下载PDF
基于AI大模型的高校人事档案信息数据挖掘研究 被引量:2
2
作者 陈刚 《江苏科技信息》 2024年第2期107-110,124,共5页
高校干部人事档案信息是高校管理和决策的重要依据,也是记录教师职业发展的关键资料。传统的大数据技术在高校人事档案数据挖掘实践上存在难以应用的问题。相比之下,具备多类型数据处理能力、较低使用门槛、小样本训练效果显著等优势的A... 高校干部人事档案信息是高校管理和决策的重要依据,也是记录教师职业发展的关键资料。传统的大数据技术在高校人事档案数据挖掘实践上存在难以应用的问题。相比之下,具备多类型数据处理能力、较低使用门槛、小样本训练效果显著等优势的AI大模型成为破解人事档案数据挖掘难题的新选择。文章从高校人员选拔、人员评价和人员发展3个方面分析了AI大模型在高校人事档案信息数据挖掘领域的应用。充分挖掘和利用高校干部人事档案信息,可以提高高校人才培养质量、促进教师队伍建设、优化高校管理制度等,对高校的发展具有重要意义。 展开更多
关键词 人工智能 大模型 人事档案 深度学习 数据挖掘
下载PDF
分布式技术在大模型训练和推理中的应用
3
作者 郑纬民 《大数据》 2024年第5期1-10,共10页
近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统S... 近几年,人工智能被广泛应用于多个领域,大语言模型(以下简称大模型)的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。在数据获取环节,针对海量小文件的存储问题,研发了文件系统SuperFS,能够同时满足低延迟和可扩展的要求。在数据预处理环节,针对从分布式文件系统读取数据开销大的问题,研发了高效大数据处理引擎“诸葛弩”。在模型训练环节,针对检查点文件读写性能差的问题,提出了分布式检查点策略,加快了检查点文件的读写速度。在模型推理环节,针对KVCache对存储系统的挑战,研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用,使大模型能够充分利用计算资源,加快训练速度,有利于人工智能领域的发展。 展开更多
关键词 分布式技术 大模型 海量小文件 大数据处理引擎 检查点 KVCache
下载PDF
基于大数据随机样本划分的分布式观测点分类器
4
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 Spark计算框架
下载PDF
基于大数据的数据归档系统
5
作者 王剑 《软件》 2024年第1期115-117,共3页
随着大数据时代的到来,每天都会产生海量的数据,如果不对这些数据进行归档,就会出现信息丢失、浪费资源等问题。因此,为了保障大数据时代信息管理系统的正常运行,需要对海量数据进行归档。在对大数据进行归档时,首先要对其进行分类,然... 随着大数据时代的到来,每天都会产生海量的数据,如果不对这些数据进行归档,就会出现信息丢失、浪费资源等问题。因此,为了保障大数据时代信息管理系统的正常运行,需要对海量数据进行归档。在对大数据进行归档时,首先要对其进行分类,然后针对不同类型的数据提出相应的处理方法。本文对基于大数据的数据归档系统展开研究,以供参考。 展开更多
关键词 大数据 数据 归档系统 应用实践
下载PDF
运用大数据技术加强干部人事档案资源体系建设探析
6
作者 徐文静 《信息与电脑》 2024年第14期189-191,共3页
在事业单位人事档案管理中,大数据技术有助于构建完善的单位资源体系,有助于提高人事档案管理水平,为事业单位的长远发展提供动力。为此,本文将总结档案管理中应用大数据技术的意义,分析大数据技术在档案管理中面临的挑战及其应对措施,... 在事业单位人事档案管理中,大数据技术有助于构建完善的单位资源体系,有助于提高人事档案管理水平,为事业单位的长远发展提供动力。为此,本文将总结档案管理中应用大数据技术的意义,分析大数据技术在档案管理中面临的挑战及其应对措施,最后重点围绕大数据技术在加强干部人事档案资源管理中的应用展开细致探讨。 展开更多
关键词 大数据 干部人事档案 资源体系建设 档案管理
下载PDF
大数据背景下工程档案管理工作探析
7
作者 李程 《中国科技纵横》 2024年第11期135-137,共3页
随着大数据技术的蓬勃发展,工程领域逐步实现了数字化转型。大数据技术在工程领域得到了广泛应用,给工程档案管理带来了新的挑战与机遇。工程档案管理作为工程项目管理的关键组成部分,在大数据背景下变得更加复杂和重要。基于此,本文探... 随着大数据技术的蓬勃发展,工程领域逐步实现了数字化转型。大数据技术在工程领域得到了广泛应用,给工程档案管理带来了新的挑战与机遇。工程档案管理作为工程项目管理的关键组成部分,在大数据背景下变得更加复杂和重要。基于此,本文探讨了工程档案管理工作的特点,分析了大数据背景下工程档案管理工作的变革,并提出了相应的强化策略。 展开更多
关键词 大数据 工程档案 档案管理
下载PDF
大数据背景下强化档案管理工作的思考
8
作者 李佳 《中国科技纵横》 2024年第6期55-57,共3页
大数据背景下,档案管理工作面临诸多新的挑战和机遇。数据量的激增和数据种类的多样化带来了更加复杂的检索和分类需求,同时也加剧了数据安全和隐私风险,法规和政策也需不断更新以适应这一变化。为解决相关问题,采用一系列强化档案管理... 大数据背景下,档案管理工作面临诸多新的挑战和机遇。数据量的激增和数据种类的多样化带来了更加复杂的检索和分类需求,同时也加剧了数据安全和隐私风险,法规和政策也需不断更新以适应这一变化。为解决相关问题,采用一系列强化档案管理的策略和方法,包括技术手段的运用、流程的优化以及人员培训,以期进一步提高档案管理效率,增强数据的安全性和合规性。 展开更多
关键词 大数据 档案管理 数据安全 数据隐私
下载PDF
风光一体化项目PC总承包模式档案管理优化探究
9
作者 杨晶莹 《现代工程科技》 2024年第14期105-108,共4页
探讨了基于大数据分析的风光一体化项目PC总承包模式下的档案管理优化策略。首先,通过收集和整合采购阶段、施工阶段以及验收阶段的数据,建立数据采集系统和整合平台,实现对项目数据的统一管理和存储;其次,运用大数据分析技术,对档案管... 探讨了基于大数据分析的风光一体化项目PC总承包模式下的档案管理优化策略。首先,通过收集和整合采购阶段、施工阶段以及验收阶段的数据,建立数据采集系统和整合平台,实现对项目数据的统一管理和存储;其次,运用大数据分析技术,对档案管理过程中的关键指标进行分析和挖掘,以发现潜在的优化空间;最后,提出了针对档案管理过程的优化策略,包括优化数据采集流程、提升数据分析能力、加强信息安全保障等方面。该研究可为风光一体化项目PC总承包模式下的档案管理提供理论支持和实践指导。 展开更多
关键词 大数据分析 风光一体化项目 PC总承包模式 档案管理
下载PDF
iHDFS: A Distributed File System Supporting Incremental Computing
10
作者 Zhenhua Wang Qingsong Ding +2 位作者 Fuxiang Gao Derong Shen Ge Yu 《国际计算机前沿大会会议论文集》 2015年第1期44-45,共2页
Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performanc... Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performance greatly. HDFS is a distributed file system on Hadoop which is the most popular platform for big data analytics. And HDFS adopts fixed-size chunking policy, which is inefficient facing incremental computing. Therefore, in this paper, we proposed iHDFS (incremental HDFS), a distributed file system, which can provide basic guarantee for big data parallel processing. The iHDFS is implemented as an extension to HDFS. In iHDFS, Rabin fingerprint algorithm is applied to achieve content defined chunking. This policy make data chunking has much higher stability, and the intermediate processing results can be reused efficiently, so the performance of incremental data processing can be improved significantly. The effectiveness and efficiency of iHDFS have been demonstrated by the experimental results. 展开更多
关键词 INCREMENTAL COMPUTING distributed file system big data HDFS
下载PDF
煤矿设备状态大数据平台架构及关键技术研究 被引量:3
11
作者 曹现刚 马晨飞 +2 位作者 王云飞 段雍 霍小泉 《煤炭技术》 CAS 北大核心 2023年第1期222-224,共3页
针对目前煤矿设备运行状态数据规模不断增大,结构化、非结构化数据并存,存储和查询效率低的现状,设计了一种基于Hadoop的煤矿设备运行状态大数据平台。采用Hadoop分布式文件系统(HDFS)实现设备文件数据的可靠存储,并采用HBase数据库实... 针对目前煤矿设备运行状态数据规模不断增大,结构化、非结构化数据并存,存储和查询效率低的现状,设计了一种基于Hadoop的煤矿设备运行状态大数据平台。采用Hadoop分布式文件系统(HDFS)实现设备文件数据的可靠存储,并采用HBase数据库实现结构化数据的持久存储,同时通过MapReduce对大量小文件处理过程中产生的资源消耗问题做了优化。实验表明,该平台实现了对煤矿设备状态大数据的高效存储与处理,为设备维护提供了很好的支持,并为智慧矿山的建设奠定数据基础。 展开更多
关键词 煤矿设备 大数据 HADOOP HBASE 小文件处理
下载PDF
大数据视阈下的医院档案管理策略探析 被引量:7
12
作者 张红立 《中国卫生标准管理》 2023年第6期1-4,共4页
在医疗体系改革背景下,医院对档案管理的重视程度进一步提升。相比于传统的档案管理模式,融合大数据、区块链、人工智能等技术,构建智慧档案管理新模式,无论是在提高管理效率、提升服务质量,还是在整合档案资源等方面均有积极作用。本... 在医疗体系改革背景下,医院对档案管理的重视程度进一步提升。相比于传统的档案管理模式,融合大数据、区块链、人工智能等技术,构建智慧档案管理新模式,无论是在提高管理效率、提升服务质量,还是在整合档案资源等方面均有积极作用。本文首先辨证地分析了大数据背景下医院档案工作迎来的机遇和面临的挑战,随后结合个人的工作经验,分别从健全档案管理制度、完善档案管理信息系统、推广信息安全技术和培养复合型档案管理人才等方面,提出了医院优化档案管理的可行性策略,为更好发挥档案管理对医院工作开展和改革发展的支持和推动作用提供了经验借鉴。 展开更多
关键词 大数据 医院档案管理 数字档案 档案信息安全 云存储 优化策略
下载PDF
大数据时代人事档案管理创新与模式构建 被引量:3
13
作者 邢莎莎 《黑河学刊》 2023年第5期99-104,共6页
大数据时代,互联网和信息技术在各行业发挥着重要作用。通过大数据管理,简化了各行业管理流程,提高了工作效率和数据的安全性,同时实现了资源共享,满足了大众多样化信息需求。在此背景下,档案管理工作也面临着巨大的挑战和机遇,其中主... 大数据时代,互联网和信息技术在各行业发挥着重要作用。通过大数据管理,简化了各行业管理流程,提高了工作效率和数据的安全性,同时实现了资源共享,满足了大众多样化信息需求。在此背景下,档案管理工作也面临着巨大的挑战和机遇,其中主要体现在数据信息的采集和储存以及编辑方面。人事档案信息化管理有助于档案的长期储存和数据安全,确保在相关工作中能够及时和充分利用。在档案管理中,需要与信息技术进行有机结合,才能使电子档案的分类变得更加详细,并实现自动化处理,从而快速提高档案管理水平[1]。本文针对大数据时代人事档案管理创新及模式构建进行论述,分析了档案管理创新的必要性和大数据管理模式的创新性,阐述了大数据档案管理体系构建和大数据时代人事档案数据模型研究,并从档案数据库的信息收集、数据更新、系统维护和管理制度方面提出了人事档案大数据管理的弊端和应对措施,旨为新时代档案管理构建新模式,提高档案管理效率和服务水平,实现大数据资源共享和档案利用价值的最大化。 展开更多
关键词 大数据 人事档案管理 信息化 创新 改革
下载PDF
大数据时代下流动人员人事档案管理信息化建设研究 被引量:6
14
作者 杨瑞雪 《包头职业技术学院学报》 2023年第3期36-39,共4页
我国现阶段经济建设和产业发展正处在重要阶段,各地区城市对于人力资源需求急剧增长,这也使得我国各地区城市中出现了规模十分庞大的流动人口,在这一背景下,如何高效率且高质量开展流动人员人事档案管理工作就显得至关重要。大数据时代... 我国现阶段经济建设和产业发展正处在重要阶段,各地区城市对于人力资源需求急剧增长,这也使得我国各地区城市中出现了规模十分庞大的流动人口,在这一背景下,如何高效率且高质量开展流动人员人事档案管理工作就显得至关重要。大数据时代下运用信息技术开展流动人员人事档案管理能够充分发挥大数据技术、计算机技术、现代通信技术先进功能优势,提高流动人员人事档案信息管理效率和利用的便利性,降低人为因素所导致管理失误发生的概率。因此,各地区政府相关部门要不断加大投入力度,加快流动人员人事档案管理信息化建设进程。文章将在明确流动人员人事档案管理特点基础上,阐述大数据时代下流动人员人事档案管理信息化的价值优势,并提出几点实现档案管理信息化的思路和要点。 展开更多
关键词 大数据时代 流动人员 人事档案管理 信息化建设
下载PDF
Performance Improvement through Novel Adaptive Node and Container Aware Scheduler with Resource Availability Control in Hadoop YARN
15
作者 J.S.Manjaly T.Subbulakshmi 《Computer Systems Science & Engineering》 SCIE EI 2023年第12期3083-3108,共26页
The default scheduler of Apache Hadoop demonstrates operational inefficiencies when connecting external sources and processing transformation jobs.This paper has proposed a novel scheduler for enhancement of the perfo... The default scheduler of Apache Hadoop demonstrates operational inefficiencies when connecting external sources and processing transformation jobs.This paper has proposed a novel scheduler for enhancement of the performance of the Hadoop Yet Another Resource Negotiator(YARN)scheduler,called the Adaptive Node and Container Aware Scheduler(ANACRAC),that aligns cluster resources to the demands of the applications in the real world.The approach performs to leverage the user-provided configurations as a unique design to apportion nodes,or containers within the nodes,to application thresholds.Additionally,it provides the flexibility to the applications for selecting and choosing which node’s resources they want to manage and adds limits to prevent threshold breaches by adding additional jobs as needed.Node or container awareness can be utilized individually or in combination to increase efficiency.On top of this,the resource availability within the node and containers can also be investigated.This paper also focuses on the elasticity of the containers and self-adaptiveness depending on the job type.The results proved that 15%–20%performance improvement was achieved compared with the node and container awareness feature of the ANACRAC.It has been validated that this ANACRAC scheduler demonstrates a 70%–90%performance improvement compared with the default Fair scheduler.Experimental results also demonstrated the success of the enhancement and a performance improvement in the range of 60%to 200%when applications were connected with external interfaces and high workloads. 展开更多
关键词 big data HADOOP YARN hadoop distributed file system(HDFS) MapReduce scheduling fair scheduler
下载PDF
基于分布式处理的航天试验大数据分析研究
16
作者 赵海楠 周滢 王文龙 《网络安全与数据治理》 2023年第S02期202-207,共6页
随着航天技术的不断发展,航天试验任务过程中产生并存储了大量数据、图像及音视频等信息,数据存储在网络附属挂载存储(NAS)阵列中,通过顺序或低级并行程序进行处理,难以满足性能、可用性和智能性的需求。针对航天领域测控网试验数据的特... 随着航天技术的不断发展,航天试验任务过程中产生并存储了大量数据、图像及音视频等信息,数据存储在网络附属挂载存储(NAS)阵列中,通过顺序或低级并行程序进行处理,难以满足性能、可用性和智能性的需求。针对航天领域测控网试验数据的特点,采用服务器集群架构构建分布式文件系统,并在服务器阵列级设计了数据统计分析算法,有效提升了分析效率及存储的安全性,为航天领域的大数据处理提供了数据支持。 展开更多
关键词 航天试验 大数据 分布式文件系统 关联分析 数据挖掘
下载PDF
大数据时代企业档案信息资源整合与利用
17
作者 时春华 《移动信息》 2023年第2期82-84,共3页
随着庞大数据群自20世纪90年代悄然出现,“大数据”这一名词逐渐声名大噪。随着云计算、物联网等技术的产生和发展,各种信息发布、信息存储和信息传播方式的兴起,全球的数据都在以前所未有的速度飞速增加和积累,这给档案事业的信息资源... 随着庞大数据群自20世纪90年代悄然出现,“大数据”这一名词逐渐声名大噪。随着云计算、物联网等技术的产生和发展,各种信息发布、信息存储和信息传播方式的兴起,全球的数据都在以前所未有的速度飞速增加和积累,这给档案事业的信息资源累积、整合与利用带来了巨大的影响,进而对全世界经济社会发展产生了轰动的效应。 展开更多
关键词 企业 大数据 档案管理
下载PDF
大数据背景下资助档案的开发与利用途径
18
作者 张海燕 《信息与电脑》 2023年第21期35-37,共3页
在大数据时代,海量数据的收集、存储、处理和分析已经成为各个领域的关键驱动力。资助档案作为一类特殊的数据资源,包含大量的项目信息、资金流向、成果评估等内容,对于政府决策、企事业单位创新、社会公益事业发展等方面具有重要价值... 在大数据时代,海量数据的收集、存储、处理和分析已经成为各个领域的关键驱动力。资助档案作为一类特殊的数据资源,包含大量的项目信息、资金流向、成果评估等内容,对于政府决策、企事业单位创新、社会公益事业发展等方面具有重要价值。文章主要分析大数据背景下资助档案开发与利用的重要性,从理论和实践应用两个层面探讨资助档案的开发与利用途径,最后提出相关的建议。 展开更多
关键词 大数据 资助档案 开发利用
下载PDF
大数据时代医院档案管理创新思考
19
作者 刘一村 《中国科技纵横》 2023年第3期138-140,共3页
大数据时代医院的档案管理工作迎来了较大的发展机遇,同时也面临一定的挑战,医院要认识到档案管理创新和信息化建设的意义,对医院档案管理创新策略进行研究,提出了以下几点创新措施:更新管理理念,完善管理制度,建立信息化平台,保证信息... 大数据时代医院的档案管理工作迎来了较大的发展机遇,同时也面临一定的挑战,医院要认识到档案管理创新和信息化建设的意义,对医院档案管理创新策略进行研究,提出了以下几点创新措施:更新管理理念,完善管理制度,建立信息化平台,保证信息安全,完善基础设施,培养管理人才,加强信息共享。这些创新措施大大提高了档案管理效率,通过档案资源开发促进医院不断发展。 展开更多
关键词 大数据时代 医院 档案管理
下载PDF
大数据时代数字档案资源建设路径探析
20
作者 邢晓军 李永妮 +1 位作者 王西山 马延娇 《中国科技纵横》 2023年第20期69-71,共3页
大数据技术的发展对档案资源建设工作具有深远影响,档案部门可通过合理利用技术资源,搭建数字化档案储存库与在线档案存取机制,允许用户随时访问网站并查阅数字档案资源。数字化档案资源保存难度较低,使用寿命较长,与纸质档案相比,具有... 大数据技术的发展对档案资源建设工作具有深远影响,档案部门可通过合理利用技术资源,搭建数字化档案储存库与在线档案存取机制,允许用户随时访问网站并查阅数字档案资源。数字化档案资源保存难度较低,使用寿命较长,与纸质档案相比,具有检索速度快、保存成本低的优势。档案部门应制定相关计划,推进数字档案建设进程,面向用户提供高品质数字档案编辑与检索服务。本文主要分析大数据时代数字化档案资源建设的内容与重要性,指出在数字档案资源建设过程中常见的问题,总结大数据时代优化数字档案资源管理的路径。 展开更多
关键词 大数据 数字档案资源 档案管理
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部