期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
上下文语义嵌入的变粒度云存储相似数据去重技术
1
作者 阳智欢 田纹龙 +2 位作者 何婷婷 叶旭明 唐佳 《计算机技术与发展》 2024年第4期16-23,共8页
针对云存储环境下现有相似数据去重技术效果不佳以及元数据开销大等问题,提出了上下文语义嵌入的变粒度云存储相似数据去重技术。该技术采用基于子块重组的特征提取算法,对数据块内容内部结构进行初步特征提取,并利用BP(Back Propagati... 针对云存储环境下现有相似数据去重技术效果不佳以及元数据开销大等问题,提出了上下文语义嵌入的变粒度云存储相似数据去重技术。该技术采用基于子块重组的特征提取算法,对数据块内容内部结构进行初步特征提取,并利用BP(Back Propagation)神经网络上下文感知模型将数据块上下文特征信息嵌入到初始特征中,实现了具有上下文语义嵌入的变粒度数据块。通过控制数据块大小,动态地合并相邻相似数据块或非冗余数据块,减少元数据开销,并对位于相似数据块和非冗余数据块之间过渡区域进行分割,从而获得更好的相似数据块表示形式。最后,为了评估其性能,实现了一个变粒度相似数据检测算法原型rCARD并在真实世界的数据集进行了实验,实验结果表明,与最新相似性检测去重技术Finesse相比,rCARD在实现更高重复数据删除率的同时,显著降低了元数据的大小,并且加速相似性检测速度高达11.07倍。 展开更多
关键词 相似数据去重 数据块语义 变粒度 云存储 元数据
下载PDF
LAS Version 2.0数据格式解析 被引量:10
2
作者 周晓明 唐德瑾 +1 位作者 马秋禾 杨靖宇 《测绘工程》 CSCD 2010年第4期43-46,共4页
利用表格分析的方式,对比激光雷达系统(LIDAR)标准文件格式LAS version 2.0与旧版本verison1.1之间的异同,分析2.0版本的新特性,便于对LAS格式的理解和应用。新的定义标准更加适应LIDAR硬件间的通用性,给予用户更多的扩展空间,为LIDAR... 利用表格分析的方式,对比激光雷达系统(LIDAR)标准文件格式LAS version 2.0与旧版本verison1.1之间的异同,分析2.0版本的新特性,便于对LAS格式的理解和应用。新的定义标准更加适应LIDAR硬件间的通用性,给予用户更多的扩展空间,为LIDAR系统的应用提供高质量的文件交换基础。 展开更多
关键词 LIDAR LAS 头文件 变长记录 元数据块
下载PDF
一种基于启发式搜索的论文元数据提取算法 被引量:1
3
作者 张付志 侯娜 +1 位作者 刘慧 马玉静 《计算机应用与软件》 CSCD 2009年第9期86-88,94,共4页
随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首... 随着大量的科研论文以电子文档的形式出现,为了高效地检索这些科研文献资料,从中精确地抽取这些论文头部的元数据信息显得十分有必要。在条件随机场模型的基础上,提出了一种启发式搜索算法来对论文头部的元数据信息进行提取。该算法首先利用文本分块技术和特征提取规则来对文本进行预处理,然后结合条件随机场概率模型利用启发式搜索来进行元数据的提取。实验结果表明,在相同概率模型的基础上,该算法有着较好的性能,在精确度和召回率方面都有了明显的提高。 展开更多
关键词 信息提取 元数据提取 条件随机场 文本分块 启发式搜索
下载PDF
基于数据积木的仿真数据生成 被引量:1
4
作者 崔隽 黄颖 《指挥信息系统与技术》 2012年第6期72-76,共5页
为了提高仿真数据生成的自动化水平,降低人工数据录入和验证的成本,提出了基于数据积木搭建方式生成仿真数据的算法。该算法在数据的合理性和应用符合性验证的范围内,将全部仿真数据缩小到一组覆盖军事应用方面的数据积木上,并通过积木... 为了提高仿真数据生成的自动化水平,降低人工数据录入和验证的成本,提出了基于数据积木搭建方式生成仿真数据的算法。该算法在数据的合理性和应用符合性验证的范围内,将全部仿真数据缩小到一组覆盖军事应用方面的数据积木上,并通过积木数据的复制、转换以及组合,自动生成符合应用需求的仿真数据,从而提高了数据生成的效率并降低了人工成本。 展开更多
关键词 数据积木 仿真数据 元数据
下载PDF
一种适合电力行业海量异构数据存储的全分布式文件 被引量:4
5
作者 汪同 叶有名 《电气技术》 2015年第1期95-97,101,共4页
目前四川电网辅助生产系统的数据主要由各个场所的视频数据和各类感知信息组成,呈现出数据量大、数据类型多的特性。结构化数据存储空间小、但访问频率高,非结构化数据存储量大、访问频率小,以备份存储为主。本文针对电力系统的存储需求... 目前四川电网辅助生产系统的数据主要由各个场所的视频数据和各类感知信息组成,呈现出数据量大、数据类型多的特性。结构化数据存储空间小、但访问频率高,非结构化数据存储量大、访问频率小,以备份存储为主。本文针对电力系统的存储需求,设计并实现了一种适合海量安防数据的全分布式块文件系统架构(Uni MAS),将元数据(目录等)和存储数据分离,同时在专用存储服务器上采用高效的块文件存储方案,提高了数据存储的可靠性和稳定性。 展开更多
关键词 辅助生产系统 海量异构数据 全分布式块文件系统 元数据 存储数据
下载PDF
面向高分辨率影像分布式处理的HDFS存储研究
6
作者 王敬平 沈晨 +1 位作者 周洁 黄子君 《数字技术与应用》 2018年第3期61-64,共4页
针对传统HDFS的数据分块机制无法适用高分影像的分布式处理的问题,采用水平、竖直和矩形方式进行影像分块,重建各个影像分块的元数据信息,形成完整、独立的影像数据文件,被影像处理算法识别及处理。通过集成影像语义分块和语义合并技术... 针对传统HDFS的数据分块机制无法适用高分影像的分布式处理的问题,采用水平、竖直和矩形方式进行影像分块,重建各个影像分块的元数据信息,形成完整、独立的影像数据文件,被影像处理算法识别及处理。通过集成影像语义分块和语义合并技术,适配和改造HDFS,支撑并提高了高分影像的分布式处理效率。 展开更多
关键词 HDFS 分布式处理 数据分块 元数据信息 语义分块 语义合并
下载PDF
SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 被引量:2
7
作者 陈吉荣 乐嘉锦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期135-142,共8页
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件... 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 展开更多
关键词 分布式计算系统 元数据 MAPREDUCE HADOOP分布式文件系统 名称节点 数据节点
下载PDF
基于网络拓扑与节点元数据的社团检测算法 被引量:1
8
作者 刘宇廷 毕海滨 +1 位作者 郭强 倪颖杰 《计算机工程》 CAS CSCD 北大核心 2018年第11期178-183,共6页
传统社团检测算法利用网络拓扑挖掘社团结构,忽略了真实复杂网络中节点自身属性等信息在社团归属方面的重要作用。为此,提出基于网络拓扑与节点元数据的复杂网络社团检测算法。将高维的节点元数据建模为混合高斯模型,结合随机块模型建... 传统社团检测算法利用网络拓扑挖掘社团结构,忽略了真实复杂网络中节点自身属性等信息在社团归属方面的重要作用。为此,提出基于网络拓扑与节点元数据的复杂网络社团检测算法。将高维的节点元数据建模为混合高斯模型,结合随机块模型建立似然概率模型,通过求解模型最优解得到网络的最优划分结果。在基准网络与Facebook网络上的实验结果表明,该算法不仅能准确挖掘网络中的社团结构,而且可结合真实社团情况给出合理解释。 展开更多
关键词 复杂网络 社团检测 节点元数据 高斯混合模型 随机块模型
下载PDF
基于三阶条件随机场的论文元数据提取方法 被引量:1
9
作者 于洪涛 虞海明 张付志 《小型微型计算机系统》 CSCD 北大核心 2014年第3期606-609,共4页
针对现有论文元数据提取方法精度不高和上下文信息利用较少的问题,通过对二阶条件随机场模型的状态转移特征进行扩展,提出了一种基于三阶条件随机场的论文元数据提取方法.首先,利用分隔符对论文头部文本进行分块预处理,选择局部、布局... 针对现有论文元数据提取方法精度不高和上下文信息利用较少的问题,通过对二阶条件随机场模型的状态转移特征进行扩展,提出了一种基于三阶条件随机场的论文元数据提取方法.首先,利用分隔符对论文头部文本进行分块预处理,选择局部、布局、词典特征作为特征集进行特征提取;然后,采用L-BFGS算法并引入平滑处理学习三阶条件随机场模型的参数;最后,以论文头部提取出的特征序列作为输入,利用改进的Viterbi算法,高效求解出该论文头部信息的标记序列.实验结果表明,基于三阶条件随机场模型的方法优于其他现有提取方法. 展开更多
关键词 元数据提取 条件随机场 三阶 文本分块 平滑处理
下载PDF
内容感知存储系统中的两阶段检索策略 被引量:1
10
作者 刘科 秦磊华 +2 位作者 周敬利 聂雪军 曾东 《计算机科学》 CSCD 北大核心 2011年第5期20-23,48,共5页
随着存储系统规模的不断扩大,如何有效组织、管理和查询存储系统中的资源,成为了研究者必须应对的一个问题。目前存储系统中的查询需求主要来自系统管理员对元数据的查询以及普通用户对关键字内容的查询等两个方面。而内容感知存储系统... 随着存储系统规模的不断扩大,如何有效组织、管理和查询存储系统中的资源,成为了研究者必须应对的一个问题。目前存储系统中的查询需求主要来自系统管理员对元数据的查询以及普通用户对关键字内容的查询等两个方面。而内容感知存储系统自身所具备的重复数据删除和块相似性检测能力并没有被用于优化上述查询过程。为了充分利用存储系统感知到的上层语义和底层重复数据块信息,为使用者提供高效、便捷的查询服务,提出了内容感知网络存储系统中的两阶段检索策略。该策略将上层基于元数据和关键字的查询与底层存储系统的块相似性查询相结合,利用两次查询相关度的加权平均值作为相似度评价指标。最终的实验结果表明了该策略在降低失效性、提高查全率等方面的有效性。 展开更多
关键词 元数据 数据迁移 内容寻址存储 两阶段检索 内容感知
下载PDF
航天装备大数据资源平台构建技术研究 被引量:2
11
作者 李振雨 韩喜 +1 位作者 原菁菁 卫未 《国防科技》 2021年第5期16-21,共6页
航天装备研制涉及论证、研制、生产、试验、综合保障等各个环节,所产生的数据具有种类多、数据量大、异构性强等特点,且数据资源分散于各科研机构院所,形成一个个数据孤岛,严重制约了型号数据的统一管理和协同应用。为了建立“逻辑统一... 航天装备研制涉及论证、研制、生产、试验、综合保障等各个环节,所产生的数据具有种类多、数据量大、异构性强等特点,且数据资源分散于各科研机构院所,形成一个个数据孤岛,严重制约了型号数据的统一管理和协同应用。为了建立“逻辑统一、物理分散”的航天装备统一大数据中心,本文提出一种航天装备大数据资源平台构建技术,该平台基于统一的数据编目规范,综合利用云计算、微服务、区块链等技术,可实现多维异构数据深度融合管控,实现基于型号科研生产活动下的数据逻辑统一管理和实体分布式存储,能够解决航天装备整个研制活动全要素全过程的数据采集和可控共享的现实需求,为各业务场景下的数据分析奠定基础。 展开更多
关键词 装备大数据 资源平台 元数据 微服务 区块链
下载PDF
A Data Deduplication Framework of Disk Images with Adaptive Block Skipping
12
作者 Bing Zhou Jiang-Tao Wen 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第4期820-835,共16页
We describe an efficient and easily applicable data deduplication framework with heuristic prediction based adaptive block skipping for the real-world dataset such as disk images to save deduplication related overhead... We describe an efficient and easily applicable data deduplication framework with heuristic prediction based adaptive block skipping for the real-world dataset such as disk images to save deduplication related overheads and improve deduplication throughput with good deduplication efficiency maintained. Under the framework, deduplication operations are skipped for data chunks determined as likely non-duplicates via heuristic prediction, in conjunction with a hit and matching extension process for duplication identification within skipped blocks and a hysteresis mechanism based hash indexing process to update the hash indices for the re-encountered skipped chunks. For performance evaluation, the proposed framework was integrated and implemented in the existing data domain and sparse indexing deduplication algorithms. The experimental results based on a real-world dataset of 1.0 TB disk images showed that the deduplication related overheads were significantly reduced with adaptive block skipping, leading to a 30%-80% improvement in deduplication throughput when deduplieation mctadata were stored on the disk for data domain, and 25%-40% RAM space saving with a 15%-20% improvement in deduplication throughput when an in-RAM sparse index was used in sparse indexing. In both cases, the corresponding deduplication ratios reduced were below 5%. 展开更多
关键词 data deduplication metadata adaptive block skipping
原文传递
块级别的海量存储虚拟化系统 被引量:4
13
作者 王迪 舒继武 +1 位作者 薛巍 沈美明 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第1期108-111,共4页
为了适应海量规模存储环境的要求,设计并实现了一种块级别的带内存储虚拟化系统(AXUM)。它使用连续空间段来组织虚拟盘和物理盘,减少了元数据的空间开销。并通过实现目标器模式的虚拟化服务,提供良好的兼容性。同时,AXUM利用多节点协同... 为了适应海量规模存储环境的要求,设计并实现了一种块级别的带内存储虚拟化系统(AXUM)。它使用连续空间段来组织虚拟盘和物理盘,减少了元数据的空间开销。并通过实现目标器模式的虚拟化服务,提供良好的兼容性。同时,AXUM利用多节点协同工作消除了性能瓶颈。实验结果表明:相对于普通网络磁盘,AXUM虚拟化系统带来的延迟在0.6%以下,而该系统的数据处理能力仅受限于物理设备的性能,适用于海量存储网络环境。 展开更多
关键词 存储网络 存储虚拟化 块级别 元数据
原文传递
档案信息资源存储的发展方向——对象存储 被引量:2
14
作者 孙凌燕 潘世敏 《档案学研究》 CSSCI 北大核心 2011年第1期71-74,共4页
本文首先指出,档案信息资源将呈现出数量急剧增长、媒体形式多样化、内容分散交叉的三大趋势,然后说明了目前档案系统数字档案存储管理的现状及不足之处,接下来分析对比了基于块存储、基于文件存储和基于对象存储这三种存储架构的概念... 本文首先指出,档案信息资源将呈现出数量急剧增长、媒体形式多样化、内容分散交叉的三大趋势,然后说明了目前档案系统数字档案存储管理的现状及不足之处,接下来分析对比了基于块存储、基于文件存储和基于对象存储这三种存储架构的概念及特性,指出对象存储非常适合于含有大量非结构化数据的档案信息资源的存储,它将成为未来数字档案存储的发展方向。 展开更多
关键词 档案信息资源 非结构化数据 基于块的存储 基于文件的存储 基于对象的存储 元数据 SAN NAS OSD MDS
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部