非结构化数据存储管理研究被引量：8

Research on Storage Management of Unstructured Data

导出

摘要非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据，比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示，近5～10年的数据量将呈指数级增长，而其中的非结构化数据占到当前数字信息总量的70％~85％。面对如此庞大的数据量和信息量，如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。（非结构化）数据管理可以简单化为3个目标，即：实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理（UnstructuredDataManagement，UDM）研究小组基于“自由表”数据模型和BUD（BankofUnstructuredData）参考体系模型在这一个问题上所作的初步研究与探索工作，以及在原型平台myBUD中的若干存储管理技术。 In general, unstructured data means the data, compared with relational data, has no pre-defined, fixed and explicit structure, for example, as video, audio, image, documents and so on. According to the prediction in the reports from, for example, IDC and EMC, the volume of data will keep increasing exponentially while the unstructured might be from 70% to 85%. Facing with the ever-growing voluminous dataand information, it becomes more and more emergent to manage them effectively, gain the valuable information and/or knowledge. The goals of managing structured and unstructured data can be simplified into three capabilities, that is, storing, managing and using them. This paper will introduce the current work mainly focusing on the first two goals. Then it will present the Free-table model, BUD reference architecture and an adaptive storage approach that are the preliminary research and experimental study done by the UDM group at Renmin University of China.

作者张孝周宁南

机构地区数据工程与知识工程教育部重点实验室(中国人民大学) 中国人民大学信息学院

出处《科研信息化技术与应用》 2013年第1期30-40,共11页 E-science Technology & Application

基金国家自然科学基金(61070054) 国家科技重大专项"核心电子器件高端通用芯片及基础软件产品"(2010ZX01042-001-002)

关键词非结构化数据管理自适应算法分布式存储系统 Unstructured data management Adaptive algorithm Distributed storage system

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献26

1John Gantz and David Reinsel. The Digi-tal UniverseDecade. Are You Ready. White paper, IDC and EMCCorporation. May 2010.
2Sears R, van Ingen C,Gray J.. To BLOB or not to BLOB:Large object Storage in a data-base or a Filesystem. MSR-TR-2006-45,2006.
3Zhou Wenjing et al. A Database Approach for AcceleratingVideo Data Access, APWEB, 2009.
4IBM. Data links managing files using DB2[EB/OL]. (2001)[2012-03]. http://www.redbooks.ibm.com/readbooks.
5http://uima.apache.org/.
6Zhang Xiao et al. Managing a large shared bank of data byusing Free-Table [C]//Proceedings of the 12th Asia-PacificWeb Conference(APWeb 2010), Busan, Korea, Apr 6-8,2010:441-446.
7李未,郎波.一种非结构化数据库的四面体数据模型[J].中国科学：信息科学,2010,40(8):1039-1053. 被引量：9
8Fay C, Jeffrey D, Sanjay G, Wilson C-H, et al. Bigtable:A Distributed Storage System for Structured Data, OSDI2006.
9周宁南,张孝,孙新云,琚星星,刘奎呈,杜小勇,王珊.MyBUD自适应分布式存储管理的设计与实现[J].计算机科学与探索,2012,6(8):673-683. 被引量：2
10I Kotsidas et al. Flashing up the storage layer: PVLDB,2008.

二级参考文献31

1萨师煊,王珊.数据库系统概论[M].北京:高等教育出版社,2004:214-228.
2Zhang Xiao, Du Xiaoyong, Chen Jinchuan, et al. Managing a large shared bank of unstructured data by using flee-table[C]// Proceedings of the 12th Asia-Pacific Web Conference (APWeb 2010), Busan, Korea, Apr 6-8, 2010: 441-446.
3Sears R, van Ingen C, Gray J. To BLOB or not to BLOB: large object storage in a database or a filesystem? MSR-TR- 2006-45[R]. Microsoft Research, 2006.
4Zhou Wenjing, Xie Xiangwei, Li Hui, et al. A database ap- proach for accelerating video data access[C]//LNCS 5731: Proceedings of the APWeb and WAIM 2009 International Workshops, Suzhou, China, Apr 2-4, 2009. Berlin: Springer- Verlag, 2009: 45-57.
5Mukherjee N, Aleti B, Ganesh A, et al. Oracle SecureFiles system[J]. Proceedings of the VLDB Endowment, 2008, 1(2): 1301-1312.
6IBM. Data links managing files using DB2[EB/OL]. (2001) [2012-03]. http://www.redbooks.ibm.corn/readbooks.
7Kotsidas I, Viglas S D. Flashing up the storage layer[J]. Pro- ceedings of the VLDB Endowment, 2008, 1(1): 514-525.
8Zhang Ning, Tatemura J, Patel J M, et al. Towards cost- effective storage provisioning for DBMSs[J]. Proceedings of the VLDB Endowment, 2011, 5(4): 274-285.
9Thusoo A, Sarma J S, Jain N, et al. Hive: a warehousing so- lution over a Map-Reduce framework[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1626-1629.
10Thusoo A, Sarma J S, Jain N, et al. Hive-a petabyte scale data warehouse using Hadoop[C]//Proceedings of the IEEE 26th International Conference on Data Engineering (ICDE 2010), Mar 1-6, 2010: 996-1005.

共引文献9

1李跃先,殷传涛,魏亿钢.基于本体与中间件的科技资源数据集成方法[J].标准科学,2021(5):21-28. 被引量：2
2徐国林,吴丽娟.数据库职业技术教育的层次分析及内容体系建设[J].中国成人教育,2007(16):167-168. 被引量：1
3王延田,肖少辉,姜传鑫.企业级非结构化数据中心存储组织形式探究[J].电力勘测设计,2014,26(1):69-71. 被引量：3
4冯国平,古明生,吉小恒.电网非结构化数据管理平台研究与实现[J].南方能源建设,2015,2(B12):222-225. 被引量：9
5王翔.健康大数据平台的“区块链治理”[J].网络空间安全,2019,10(12):46-53. 被引量：1
6黄琪,曾建勋,刘伟.科技资源关联聚合中的元数据框架研究[J].中国科技资源导刊,2020,52(4):38-46. 被引量：3
7沈志宏,赵子豪,王华进,刘忠新,胡川,周园春.PandaDB:一种异构数据智能融合管理系统[J].软件学报,2021,32(3):763-780. 被引量：6
8顾子慧,刘桂锋,刘琼.新冠肺炎科学数据集的元数据框架构建及可视化研究——以Re3data.org为例[J].情报科学,2023,41(4):117-126.
9赵启阳,张辉,王志强.科技资源元数据标准研究的现状分析与新的视角[J].标准科学,2019,0(3):12-17. 被引量：12

同被引文献53

1陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：340
2丁智斌,石浩磊.关系数据库设计与规范化[J].计算机与数字工程,2005,33(2):114-116. 被引量：29
3彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
4刘锐,李盘林,李秉智.一种适用于大容量Flash存储系统的管理方案[J].计算机应用研究,2006,23(2):87-88. 被引量：3
5陈金水,王崟.非结构化数据存储管理的实用化方法[J].计算机与现代化,2006(8):25-28. 被引量：12
6马文峰,杜小勇,胡宁.基于信息的资源整合[J].情报资料工作,2007,28(1):46-50. 被引量：31
7王冬,左万利,赫枫龄,彭涛,张长利.一种增量倒排索引结构的设计与实现[J].吉林大学学报（理学版）,2007,45(6):953-958. 被引量：6
8黄艾卿.数据库设计中的反规范化技术[J].百色学院学报,2007,20(6):88-90. 被引量：2
9邓攀,刘功申.一种高效的倒排索引存储结构[J].计算机工程与应用,2008,44(31):149-152. 被引量：22
10黄少林,王华,张玉红,蒋一峰.基于Lucene的索引系统的设计与实现[J].现代情报,2009,29(7):169-171. 被引量：11

引证文献8

1时亚南,束文杰,于国欣.倒排文件页式存储方法[J].计算机系统应用,2015,24(5):253-256. 被引量：1
2禹卫华.编辑的大数据素养与实现路径[J].中国出版,2017(5):12-16. 被引量：12
3肖钠.大数据环境下图书馆信息整合的价值及模式研究[J].图书馆研究,2017,47(6):62-68. 被引量：3
4王鹏展,侯进,王征,王鹏,李浩.智能变电站技术及应用研究[J].科学技术创新,2017(26):33-34. 被引量：1
5邹杰,王会品,高磊,夏葳,蔡冬梅.基于爱数Anyshare非结构化气象科技档案管理系统设计[J].电脑知识与技术,2016,12(12X):283-284.
6黄承明.基于MongoDB文档模型的教学资源数据的建模研究[J].软件工程,2020,23(5):46-49. 被引量：4
7王大鹏,李德良.铁路施工期环境在线监测数据特点与传输方式探讨[J].铁路节能环保与安全卫生,2020,10(5):15-19. 被引量：3
8田冬迪.基于中台模式的园区IOC平台架构设计研究[J].电子技术与软件工程,2021(6):19-21. 被引量：1

二级引证文献25

1杨荣成.智能变电站建设关键技术应用分析[J].产业科技创新,2020(3):64-65. 被引量：1
2葛卫华.培育高校思想政治工作队伍大数据素养的有效路径[J].毛泽东邓小平理论研究,2017(7):65-70. 被引量：6
3贾睿茹.大数据时代图书编辑“编辑力”的提升[J].新闻论坛,2017,31(6):131-133. 被引量：2
4焦俊波,崔波.中国出版学研究热点与趋势——以2017年八大出版类CSSCI期刊为基础数据[J].科技与出版,2018(3):57-63. 被引量：5
5屈琳琳.高校思想政治教育传播媒介的运作困境与对策[J].新课程研究（中旬）,2018,0(6):118-120. 被引量：1
6何琳.转型期教育类出版社编辑的角色探索[J].新闻研究导刊,2018,9(2):216-217. 被引量：3
7付超.大数据时代我国数据素养分类研究[J].图书馆理论与实践,2020,0(2):68-74. 被引量：13
8高妍方,胡艳雪.大数据素养需求、内涵及培养途径研究——以管理科学与工程硕士研究生为例[J].软件导刊,2020,19(4):272-275. 被引量：6
9杨俊凯.高校思想政治教育与大数据深度融合的系统思考[J].改革与开放,2020(7):50-53. 被引量：3
10李军,张香萍.算法新闻生产语境下新闻编辑职能的再定位[J].新闻世界,2020(6):51-54. 被引量：1

1毛文彬.面向大数据的分布式系统设计关键技术研究[J].无线互联科技,2014,11(11):150-151. 被引量：6
2罗学礼,徐树振,王森,杨莉.企业非结构化数据管理平台研究[J].云南电力技术,2013,41(5):34-37. 被引量：4
3企业内容管理加速实现业务价值[J].中国信息化,2012(23):40-40.
4周宁南,张孝,孙新云,琚星星,刘奎呈,杜小勇,王珊.MyBUD自适应分布式存储管理的设计与实现[J].计算机科学与探索,2012,6(8):673-683. 被引量：2
5云端的非结构化数据存储[J].程序员,2011(6):124-124.
6王秋琳,宋立华,周钊.提高非结构化数据存储中小文件存储效率的策略研究[J].低碳世界,2015,0(29):245-246.
7员建厦.基于云存储技术的存储架构模型[J].计算机与网络,2013,39(7):64-67. 被引量：7
8王罡.上海交通大学云存储简化数据管理[J].中国教育网络,2014(2):59-60.
9周雨浓.海量非结构化数据存储问题分析[J].电脑知识与技术,2016,0(2):34-36. 被引量：2
10孙治国,李令臣.基于XML的非结构化数据管理[J].中小企业管理与科技,2011(27):292-292. 被引量：1

科研信息化技术与应用

2013年第1期

浏览历史

内容加载中请稍等...

非结构化数据存储管理研究被引量：8

参考文献26

二级参考文献31

共引文献9

同被引文献53

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

非结构化数据存储管理研究 被引量：8

参考文献26

二级参考文献31

共引文献9

同被引文献53

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

非结构化数据存储管理研究被引量：8