基于Hadoop的数据仓库构建模式研究被引量：7

Research on Construction Pattern of Hadoop Data Warehouse

下载PDF

导出

摘要针对目前基于Hadoop的数据仓库一般采用"一对一"的模式或方法构建的情况,首先通过实例分析其不足之处;然后借鉴软件工程中的"生成器"设计模式的思想,提出一种Hadoop数据仓库的构建模式,称为"元数据驱动的生成器模式",用于构建基于Hadoop的数据仓库,即ETL过程。该模式具有两点优势:一是由元数据驱动,充分发挥了关系数据库管理系统对元数据操作的效率优势;二是识别了"通用知识"和"具体对象知识"两类知识,并在对知识的分类基础上设计和实现ETL过程,消除了"一对一"模式下大量不必要的重复操作。 The ＂case to case＂ pattern is a commonly used method for constructing Hadoop Hive data warehouse recently. Firstly, the ＂case to case＂ pattern was introduced and its disadvantage was shown with an example. Then inspired by the ＂Builder Pattern＂ which is one of design patterns in the area of software engineering, a pattern called ＂metadata-driven builder pattern＂ was put forward for constructing Hadoop Hive data warehouse and ETL process. This pattern has two advantages. One is that it is driven by the metadata and the metadata is operated by the relational database management （RDBMS）. Doing so can achieve higher efficiency because the metadata of Hive is just stored in the RDBMS. The other one is that the ＂general knowledge＂ and ＂specific-object knowledge＂ are differentiated and the ETL process is designed and realized based on such differentiation. Doing so can avoid lots of repetitions that the ＂case to case＂ pattern leads to.

作者王缓缓郭敬义张警灿余肖生

机构地区三峡大学计算机与信息学院

出处《重庆理工大学学报（自然科学）》 CAS 2015年第7期69-73,共5页 Journal of Chongqing University of Technology：Natural Science

基金湖北省教育厅自然科学研究项目(Q20141212)

关键词云计算大数据数据仓库 HADOOP ETL cloud computing big data data warehouse Hadoop ETL

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1蒋彬,余肖生,王东娟,姜艳静,赵美林.数据仓库构建之行为模式分析[J].信息系统学报,2013,7(2):1-8. 被引量：1
2宿芳,寿永熙,苏依拉.元数据驱动ETL的研究[J].计算机工程与应用,2012,48(6):114-118. 被引量：5
3余肖生,吴西燕,王东娟,王缓缓,蒋彬.基于MGO的数据仓库ETL过程构建方法[J].重庆理工大学学报（自然科学）,2014,28(2):63-66. 被引量：1
4戴超凡,王涛.面向ETL的数据起源追踪系统[J].计算机工程,2011,37(17):256-258. 被引量：1
5徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20. 被引量：103
6鲍玉斌,孙焕良,冷芳玲,王大玲,于戈.数据仓库环境下以用户为中心的数据清洗过程模型[J].计算机科学,2004,31(5):52-55. 被引量：15

二级参考文献102

1鲍玉斌,孙焕良,冷芳玲,王大玲,于戈.数据仓库环境下以用户为中心的数据清洗过程模型[J].计算机科学,2004,31(5):52-55. 被引量：15
2钟华,冯文澜,谭红星,黄涛.面向数据集成的ETL系统设计与实现[J].计算机科学,2004,31(9):87-89. 被引量：21
3孙伟,张忠能.ETL架构研究[J].微型电脑应用,2005,21(3):13-15. 被引量：21
4刘喜平,万常选.数据起源研究综述[J].科技广场,2005(1):47-52. 被引量：13
5尤玉林,张宪民.一种可靠的数据仓库中ETL策略与架构设计[J].计算机工程与应用,2005,41(10):172-174. 被引量：45
6郑洪源,周良.基于CWM的标准ETL的设计与实现[J].吉林大学学报（信息科学版）,2006,24(1):50-55. 被引量：10
7张旭峰,孙未未,汪卫,冯雅慧,施伯乐.增量ETL过程自动化产生方法的研究[J].计算机研究与发展,2006,43(6):1097-1103. 被引量：19
8吴飞,邢桂芬,邢玉萍.基于本体的ETL设计研究[J].计算机工程与设计,2007,28(7):1517-1519. 被引量：5
9李亚子.数据起源标注模式与描述模型[J].现代图书情报技术,2007(7):10-13. 被引量：16
10[1]Wang R Y, Reddy M P, Kon H B. Towards quality data: an attribute-based approach. decision support systems, 1995,13

共引文献118

1夏秀峰,张雅茜,周大海,李常山.基于多维模型的独立型数据集市数据转换技术研究[J].沈阳航空工业学院学报,2006,23(1):40-43. 被引量：2
2刘哲,夏秀峰,宋晓燕,林桐.一种ODS环境下的混合数据清洗策略[J].沈阳师范大学学报（自然科学版）,2006,24(4):449-452.
3刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
4武小平,左春.基于工作流程的数据清洗系统[J].计算机工程与设计,2008,29(8):1878-1880. 被引量：5
5夏秀峰,谢光宇,石祥滨,徐蕾.基于置信区间的偏离群数据检测方法[J].计算机工程,2008,34(21):12-14. 被引量：3
6徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20. 被引量：103
7刘哲.数据清洗技术在网络教学评价体系中的应用[J].网络与信息,2011,25(8):40-41. 被引量：1
8赵志刚,屈剑锋.基于WSN和置信区间计算的转播机房温控系统[J].计算机工程与应用,2011,47(30):219-223. 被引量：6
9黄展英,王东.XBRL商业智能应用探讨[J].财会通讯（上）,2011(11):120-121. 被引量：2
10王凯,魏善沛,章景.数据挖掘技术在医疗费用异常检测中的应用[J].计算机与现代化,2012(3):194-196. 被引量：1

同被引文献63

1李慧,闻豪.基于数据仓库的OLAP技术的研究[J].电脑知识与技术,2005(1):77-81. 被引量：16
2夏秀峰,周大海,张雅茜,于戈.数据仓库设计中低粒度数据的分割策略研究[J].计算机工程,2006,32(17):138-140. 被引量：7
3李琪,张绍槐,郭建明,段勇.油气钻井智能信息综合集成系统[J].天然气工业,1997,17(2):52-55. 被引量：5
4秦学勇,刘栋.数据仓库的可扩展性研究与设计[J].计算机技术与发展,2009,19(5):65-67. 被引量：2
5吕海燕,车晓伟.数据仓库中数据粒度的划分[J].计算机工程与设计,2009,30(9):2323-2325. 被引量：28
6郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012(7):37-42. 被引量：73
7安宝宇,宫哲,肖达,谷利泽,杨义先.具有隐式可信第三方的云存储数据持有性审计[J].哈尔滨工程大学学报,2012,33(8):1039-1045. 被引量：7
8霍华,赵刚.基于改进视觉词袋模型的图像标注方法[J].计算机工程,2012,38(22):276-278. 被引量：5
9傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述[J].计算机研究与发展,2013,50(1):136-145. 被引量：175
10黄倩,王柳苏,谢显中.基于干扰对齐的高效云存储方法研究综述[J].计算机应用研究,2013,30(4):977-980. 被引量：3

引证文献7

1刘帆.关系数据库中实时高效元数据存储算法优化研究[J].科学技术与工程,2017,17(17):255-260. 被引量：15
2鲁帅帅,彭甲勇.基于Hadoop的油气信息分布式数据仓库的探究[J].电脑知识与技术,2017,13(10):15-17.
3高晓俊,朱琛刚.江苏有线经营数据可视化门户的设计与实现[J].有线电视技术,2018,25(11):73-77.
4盛昀瑶,张福泉,任艳.应用MapReduce与视觉描述符的图像检索算法[J].重庆理工大学学报（自然科学）,2018,32(12):149-156. 被引量：1
5姚鹏飞.基于大数据技术的数据仓库体系结构设计[J].数字技术与应用,2019,37(3):141-143. 被引量：11
6郑英姿,刘源,赵鹏.云计算中大数据的快速数据审计算法[J].重庆理工大学学报（自然科学）,2019,33(6):199-206. 被引量：2
7余俊,于文年,彭艳兵.基于ELMo-BiLSTM-CRF模型的中文地址分词[J].电子设计工程,2021,29(20):72-76. 被引量：4

二级引证文献33

1宋冀,徐贵阳.数据驱动下的市县级国土空间基础信息平台研究[J].现代测绘,2023,46(4):13-17.
2王信堂,梁志锋.网络恶意入侵下破损数据及时存储方法仿真[J].计算机仿真,2019,36(1):316-319. 被引量：3
3涂俊英,李志敏.云计算下非结构化大数据存储系统设计[J].现代电子技术,2018,41(1):173-177. 被引量：16
4王姝.一种在虚拟机上实现数据存储技术的方法[J].计算机与网络,2018,44(4):69-71. 被引量：3
5潘志安,王金峰,孙晓叶.海量卫星数据入库效率提升方法研究[J].微电子学与计算机,2018,35(11):111-114.
6赵瑜,李晓东,张新建.基于元数据的分布式数据统一访问技术[J].指挥信息系统与技术,2019,10(4):33-37. 被引量：9
7万莹,张炎欣.基于概率神经网络的异常交易数据检测研究[J].通讯世界,2019,26(11):39-40.
8吴小欣.突出实时测控软件数据库系统设计与实现[J].电子设计工程,2020,28(1):23-26. 被引量：2
9刘彩霞.跨境电商系统用户数据库智能访问方法优化[J].科学技术与工程,2020,20(1):265-270. 被引量：2
10兰玉.数据仓库中数据结构设计方法分析[J].花炮科技与市场,2020,0(1):220-221.

1林碧芬,胡昱,郑若鹢.基于生成器模式的门户网站通用模型的分析与设计——以高校门户网站为例[J].莆田学院学报,2015,22(5):40-43.
2刘恋,郑彪,龚奕利.分布式文件系统中元数据操作的优化[J].计算机应用,2012,32(12):3271-3273. 被引量：6
3王铃惠,李小勇,张轶彬.海量小文件存储文件系统研究综述[J].计算机应用与软件,2012,29(8):106-109. 被引量：20
4张罘.用Web页制作课件的几点优势[J].中小学电教（综合）,2008(5):73-74.
5鹿晓亮,陈继荣,黄戈祥.ICA和改进的SVM在有限集字符识别中的应用[J].计算机工程,2006,32(23):199-201. 被引量：3
6贺亮,王科人,韩杰思.序列模式挖掘算法综述[J].电信技术研究,2015,0(2):45-56.
7张文娟,周丹丹,王林.小波阈值去噪的一种改进方案[J].电脑开发与应用,2007,20(9):28-29. 被引量：4
8庞丽萍,何飞跃,徐婕,岳建辉.PVFS寄生式元数据管理的设计与实现[J].计算机工程,2004,30(20):66-67. 被引量：1
9张祖平,肖波.远程抄表系统中实现模式的研究[J].计算机工程,2006,32(19):233-235. 被引量：2
10马辉.Asp.net中使用生成器模式和XML实现定制查询[J].天津科技,2005,32(4):39-41.

重庆理工大学学报（自然科学）

2015年第7期

浏览历史

内容加载中请稍等...

基于Hadoop的数据仓库构建模式研究被引量：7

参考文献6

二级参考文献102

共引文献118

同被引文献63

引证文献7

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的数据仓库构建模式研究 被引量：7

参考文献6

二级参考文献102

共引文献118

同被引文献63

引证文献7

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的数据仓库构建模式研究被引量：7