MC-OLA:基于马尔可夫链的多表连接在线聚集技术

MC-OLA: multi-table join online aggregation based on Markov chain

下载PDF

导出

摘要多表连接查询是大数据分析领域重要的查询类型之一,然而连接查询的实现代价很高,从而影响了大数据分析结果的时效性。在线聚集能够在查询完成前反馈具有统计意义的估计结果具有重要的意义。目前已有的多表连接在线聚集算法从各表进行统一随机采样,导致连接结果的产出率低,并且导致分组连接查询的估计准确率低。针对这一问题,提出了基于马尔可夫链的多表连接在线聚集技术,将多表连接的实现过程转换为马尔可夫链上的随机游走过程,确定好连接顺序后在游走起始层创建分层样本,并设计了相应的采样策略及结果估计方法。将所提出技术在在线化Hadoop平台上实现,实验结果证明所提出方案的响应时间优于已有算法,并且具有良好的扩展性。 Multi-table join is one of the most important query operations in the field of big data analysis,however,its implementation is expensive,which affects the timeliness of the big data analysis results. Online aggregation provides feedback of statistical significance far before the query finishes,which is of great significance. The existing work on multi-table join online aggregation conducted uniform sampling on every joining table,which results in low join result yield and estimation inaccuracy on grouping join queries. To solve this problem,this paper proposed the multi-table join online aggregation technique based on Markov chain,which transformed the multi-table join process into the random walk on Markov chain,constructed stratified sample on the walk start strata after determining the join order,and designed the corresponding sampling mechanism and estimation algorithm. The experiment was conducted on the online Hadoop platform,and the results demonstrate that the response time of technique outperforms the existing algorithms,and it owns efficient scalability.

作者史英杰杜方 Shi Yingjie;Du Fang(School of Information Engineering,Beijing Institute of Fashion Technology,Beijing 100029,China;School of Information Engineering,Ningxia University,Yinchuan 750021,China)

机构地区北京服装学院信息工程学院宁夏大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2019年第12期3801-3805,3810,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61502279) 北京市教委科技计划资助项目(KM201710012008) 北京服装学院高水平教师队伍建设专项资金资助项目(BIFTQG201803) 北京市服装产业数字化工程技术研究中心开放课题项目(KJCX1902-30299/009)

关键词在线聚集马尔可夫链分层采样多表连接 online aggregation Markov chain stratified sampling multi-table join

分类号 TP392 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1史英杰,杜方,尤亚东.MSOLA:基于多维分层采样的大数据在线聚集技术[J].计算机应用研究,2018,35(2):375-380. 被引量：5
2An-Zhen Zhang,Jian-Zhong Li,Hong Gao,Yu-Biao Chen,Heng-Zhao Ma,Mohamed Jaward Bah.CrowdOLA： Online Aggregation on Duplicate Data Powered by Crowdsourcing[J].Journal of Computer Science & Technology,2018,33(2):366-379. 被引量：3

二级参考文献1

1史英杰,孟小峰.云数据管理系统中查询技术研究综述[J].计算机学报,2013,36(2):209-225. 被引量：47

共引文献6

1谢烨,陈熙哲,丁宇.有效大数据信息处理与过滤[J].现代信息科技,2017,1(5):117-118. 被引量：1
2李双琴,谢锐,曹文琛,邹妍,刘凤屿.基于多维分层采样的时间维度型大数据流整合系统设计[J].现代电子技术,2020,43(5):133-136. 被引量：3
3Dun Liang,Yuan-Chen Guo,Shao-Kui Zhang,Tai-Jiang Mu,Xiaolei Huang.Lane Detection:A Survey with New Results[J].Journal of Computer Science & Technology,2020,35(3):493-505. 被引量：5
4Bo-Han Li,Yi Liu,An-Man Zhang,Wen-Huan Wang,Shuo Wan.A Survey on Blocking Technology of Entity Resolution[J].Journal of Computer Science & Technology,2020,35(4):769-793. 被引量：1
5李骏.基于MapReduce的大数据在线聚集优化设计[J].河北大学学报（自然科学版）,2021,41(2):212-217. 被引量：1
6滕锦楠,宋建祥,陈立萍,张诚霖,赵秋娴.多维分层反馈模式在医院内部质量评价中的应用效果[J].中国卫生质量管理,2021,28(7):33-36. 被引量：4

1马竹琳,李心池,诸葛晴凤,吴林,陈咸彰,姜炜文,沙行勉.面向非易失性存储器的多表连接写操作的优化研究[J].计算机学报,2019,42(11):2417-2428. 被引量：3
2赵亮,马旺叶,杨雯彦,曹媛媛.基于Mask R-CNN的卫星影像船舶检测研究[J].科技视界,2019,0(30):24-25. 被引量：1
3余阳,唐登斌.基于状态检修模式解析变电检修技术[J].华东科技（综合）,2019(10):171-171.
4王美玉.任务驱动教学法在会计教学中的运用及思考[J].当代旅游（下旬刊）,2019,0(7):00285-00285.
5李丽,刘文博.大数据时代数据分析方向课程体系构建与实践——以吉林建筑大学为例[J].信息与电脑,2019,31(21):227-229. 被引量：1
6赵坤.针对Access数据库查询技术探讨[J].文学少年,2019,0(5):0286-0286.
7潘剑飞,曹燕,董一鸿,陈华辉,钱江波.基于Attention深度随机森林的社区演化事件预测[J].电子学报,2019,47(10):2050-2060. 被引量：5
8蔡凡.基于机器学习的级联行人检测方法研究[J].重庆科技学院学报（自然科学版）,2019,21(5):62-65.
9牛志梅.云计算Hadoop平台中基于遗传算法的高校师资培训资源管理[J].现代电子技术,2019,42(21):120-124. 被引量：1
10杨娅.'微时代'背景下高校共青团建设现状与思考[J].区域治理,2018,0(18):122-122.

计算机应用研究

2019年第12期

浏览历史

内容加载中请稍等...

MC-OLA:基于马尔可夫链的多表连接在线聚集技术

参考文献2

二级参考文献1

共引文献6

相关作者

相关机构

相关主题

浏览历史