基于Spark的序列数据质量评价被引量：1

Evaluation of Sequential Data Quality Using Spark

下载PDF

导出

摘要随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。最后通过真实序列数据集验证了STALK算法的有效性、执行效率和可扩展性。 Sequential data are prevalent in many real world applications.The quality evaluation on sequential data,which attracts the attentions from both academic research and industry fields,is important and prerequisite for extracting knowledge from the sequential data.Recently,a method using the probabilistic suffix tree has been proposed for evaluating the sequential data quality.However,this method cannot deal with the large-scale data set.To break this limitation,this paper proposes a Spark-based algorithm,called STALK(sequential data quality evaluation with Spark),for evaluating the quality of large-scale sequential data.Moreover,this paper uses the novel pruning strategies to improve the efficiency of STALK.Specifically,on the Spark platform,the large-scale sequential data are efficiently used to generate model,and the data quality of query sequence can be evaluated according to the generated model rapidly.Experiments on real-world sequential data sets demonstrate that STALK is effective,efficient and scalable.

作者韩超段磊邓松王慧锋唐常杰 HAN Chao;DUAN Lei;DENG Song;WANG Huifeng;TANG Changjie(School of Computer Science, Sichuan University, Chengdu 610065, China;West China School of Public Health, Sichuan University, Chengdu 610041, China;Institute of Advanced Technology, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)

机构地区四川大学计算机学院四川大学华西公共卫生学院南京邮电大学先进技术研究院

出处《计算机科学与探索》 CSCD 北大核心 2017年第6期897-907,共11页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Nos.61572332 51507084 中国博士后科学基金Nos.2016T90850 2016M591890 中央高校基本科研业务费专项资金No.2016SCU04A22~~

关键词数据质量概率后缀树 SPARK 并行计算 data quality probabilistic suffix tree Spark parallel computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：265
2王慧锋,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的序列数据质量评价算法设计[J].计算机科学与探索,2015,9(10):1180-1194. 被引量：2
3孟啸,王宏志,高宏,李建中.bibEOS:一个高质量的社会化文献检索与管理系统[J].计算机科学与探索,2010,4(1):54-63. 被引量：2
4丁小欧,王宏志,张笑影,李建中,高宏.数据质量多种性质的关联关系研究[J].软件学报,2016,27(7):1626-1644. 被引量：33
5金澈清,刘辉平,周傲英.基于函数依赖与条件约束的数据修复方法[J].软件学报,2016,27(7):1671-1684. 被引量：16
6杨皓,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的Top-k对比序列模式挖掘[J].软件学报,2015,26(11):2994-3009. 被引量：21

二级参考文献77

1Koutrika G, Bercovitz B, Ikeda R, et al. Social systems: Can we do more than just poke friends?[C]//Proeeedings of 4th Biennial Conterrence on Innovative Data Systems Research,Asilomar ,GA,USA,Jamuary 4-7, 2009.
2Golder S,Hubernan B A .Usage patterns of collaborative tagging system[J].Journal of Information Science , 2006.32( 2 ).
3Nie Z, Zhang Y,Wen J R ,et al.Object-level ranking:Bringing order to Web objects[C]//Proceedings of the 14th international International Conference on World Wide Web, ACM, NN. USA. New Press, 2005:567-574.
4Jeh G,Widom J .Searling personalized Web search[C]//Proceedings of the 12th International Conference on World Wide Web, ACM, NY, USA. New York: ACM Press, 2003:271-279.
5Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the Web, SIDL-WP-1999-0120[R]. Stanford Digital Library Technologies Project, 1999.
6Bianchini M, Gori M, Scarselli F. Inside PageRank[J]. ACM Transactions on Internet Technology, 2005,5 ( 1 ) : 92-128.
7Cormen T H, Leiserson C E, Rivest R L, et al. Introduction to algorithms[M]. 2nd ed. [S.l.]: The MIT Press and McGraw- Hill Book Company, 2001 : 549-551.
8Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273～281.
9Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670～677.
10Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):3～13.

共引文献324

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2李垚周,李光明.分布式数据清洗系统设计[J].网络安全技术与应用,2020,0(2):60-62. 被引量：6
3赵彦军.金融数据治理中关于安全与质量的平衡性研究[J].黑龙江金融,2022(10):77-80. 被引量：1
4王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
5丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：4
6王飞,辛海松,胡丽娟,陈佳仪.配电网数据质量提升与数据修复系统开发研究[J].电网与清洁能源,2019,35(3):58-61. 被引量：11
7周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
8宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
9毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
10曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31

同被引文献14

1李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10
2卜尧,吴斌,陈玉峰,白德盟.BDAP——一个基于Spark的数据挖掘工具平台[J].中国科学技术大学学报,2017,47(4):358-368. 被引量：9
3徐祥征,王师奇,吴百洪.基于大数据分析的配电网主动检修业务应用研究与实现[J].科技通报,2017,33(6):105-108. 被引量：25
4高旭,桂志鹏,隆玺,栗法,吴华意,秦昆.KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法[J].地理与地理信息科学,2017,33(6):1-7. 被引量：9
5王磊,陈青,高洪雨,马志广,张艳杰,何登森.基于大数据挖掘技术的智能变电站故障追踪架构[J].电力系统自动化,2018,42(3):84-91. 被引量：68
6曲朝阳,张艺竞,王永文,赵莹.基于Spark框架的能源互联网电力能源大数据清洗模型[J].电测与仪表,2018,55(2):39-44. 被引量：25
7李端超,王松,黄太贵,程栩,许小龙,窦万春.基于大数据平台的电网线损与窃电预警分析关键技术[J].电力系统保护与控制,2018,46(5):143-151. 被引量：92
8李莉,朱永利,宋亚奇.泄漏电流数据的Spark-KNN并行模式识别方法[J].系统仿真学报,2018,30(4):1473-1481. 被引量：4
9曾志强,何小东,王颖,吴鑫.基于Hadoop和Spark的森林火灾混合大数据分析系统研究[J].世界林业研究,2018,31(2):55-59. 被引量：16
10吴兴,张霞,孙雪剑,张立福,戚文超.SPARK卫星高光谱数据辐射质量评价[J].遥感技术与应用,2018,33(2):233-240. 被引量：8

引证文献1

1姚陶,郑涛,辛锐,吴军英,陈曦.基于大数据Spark的配网运维数据处理研究[J].信息技术,2020,44(5):165-168. 被引量：5

二级引证文献5

1马跃,彭柏,韩大为,周巍.基于Kafka集群的物联微服务数据接入模式的研究[J].信息技术,2020,44(12):143-147. 被引量：5
2折如义,段红义.基于大数据的温室种植决策支持系统研究[J].电脑编程技巧与维护,2021(3):81-83.
3王东灿.大流量通信环境下的网络预警研究[J].通信电源技术,2021,38(3):126-128.
4张海峰,魏可欣.一种基于Spark大数据处理平台的查询方法[J].南京邮电大学学报（自然科学版）,2021,41(4):82-90. 被引量：4
5曾健.配网自动化技术在配网运维中的应用研究[J].自动化应用,2022(9):96-98. 被引量：10

1POLYCOM首推社交视像聊天群组应用[J].电脑编程技巧与维护,2012(15):4-4.
2郝晓弘,胡振邦,朱洁,秦睿.迭代学习控制的研究现状[J].微型机与应用,2010,29(11):1-3. 被引量：2
3叶连杰.电子商务中计算机安全技术的应用[J].信息技术与信息化,2014(11):174-175. 被引量：2
4徐章艳,张师超,区玉明,卢景丽,刘美玲.挖掘关联规则中的一种优化的Apriori算法[J].计算机工程,2003,29(19):83-84. 被引量：49
5赵德明.小波变换和曲波变换的图像边缘检测新算法[J].科技创新与应用,2015,5(13):53-53. 被引量：2
6温冠华.基于关联规则的Apriori算法实现及改进[J].福建电脑,2007,23(7):102-104. 被引量：3
7刘帅,杨松,常歌,董亚卓.海军观察预警系统演习评估数据分析系统需求分析[J].网络安全技术与应用,2017(6):139-140. 被引量：1
8李树平.合理选择数据结构优化算法[J].牡丹江师范学院学报（自然科学版）,2004,30(1):24-25.
9曾凡文.CATIA参数化建模在汽车A级曲面中的应用[J].科学大众（智慧教育）,2017(5):187-187.
10毛燠锋,钱振兴,万定生,朱跃龙.基于条件函数依赖的CTANE算法研究与应用[J].计算机工程与应用,2017,53(11):85-89. 被引量：1

计算机科学与探索

2017年第6期

浏览历史

内容加载中请稍等...

基于Spark的序列数据质量评价被引量：1

参考文献6

二级参考文献77

共引文献324

同被引文献14

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的序列数据质量评价 被引量：1

参考文献6

二级参考文献77

共引文献324

同被引文献14

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于Spark的序列数据质量评价被引量：1