基于频繁密度分布模式的不确定数据流查询方法被引量：2

Query processing on uncertain data stream based on frequency density distribution pattern

下载PDF

导出

摘要针对当前不确定数据流相似性查询问题中不确定对象建模不准确的问题,提出了一种面向不确定数据流的相似性查询方法 HB-UTS。利用非参数估计方法对不确定数据流中的对象建模,得到不确定对象的密度函数。通过谱聚类方法挖掘密度函数的频繁模式,将挖掘后的模式抽象为语义表示的不确定数据流序列。在相似性查询阶段,通过高阶Markov的状态转移矩阵模型构建不确定数据流的索引结构,它在记录不确定数据流存储地址的同时还记录序列元素的存储概率,可有效提高数据流的分步输入查询效率。本文进行了真实与仿真相结合的方法,通过在随机化处理后的真实数据集上的实验以及与其他相似性查询方法的比较,验证了HB-UTS在处理大规模不确定数据流时较好处理能力以及实施效果。 To solve the defect of inaccurate modeling for uncertain objects in processing similarity query of uncertain data streams,HB-UTS method was proposed. Non-parametric estimation is used to model the uncertain objects to obtain the density function. The frequency pattern of density function is mined by spectral clustering method and the mined object pattern is abstracted as an indefinite semantic data stream sequence. In the similarity query phase,an index structure of the uncertain data stream is constructed by the state transition matrix model of high-order Markov.It also records the storage probability of the sequence elements while recording the storage address of the uncertain data stream to improve the step-by-step input query efficiency of data stream. To analyze the effect of this method in practical problems,a method combining reality and simulation was adopted. By the experiments on the randomized real dataset and comparing with other similarity query methods,it was verified that HB-UTS is very effective in processing large-scale uncertain data stream.

作者迟荣华黄少滨吕天阳 CHI Ronghua;HUANG Shaobin;LYU Tianyang(College of Computer Science and Technology, Harbin Engineer University, Harbin 150001, China;Audit Research Institute of Chinese National Audit Office, Beijing 100073, China)

机构地区哈尔滨工程大学计算机科学与技术学院审计署计算机技术中心

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2018年第6期1052-1058,共7页 Journal of Harbin Engineering University

基金国家自然科学基金重大研究计划(91546110)

关键词不确定性数据流相似性查询非参数估计数据挖掘马尔科夫 uncertainty data stream similarity query non-parametric estimation data mining Markov

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1赵越,王意洁,王媛,李小勇.一种高效的不确定数据流并行Skyline查询处理方法[J].计算机研究与发展,2013,50(S2):132-139. 被引量：3
2张晨,金澈清,周傲英.一种不确定数据流聚类算法[J].软件学报,2010,21(9):2173-2182. 被引量：33

二级参考文献28

1Babcock B,Babu S,Datar M,Motwani R,Widom J.Models and issues data stream systems.In:Proc.of the 21st ACM SIGACT-SIGMOD-SIGART Symp.on Principles of Database Systems.Madison:ACM,2002.1-16.
2Aggarwal CC,Han JW,Yu PS.A framework for clustering evolving data streams.In:Proc.of the 29th Int'l Conf.on Very Large Data Bases.Berlin:Morgan Kaufmann Publishers,2003.81-92.
3Aggarwal CC,Yu PS.A framework for clustering uncertain data streams.In:Proc.of the 24th Int'l Conf.on Data Engineering.Cancún:IEEE,2008.150-159.
4Callaghan LO,Mishra N,Meyerson A,Guha S,Motwani R.Streaming-Data algorithms for high-quality clustering.In:Proc.of the 18th Int'l Conf.on Data Engineering.San Jose:IEEE,2002.685-694.
5Zhu WH,Yin J,Xie YH.Arbitrary shape cluster algorithm for clustering data stream.Journal of Software,2006,17(3):379-387 (in Chinese with English abstract).http://www.jos.org.cn/1000-9825/17/379.htm[doi:10.1360/jos170379].
6Datar M,Gionis A,Indyk P,Motwani R.Maintaining stream statistics over sliding windows.In:Proc.of the 13th Annual ACM-SIAM Symp.on Discrete Algorithms.San Francisco:ACM,2002.635-644.
7Babcock B,Datar M,Motwani R,Callaghan LO.Maintaining variance and k-medians over data stream windows.In:Proc.of the 22nd ACM SIGACT-SIGMOD-SIGART Symp.on Principles of Database Systems.San Diego:ACM,2003.234-243.
8Cao F,Estery M,Qian WN,Zhou AY.Density-Based clustering over an evolving data stream with noise.In:Proc.of the 6th SIAM Int'l Conf.on Data Mining.Bethesda:SIAM,2006.326-337.
9Kriegel HP,Pfeifle M.Density-Based clustering of uncertain data.In:Proc.of the 11th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining.Chicago:ACM,2005.672-677.
10Kriegel HP,Pfeifle M.Hierarchical density-based clustering of uncertain data.In:Proc.of the 5th IEEE Int'l Conf.on Data Mining.Houston:IEEE Computer Society,2005.689-692.

共引文献34

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2廖国琼,吴凌琴,万常选.基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J].计算机研究与发展,2012,49(5):1105-1115. 被引量：15
3丘晓平,黄小兵.非确定性数据处理技术发展现状与挑战[J].现代计算机,2012,18(18):9-14.
4肖丹萍,叶东毅.基于免疫原理的不确定数据流聚类算法[J].模式识别与人工智能,2012,25(5):826-834. 被引量：2
5潘丽娜,王治和,党辉.基于关联函数的数据流聚类算法[J].计算机应用,2013,33(1):202-206. 被引量：5
6胡春安,范丽文,毛伊敏.HPDBSCAN:高效的不确定数据处理算法[J].计算机工程与设计,2013,34(3):1044-1049. 被引量：6
7朱娟芳,霍欢,徐亚,奚金金,彭敦陆,高丽萍.一种基于滑动窗口的不确定数据流聚类算法[J].信息技术,2013,37(4):1-5. 被引量：2
8张栒,游中胜,汤兴华,孙凡.对计算机实验环节不规范描述的识别与编改[J].编辑学报,2013,25(3):254-256.
9罗清华,彭宇,彭喜元.一种多维不确定性数据流聚类算法[J].仪器仪表学报,2013,34(6):1330-1338. 被引量：13
10陈春燕,吕俊龙,郭有强.基于时间衰减的分布式数据流聚类算法[J].太原师范学院学报（自然科学版）,2013,12(2):87-90. 被引量：1

同被引文献22

1钱晓军,范冬萍,吉根林.物联网差异数据库中的故障数据快速挖掘仿真[J].计算机仿真,2016,33(1):301-304. 被引量：6
2王习特,申德荣,白梅,聂铁铮,寇月,于戈.BOD:一种高效的分布式离群点检测算法[J].计算机学报,2016,39(1):36-51. 被引量：29
3夏聪,陆亿红.基于近邻传播的不确定数据流演化聚类算法[J].模式识别与人工智能,2016,29(5):472-480. 被引量：4
4郑祺,黄德才.基于引力相似度和相对密度的不确定数据流聚类[J].上海交通大学学报,2016,50(6):873-878. 被引量：5
5马力.一种基于预裁剪的不确定数据流频繁项集挖掘算法[J].科学技术与工程,2016,16(23):229-233. 被引量：3
6朱纯,吴建华,潘毅.关于优化K-medoids聚类算法搜索策略研究[J].计算机仿真,2016,33(10):244-248. 被引量：4
7刘莘,张绍良,王飞,张赛男.基于地统计学的空间离群点检测算法的研究[J].计算机应用研究,2016,33(12):3700-3704. 被引量：4
8王靖云,史建焘,张兆心,沈英洪.基于相对密度的DNS请求数据流源IP异常检测算法[J].高技术通讯,2016,26(10):849-856. 被引量：10
9许红龙,唐颂,毛睿,陈国良,刘刚.改进密度峰值支撑点选取及其在度量空间离群检测的应用[J].小型微型计算机系统,2017,38(5):983-987. 被引量：3
10尹娜,张琳.基于混合式聚类算法的离群点挖掘在异常检测中的应用研究[J].计算机科学,2017,44(5):116-119. 被引量：14

引证文献2

1叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：12
2李晓峰,王妍玮,李东.基于层次化深度学习的医疗数据库离群数据检测算法[J].计算机系统应用,2020,29(3):180-186. 被引量：3

二级引证文献15

1罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
2周志洪,马进,夏正敏,陈秀真.基于局部离群点检测的高频数据共现聚类算法[J].计算机仿真,2021,38(3):482-486. 被引量：7
3周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：20
4屠莉,陈崚.衰减窗口中的不确定数据流聚类算法[J].计算机应用研究,2021,38(9):2673-2677. 被引量：4
5王喆,宋晓峰,王玉芳.基于关联规则的网络数据动态聚类方法研究[J].电脑知识与技术,2021,17(32):51-52.
6文明瑶,廖伟国.基于机器学习的不确定数据增量式挖掘算法[J].计算机仿真,2021,38(11):290-294. 被引量：4
7王艳然,杨鹏飞.基于深度学习的多源数据自动分类算法设计[J].电脑知识与技术,2022,18(5):20-21. 被引量：1
8程顺达,祝婕,夏芳.基于深度学习的医疗辅助诊断数据分析方法[J].电子设计工程,2022,30(7):72-76. 被引量：4
9赵向兵,张天刚.基于相关子空间的高维离群数据检测算法[J].计算技术与自动化,2022,41(1):82-86. 被引量：3
10康耀龙,冯丽露,张景安,陈富.基于谱聚类的高维类别属性数据流离群点挖掘算法[J].吉林大学学报（工学版）,2022,52(6):1422-1427. 被引量：6

1我国的INFOTERRA活动形势喜人[J].环境科学动态,1979,0(25):9-11.
2杨奇奇,张玉红,胡学钢.一种基于多桥映射的跨领域文本分类方法[J].计算机应用研究,2018,35(4):996-1000. 被引量：2
3冯亚鹏,李美霞.金属纳米粒子修饰的石墨烯加强铜基复合材料[J].中国粉体技术,2018,24(3):58-62. 被引量：1
4苏瑞.基于卡尔曼滤波的改进案均赔款法[J].时代金融,2017(24):217-217.
5朱新球,赵慧达.食品供应链风险传递与控制[J].物流技术,2018,37(1):116-121. 被引量：1
6田世明,卜凡鹏,齐林海,罗燕.电压暂降事件的频繁模式挖掘与知识推理分析[J].电力建设,2018,39(5):21-27. 被引量：10
7洪国瑞.一种安全和限制查询的方法没事![J].电脑爱好者,1998(18):53-54.
8段玲琳.多维转类一维特征波控码表索引的设计方法[J].合肥工业大学学报（自然科学版）,2017,40(11):1492-1495.
9常家超,尚琳,李国通,赵璐璐,肖洋.北斗系统地固系自主定轨算法[J].宇航学报,2018,39(5):532-540. 被引量：4
10江伟,金忠.基于短语注意机制的文本分类[J].中文信息学报,2018,32(2):102-109. 被引量：11

哈尔滨工程大学学报

2018年第6期

浏览历史

内容加载中请稍等...

基于频繁密度分布模式的不确定数据流查询方法被引量：2

参考文献2

二级参考文献28

共引文献34

同被引文献22

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于频繁密度分布模式的不确定数据流查询方法 被引量：2

参考文献2

二级参考文献28

共引文献34

同被引文献22

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于频繁密度分布模式的不确定数据流查询方法被引量：2