基于滑动窗口密度聚类的数据流偏倚采样算法被引量：2

Bias Sampling Data Stream Based on Sliding Window Density Clustering Algorithm Research

下载PDF

导出

摘要对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象。针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法。该算法在滑动窗口模型下,充分利用了轨迹数据流自身的分布特性,结合偏倚采样算法思想克服了均匀采样的数据丢失问题。算法首先采用基于数据存在密度的聚类技术将滑动窗口划分为强簇、弱簇和过度簇,然后针对不同的簇给予不同的采样率,进行偏倚采样,进而得到最终的数据流摘要。经过实际数据集的实验检测,证明算法较好地保证了采样质量,并具有较快的数据处理能力。 In management of the mobile object trajectory data stream in the field of mobile computing, the most com- monly used technical means is sampling techniques, but the traditional uniform sampling is easy to lose some of the key changes in data, resulting in the phenomenon of loss of information. To solve this problem, we proposed a data stream based on the probability density clustering bias sampling algorithm. The algorithm in a sliding window model, makes full use of the distribution of characteristics of the the trajectory data stream itself, combines a bias sampling algorithm ideo- logy to overcome uniformly sampled data loss problems. Firstly the sliding window is divided into a strong cluster clus- tering techniques based on density data exists, weak clusters and excessive cluster, and then different sampling rates for different clusters biased sampling are given, thereby to obtain a final summary of the data stream. The experimental tes- ting results of the set of actual data show that the algorithm ensures the sampling quality and has faster data processing capability.

作者胡志冬任永功杨雪

机构地区辽宁师范大学计算机与信息技术学院

出处《计算机科学》 CSCD 北大核心 2013年第9期254-256,269,共4页 Computer Science

基金辽宁省计划项目基金(2012232001) 辽宁省自然科学基金(201202119)资助

关键词轨迹数据流滑动窗口密度聚类偏倚采样 Trajectory data stream, Sliding window, Density clustering, Bias sampling

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1Kun-Ta C,Hung-Leng C,Ming- Syan C.Feature-preserved sampling over streaming data[J].ACM trans.Knowl.Discov.Data,2009,2(4):1-45.
2张春阳,周继恩,钱权,蔡庆生.抽样在数据挖掘中的应用研究[J].计算机科学,2004,31(2):126-128. 被引量：11
3Dimitris S,Antonios D,Timos S.Hierachically compressedwavelet synopses[J].The VLDB Journal,2009,18(1):203-231.
4余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7
5戴东波,赵杠,孙圣力.基于概率数据流的有效聚类算法[J].软件学报,2009,20(5):1313-1328. 被引量：15
6常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
7程转流,胡为成.滑动窗口模型下的概率数据流聚类[J].计算机工程与应用,2011,47(4):141-145. 被引量：2
8B Ying-yi,C Lei,Wai-Chee F A,et al.Efficient anomaly monitoring over moving object trajectory streams[C]∥Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Paris,France,ACM,2009.

二级参考文献67

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
2常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
3KishL著倪加勋译.抽样调查[M].中国统计出版社,1997..
4Toivonen H. Sampling large databases from association rulesff VLDB'96. 1996
5Chen B, Haas P, Scheuermann P. New Two - phase Sampling - based Algorithm for Discovering Association Rules//SIGKDD'02. 2002
6Olken F, Rotem D, Xu Ping. Random sampling from hash files// Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, ACM Press, 1990:375-386
7Guha S,Rastogi R,Shim K. CURE: An Efficient Clustering Algorithm for Large Databases//Proc. ACM SIGMOD Conf.June 1998 : 73-84
8Knorr E, Ng R. A unified notion of outliers:Properties and computation//Proc. 1997 Int. Conf. Knowledge Discovery and Data Mining(KDD'97). Newport Beach,CA. Aug. 1997:219 -222
9Motwani R, Raghavan P. Randomizeed Algorithms. Cambridge University Press, 1995
10Poosala V,Ioannidis Y. Selectivity Estimation Without the Attribute Value Independence Assumption//Proc. Very Large Data Bases Conf.. Aug. 1997:486-495

共引文献84

1周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
2马光志,张耀坤.一种新的两阶段抽样算法[J].计算机工程与科学,2007,29(7):64-66. 被引量：1
3黄孝.数据流聚类算法分析[J].池州学院学报,2007,21(5):11-13. 被引量：1
4胡彧,闫巧梅.滑动窗口模型下的优化数据流聚类算法[J].计算机应用,2008,28(6):1414-1416. 被引量：6
5胡彧,闫巧梅.基于滑动窗口的流数据聚类算法研究[J].计算机工程与设计,2008,29(21):5621-5623. 被引量：4
6张天成,岳德君,于戈,林树宽,谷峪.数据流挖掘研究及其进展[J].小型微型计算机系统,2008,29(12):2241-2246. 被引量：5
7余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7
8刘波,杨路明,邓云龙.自适应的混沌粒子群算法优化XML文档聚类策略[J].系统仿真学报,2009,21(3):716-720. 被引量：3
9张驹,黄汉永,肖杰.一种基于Hash函数抽样的数据流聚类算法[J].计算机系统应用,2009,18(3):73-75. 被引量：3
10王述云,张成洪,郝秀兰,胡运发.基于免疫原理的数据流聚类算法[J].模式识别与人工智能,2009,22(2):246-255. 被引量：5

同被引文献14

1余建桥,葛继科,李娅.一种基于密度偏差抽样的孤立点检测算法[J].计算机科学,2004,31(10):206-208. 被引量：3
2刘爱芹.随机抽样中样本容量确定的影响因素分析[J].山东财政学院学报,2006(5):60-64. 被引量：15
3纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2
4余波,朱东华,刘嵩,郑涛.密度偏差抽样技术在聚类算法中的应用研究[J].计算机科学,2009,36(2):207-209. 被引量：7
5何苗.一种基于DBS的聚类算法[J].重庆电子工程职业学院学报,2009,18(3):83-85. 被引量：1
6王斌.一种基于离散微粒群优化的数字曲线的多边形近似算法[J].计算机研究与发展,2010,47(11):1886-1892. 被引量：5
7盛开元,钱雪忠,吴秦.基于可变网格划分的密度偏差抽样算法[J].计算机应用,2013,33(9):2419-2422. 被引量：7
8周庆元.PPS和简单随机抽样估计效率的实证检验[J].统计与决策,2014,30(1):14-17. 被引量：12
9吴玲达,邓维,张友根,杨超.在线草图识别研究综述[J].计算机应用研究,2015,32(6):1601-1607. 被引量：7
10张树凯,刘正江,张显库,史国友,蔡垚.基于Douglas-Peucker算法的船舶AIS航迹数据压缩[J].哈尔滨工程大学学报,2015,36(5):595-599. 被引量：23

引证文献2

1吕丹,龙华,高杰,邵玉斌,杜庆治.基于不均匀数据的密度偏差抽样改进算法[J].软件导刊,2018,17(2):77-79. 被引量：2
2舒瑶,盛步云,萧筝,赵飞宇,张成雷.Web环境下手绘草图数据实时精简方法[J].数字制造科学,2018(3):183-187.

二级引证文献2

1肖先勇,谭亚欧,胡文曦,汪颖.电压暂降系统指标的监测节点数量选择与评估方法[J].电力自动化设备,2020,40(10):8-14. 被引量：5
2金安.一种移动端APM系统框架设计与实现[J].软件导刊,2022,21(1):205-209. 被引量：1

1王考杰,郑雪峰,宋一丁,安丰亮.基于局部聚类的轨迹数据流偏倚采样[J].计算机科学,2011,38(5):135-137. 被引量：1
2王考杰,郑雪峰,宋一丁,曲阜平.面向轨迹数据流的KNN近似查询[J].计算机工程,2011,37(16):17-20. 被引量：4
3杨磊,李彦,朱晓阳.基于WINCE的动力水槽实验室内模拟量采集节点研究[J].海洋技术,2013,32(4):36-38.
4于彦伟,王沁,王小东,王欢,何杰.面向实时查询处理的轨迹流挖掘框架[J].仪器仪表学报,2012,33(12):2803-2811. 被引量：1
5夏瑜,吴小俊.球粒子滤波视频跟踪算法[J].模式识别与人工智能,2012,25(3):513-520.
6任静,嵇子航.基于体感网的远程医疗监护系统的设计[J].网络安全技术与应用,2015(3):47-48. 被引量：1
7杨泽林,何莉.基于LPC2148的动态信号采集系统设计[J].重庆理工大学学报（自然科学）,2017,31(1):113-117. 被引量：1
8陈云坪,王秀,赵春江.基于3S技术的土壤采集信息处理系统的设计与实现[J].计算机应用研究,2007,24(6):236-238. 被引量：2
9郭辽原,赵凤敏,马建国,任国富,马向辉,陈海英.具有先进采样技术的新型地层测试器[J].测井技术,2005,29(3):272-275.

计算机科学

2013年第9期

浏览历史

内容加载中请稍等...

基于滑动窗口密度聚类的数据流偏倚采样算法被引量：2

参考文献8

二级参考文献67

共引文献84

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于滑动窗口密度聚类的数据流偏倚采样算法 被引量：2

参考文献8

二级参考文献67

共引文献84

同被引文献14

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于滑动窗口密度聚类的数据流偏倚采样算法被引量：2