一种基于优化模型的演化数据流聚类方法被引量：13

A novel evolving data stream clustering method based on optimization model

导出

摘要本文针对数据流演化聚类问题,建立了基于模糊最大熵的优化模型,利用模糊隶属度表达类别划分的模糊性,通过信息熵描述类别划分的有效性.在此基础上定义了优化目标函数,在滑动窗口下将数据子集的聚类过程理解为一个优化问题,使聚类结果能有效描述数据内在结构特征,同时维持相邻窗口间聚类模型的连续性.将优化问题的解作为概念漂移检测的依据,保证了检测结果的有效性,有利于捕获聚类结构的变化趋势.在仿真实验中,利用人造数据集和真实数据集对新算法的有效性进行了验证,并通过实验与多种演化聚类方法在聚类精度、概念漂移检测精度以及计算效率等多个方面进行了比较.仿真结果表明了该算法的有效性,在相同条件下其聚类精度和概念漂移检测精度相比其他聚类算法具有显著优势,能够同时降低计算耗费时间和存储空间. An optimization model based on the fuzzy maximum entropy method is proposed for the data stream evolving clustering problem. In the model, the fuzziness and effectiveness of cluster partition are described by fuzzy membership and information entropy, respectively. An optimization object function is defined. In the sliding window, the clustering processing of the data subset is construed as an optimization problem. In this way, the inner structural features can be depicted effectively, and the continuity between contiguous windows is preserved simultaneously. The solution of the optimization problem is used as the basis of concept drift detection;as a result, the validity of the detection result is guaranteed and the varying trends in cluster structure can be easily captured. In the simulation, artificial and real datasets are used to verify the performance of the proposed method, and existing evolving clustering algorithms are introduced for comparison with our algorithm for testing purposes. The simulation results demonstrate the validity of the developed algorithm. Under the same conditions,the new method is superior to other clustering algorithms with respect to the accuracy of clustering and concept drift detection; it also reduces computational load and memory usage effectively.

作者杜航原王文剑白亮

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室

出处《中国科学：信息科学》 CSCD 北大核心 2017年第11期1464-1482,共19页 Scientia Sinica(Informationis)

基金国家自然科学基金重点项目(批准号:61432011 U1435212) 国家自然科学基金(批准号:61673249) 山西省青年科技研究基金(批准号:201701D221097)资助项目

关键词数据流演化聚类优化模型模糊隶属度信息熵 data stream, evolving clustering, optimization model, fuzzy membership, information entropy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1REN ShiJun & WANG YaDong School of Computers, Harbin Institute of Technology, Harbin 150001, China.A proof of the convergence theorem of maximum-entropy clustering algorithm[J].Science China(Information Sciences),2010,53(6):1151-1158. 被引量：3

二级参考文献2

1张志华,郑南宁,史罡.Maximum-entropy clustering algorithm and its global convergence analysis[J].Science China(Technological Sciences),2001,44(1):89-101. 被引量：3
2于剑,石洪波,黄厚宽,孙喜晨,程乾生.Counterexamples to convergence theorem of maximum-entropy clustering algorithm[J].Science in China(Series F),2003,46(5):321-326. 被引量：6

共引文献2

1王三虎,强彦.基于混沌粒子优化匹配的无线传感网簇区域生成算法[J].计算机工程与设计,2016,37(11):2904-2908. 被引量：2
2许文祥,张国英,蒋焱,陈路豪.基于二项分布的双窗OTSU的矿石分割模型[J].有色金属（矿山部分）,2019,71(3):96-102. 被引量：4

同被引文献46

1甄峰,王波.“大数据”热潮下人文地理学研究的再思考[J].地理研究,2015,34(5):803-811. 被引量：97
2周成虎.点模式分析[J].地理译报,1989(2):8-11. 被引量：5
3梁琦.空间经济学:过去、现在与未来——兼评《空间经济学:城市、区域与国际贸易》[J].经济学（季刊）,2005,4(4):1067-1086. 被引量：104
4王涛,李舟军,颜跃进,陈火旺.数据流挖掘分类技术综述[J].计算机研究与发展,2007,44(11):1809-1815. 被引量：41
5陈照阳,黄上腾.流数据分类中的概念漂移问题研究[J].计算机应用与软件,2009,26(2):254-256. 被引量：12
6王劲峰,李连发,葛咏,时陪中,关元秀,柏延臣,王智勇,HainingRobert.地理信息空间分析的理论体系探讨[J].地理学报,2000,55(1):92-103. 被引量：157
7刘大有,陈慧灵,齐红,杨博.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239. 被引量：125
8裴韬,李婷,周成虎.时空点过程:一种新的地学数据模型、分析方法和观察视角[J].地球信息科学学报,2013,15(6):793-800. 被引量：10
9郭躬德,李南,陈黎飞.一种基于混合模型的数据流概念漂移检测算法[J].计算机研究与发展,2014,51(4):731-742. 被引量：13
10吉根林,赵斌.面向大数据的时空数据挖掘综述[J].南京师大学报（自然科学版）,2014,37(1):1-7. 被引量：65

引证文献13

1赵永.空间数据统计分析的思想起源与应用演化[J].地理研究,2018,37(10):2058-2074. 被引量：10
2杨涛,张红梅,王家乐,周卓洁,杜宏燊.大数据下数据流聚类挖掘算法的优化分析[J].物联网技术,2019,9(8):58-60. 被引量：2
3王磊,张云秋,徐丙凤,徐逸卿.组合云系统可靠性概念漂移在线度量方法研究[J].中国科学：信息科学,2021,51(9):1438-1450.
4郭虎升,任巧燕,王文剑.基于时序窗口的概念漂移类别检测[J].计算机研究与发展,2022,59(1):127-143. 被引量：10
5郭虎升,高淑花,王文剑.基于串行交叉混合集成的概念漂移检测及收敛方法[J].数据采集与处理,2022,37(5):997-1011. 被引量：2
6廖宏建,曲哲,赵文静,陈俊城.情境流驱动的大规模在线学习动态分组方法[J].现代教育技术,2023,33(3):118-126.
7郭虎升,丛璐,高淑花,王文剑.基于在线集成的概念漂移自适应分类方法[J].计算机研究与发展,2023,60(7):1592-1602.
8郭虎升,孙妮,王嘉豪,王文剑.基于自适应深度集成网络的概念漂移收敛方法[J].计算机研究与发展,2024,61(1):172-183.
9李玲玲,辛浩.交通流数据的概念漂移探析[J].淮北职业技术学院学报,2024,23(2):113-116.
10郭虎升,刘艳杰,王文剑.基于混合特征提取的流数据概念漂移处理方法[J].计算机研究与发展,2024,61(6):1497-1510.

二级引证文献24

1田广增,李航飞.丹霞山网络关注度时空演变特征及影响因素分析——基于空间自相关及空间回归方法[J].韶关学院学报,2020,41(1):100-104. 被引量：1
2董文钱,董良,向琳,陶海军,赵传虎,曲寒冰.基于LGCP的城市管理事件空间点模式分析[J].地理科学进展,2020,39(8):1356-1366. 被引量：1
3赵峰.探索基于大数据的分布式隐私保护聚类挖掘算法[J].电脑知识与技术,2021,17(4):201-203. 被引量：2
4朱福斌,丁世伟,甘晓玉,黄海,吴锦松,马友华.基于三种空间预测方法的安庆市耕地土壤速效钾空间分布预测[J].中国土壤与肥料,2021(1):1-8. 被引量：3
5李航飞.台商对大陆农业投资的区位选择分析[J].西南师范大学学报（自然科学版）,2021,46(9):81-88. 被引量：2
6杨楠,孟庆林.科学设计观下城市基础数据逻辑框架探索[J].南方建筑,2022(3):9-18. 被引量：1
7崔瑞华,林玲.概念漂移检测算法综述[J].伊犁师范大学学报（自然科学版）,2022,16(1):58-69.
8聂秀山,林熙明.流数据概念漂移检测研究进展[J].山东建筑大学学报,2022,37(3):90-100. 被引量：1
9贾燕,江畅,李文梅,苗立志.大数据时代高校信息类专业中的空间统计教育与探索[J].艺术科技,2022,35(13):58-60.
10罗芳,艾廷华,贾小斌.空间自相关支撑下的地类分布模式一致性评价[J].武汉大学学报（信息科学版）,2022,47(7):1017-1024. 被引量：6

1石油按产品类别划分的世界各区域消费量[J].世界石油工业,2017,24(4):70-72.
2李素姝,王士同,李滔.基于双模糊信息的特征选择算法[J].计算机科学与探索,2017,11(12):1993-2003. 被引量：1
3Maryam Banaei,AIi Ahmad,Abbas Yazdanfar.Application of AI methods in the clustering of architecture interior forms[J].Frontiers of Architectural Research,2017,6(3):360-373. 被引量：3
4谢远武.对“能量流动”若干问题的分析[J].中学生物教学,2017,0(7X):63-64.
5康艳芳,郭新菊,李大鹏,李旭阳,陈艳华.基于模糊综合评价法的输变电工程环境效益后评价[J].中国管理信息化,2017,20(24):96-97. 被引量：3
6彭传意.计算机网络云计算探析[J].电子技术与软件工程,2017(24):19-19.
7李润青,谢明鸿,黄冰晶.一种基于初始点密度最大的改进型ISODATA聚类算法[J].软件导刊,2017,16(12):94-98. 被引量：7
8吴玉琳.试论英语文学中美学的模糊性与翻译[J].纳税,2017,11(23):147-148. 被引量：2
9苏适,李红萍,严玉廷,陆海,王飞,任惠,N.A.Engerer,米增强.服务于区域光伏预测的天空图像K-means云空辨识模型[J].华北电力大学学报（自然科学版）,2017,44(6):61-68.
10徐伟杰,江雄,张吴蔚.基于灵敏度分析的刀形天线有限元模型修正[J].电子机械工程,2017,33(4):62-64. 被引量：1

中国科学：信息科学

2017年第11期

浏览历史

内容加载中请稍等...

一种基于优化模型的演化数据流聚类方法被引量：13

参考文献1

二级参考文献2

共引文献2

同被引文献46

引证文献13

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种基于优化模型的演化数据流聚类方法 被引量：13

参考文献1

二级参考文献2

共引文献2

同被引文献46

引证文献13

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

一种基于优化模型的演化数据流聚类方法被引量：13