结合缺失模式的不完整数据模糊聚类被引量：4

Fuzzy Clustering Algorithm for Incomplete Data Considering Missing Pattern

下载PDF

导出

摘要数据的完整性是数据可用性的重要维度。由于数据采集等过程中存在的问题,现实中的数据往往存在缺失。现有的聚类算法在面对不完整数据时一般采用忽略缺失或填补缺失的策略,但是当数据缺失属于非随机缺失时,这样的处理策略会导致聚类精度严重下降。当数据缺失属于非随机缺失时,数据缺失模式与缺失属性的取值相关,因此在不完整对象的相似度量中加入缺失模式相似的度量,提出了两种结合缺失模式的PCM(Possibilistic c-means)模糊聚类算法:最小化缺失模式距离之和的PatDistPCM算法和基于缺失模式聚类的PatCluPCM算法。在两个公开数据集上的实验证明,考虑缺失模式的模糊聚类PatDistPCM和PatCluPCM算法,在对存在非随机缺失的数据进行聚类时,能有效提高聚类结果的准确性。 Data integrality is an important metric for data availability.For the problems in data acquisition,datasets in real world are always incomplete.Missing data are usually ignored or imputed in common clustering algorithm.When data missing is missing not at random,ignorance or imputation will result poor clustering accuracy.Considering the relationship of the data missing pattern and the missing value,two PCM(Possibilistic c-means)clustering algorithms were proposed:PatDistPCM based on minimizing the sum of missing pattern distance and PatCluPCM based on missing pattern clustering.The experiments on public datasets show that the two proposed fuzzy clustering algorithms PatDistPCM and PatCluPCM can improve clustering precision and recall when clustering data are of missing not at random.

作者郑奇斌刁兴春曹建军 ZHENG Qi-bin;DIAO Xing-chun;CAO Jian-jun(College of Command Information System,PLA University of Science and Technology,Nanjing210007;Nanjing Telecommunication Technology Institute,Nanjing210007,China)

机构地区解放军理工大学指挥信息系统学院南京电讯技术研究所

出处《计算机科学》 CSCD 北大核心 2017年第12期58-63,共6页 Computer Science

基金国家自然科学基金(61371196)资助

关键词数据完整性模糊聚类非随机缺失缺失模式可能性c-均值算法 Data integrality,Fuzzy clustering ,MNAR ,Missing pattern, Possibilistic c-means

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1谷峪,于戈,李晓静,王义.基于动态概率路径事件模型的RFID数据填补算法[J].软件学报,2010,21(3):438-451. 被引量：25

二级参考文献1

1谷峪,于戈,张天成.RFID复杂事件处理技术[J].计算机科学与探索,2007,1(3):255-267. 被引量：54

共引文献24

1吴爱华.多固定阅读器下基于路径约束的RFID数据清洗算法[J].计算机研究与发展,2011,48(S3):282-289. 被引量：5
2孙知信,骆冰清,罗圣美,朱洪波.一种基于等级划分的物联网安全模型[J].计算机工程,2011,37(10):1-7. 被引量：18
3聂艳明,李战怀,陈群.针对不确定射频识别数据流的改进概率推导方法[J].西安交通大学学报,2011,45(12):45-52. 被引量：3
4王霞,赵龙,夏秀峰.基于位置近邻的RFID路径聚类算法[J].沈阳航空航天大学学报,2012,29(2):46-50.
5程开富,刘心莲.HWLPCVD多晶硅薄膜的制备及性能分析[J].四川真空,2000(1):23-23.
6武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8):1726-1738. 被引量：62
7戚湧,胡军,李千目.面向RFID数据处理的复杂事件模式匹配方法[J].计算机科学,2013,40(1):73-76. 被引量：9
8龚华明,阴躲芬.RFID中间件复杂事件处理模型[J].计算机与现代化,2013(9):232-235. 被引量：1
9张昕,程人青,宋宝燕.基于事件约束的RFID复合事件误检处理[J].计算机工程与应用,2014,50(1):130-133. 被引量：1
10赵会群,樊火生.RFID物联网中EPC数据抽象与解析方法研究[J].计算机应用与软件,2014,31(6):32-36. 被引量：3

同被引文献28

1李武翰,魏东兴,王建国,刘军民.基于BP网络和多抽样率处理的缺失音频信号恢复方法[J].大连理工大学学报,2004,44(5):729-732. 被引量：2
2李建更,郭庆雷,贺益恒.时序基因表达缺失值的加权双向回归估计算法[J].数据采集与处理,2013,28(2):136-140. 被引量：4
3范雪莉,冯海泓,原猛.基于互信息的主成分分析特征选择算法[J].控制与决策,2013,28(6):915-919. 被引量：105
4戴明锋,金勇进,查奇芬,刘寅飞.二分类Logistic回归插补法及其应用[J].数学的实践与认识,2013,43(21):162-167. 被引量：7
5沈媛媛,严严,王菡子.有监督的距离度量学习算法研究进展[J].自动化学报,2014,40(12):2673-2686. 被引量：23
6曹卫东,白亮,聂笑盈.基于Map/Reduce的民航高价值旅客发现方法[J].计算机工程与设计,2015,36(4):1078-1083. 被引量：5
7李湘滨,郑芸,熊国民.面向民航开放平台的主数据识别与管理[J].计算机与数字工程,2015,43(7):1304-1307. 被引量：5
8卜范玉,陈志奎,张清辰.基于聚类和自动编码机的缺失数据填充算法[J].计算机工程与应用,2015,51(18):13-17. 被引量：7
9毛玫静,鄂旭,谭艳,杨明婧.基于属性相关度的缺失数据填补算法研究[J].计算机工程与应用,2016,52(6):74-79. 被引量：9
10吕洪艳,刘芳.基于组合核函数SVM的文本主题识别[J].微型电脑应用,2016,32(5):73-76. 被引量：2

引证文献4

1牛明航.不完备数据的反馈式极限学习机填充算法[J].电子技术与软件工程,2019(3):145-145. 被引量：1
2李国,袁闻,王怀超.面向不完备数据的民航旅客流失预测模型[J].计算机工程与设计,2020,41(10):2884-2891. 被引量：2
3林枫,蔡延光,蔡颢,张丽.基于布谷鸟算法优化K_means聚类的缺失数据填充算法[J].自动化与信息工程,2020,41(6):13-17. 被引量：5
4李国,袁闻,王怀超.融合多任务深度学习与主动学习的民航常旅客缺失数据填补[J].计算机应用与软件,2022,39(8):21-27.

二级引证文献8

1刘天时,吴琼.基于矩阵填充的众包学习模型研究[J].软件,2019,40(4):159-161.
2程亮.基于随机森林的基坑监测数据填补对比研究[J].城市地质,2021,16(4):466-473. 被引量：2
3张珍珍,贺兴时,于青林,杨新社.融合正弦余弦和种群初始化策略的布谷鸟算法[J].纺织高校基础科学学报,2021,34(4):102-109. 被引量：3
4汪广明,何滔,熊玺,卢玉龙,王明涛.基于改进循环神经网络的多数据流缺失值估计[J].粘接,2022(2):108-111. 被引量：1
5杜婧涵,胡明华,尹嘉男.基于链式方程多重插补的机场场面数据补全[J].航空计算技术,2022,52(5):1-4.
6陈红.基于改进K-means的电能表时钟异常状态智能检测方法[J].信息与电脑,2023,35(2):67-69. 被引量：1
7王泽荣,蔡延光.半失能老人远程健康监测大数据缺失处理[J].电子技术与软件工程,2023(3):204-207.
8范士雄,赵泽宁,郭剑波,马士聪,王铁柱,李东琦.数据驱动的电力系统暂态稳定评估方法综述[J].中国电机工程学报,2024,44(9):3408-3428. 被引量：1

1周磊,丁玉平.猪繁殖与呼吸综合征病毒类NADC30毒株的新近流行[J].中国猪业,2017,12(11):20-23. 被引量：7
2黄青平,李玉娇,刘松,刘鹏.基于模糊聚类与随机森林的短期负荷预测[J].电测与仪表,2017,54(23):41-46. 被引量：26
3裴杨,瞿学鑫,郭晓博,段丁阳.基于node2vec的社交网络用户属性补全攻击[J].信息网络安全,2017(12):67-72. 被引量：3
4任艳多,胡伟,孙瑶.面向大规模数据检索的哈希学习研究进展[J].无线通信技术,2017,26(4):21-25. 被引量：1
5熊招,陈辉发.“一带一路”与我国会计准则国际趋同程度探析[J].财会通讯（上）,2018,0(2):115-118. 被引量：1
6吴为,郑婵娇,陈思秇,闻剑,陈子慧,彭接文.《基于供应链和BP神经网络的区域性食品安全状况评价指标体系》研制说明[J].食品安全导刊,2018(3):8-11. 被引量：1
7杨自然.浅谈水准测量中应注意的问题及水准测量误差控制[J].城市建设理论研究（电子版）,2017,7(35):91-91.
8王智博,林意,曹洋洋.基于系数矩阵弧微分的时间序列相似度量[J].计算机工程,2018,44(2):9-16.
9宋轲,杜世昌,奚立峰,任斐,梁鑫光.基于集合经验模态分解和模糊集的异质信号融合方法研究[J].机械设计与研究,2017,33(6):15-20. 被引量：3
10赵凤,侯宣羽.基于粒子群优化的区间二型模糊聚类图像分割[J].西安邮电大学学报,2017,22(5):44-49. 被引量：5

计算机科学

2017年第12期

浏览历史

内容加载中请稍等...

结合缺失模式的不完整数据模糊聚类被引量：4

参考文献1

二级参考文献1

共引文献24

同被引文献28

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

结合缺失模式的不完整数据模糊聚类 被引量：4

参考文献1

二级参考文献1

共引文献24

同被引文献28

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

结合缺失模式的不完整数据模糊聚类被引量：4