基于K均值和马田系统的聚类分析方法被引量：11

Clustering Analysis Method Based on K-means and Mahalanobis-Taguchi System

下载PDF

导出

摘要传统聚类方法采用欧氏距离作为测量尺度,变量间的相关性会造成聚类结果失真。文章提出了K均值和马田系统相结合的聚类方法。首先对所有数据进行K均值聚类,生成K个初始类;其次对每个初始类采用基于稳健马氏距离的异常值检测方法剔除异常值,构建K个稳健马氏空间;最后计算每个数据在K个稳健马氏空间上的马氏距离,将其划入具有最小马氏距离值的类中。数值实验结果表明该方法能显著提高K均值聚类结果,与已有方法比较也表现出良好的聚类效果。 Traditional clustering methods take Euclidean distance as measurement scale,and the correlation between variables will cause the distortion of clustering results.This paper proposes a clustering method of combining K-means with Mahalanobis-Taguchi system.Firstly,K-means clustering is performed on all data to generate K initial classes.Then,the outlier detection method based on robust Mahalanobis distance is used for each initial class to eliminate the outliers,and K robust Mahalanobis spaces are constructed.Finally,the Mahalanobis distance of each data in K robust Mahalanobis spaces is calculated and classified into the class with the minimum Mahalanobis distance value.Numerical experiment results show that the proposed method can significantly improve the K-means clustering results,and also shows better clustering effect compared with the existing methods.

作者生志荣程龙生 Sheng Zhirong;Cheng Longsheng(School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China;Nanjing Normal University Taizhou College,Taizhou Jiangsu 225300,China)

机构地区南京理工大学经济管理学院南京师范大学泰州学院

出处《统计与决策》 CSSCI 北大核心 2021年第14期45-48,共4页 Statistics & Decision

基金国家自然科学基金资助项目(7127114)。

关键词马田系统 K均值聚类马氏空间稳健马氏距离 Mahalanobis-Taguchi system K-means clustering Mahalanobis space robust Mahalanobis distance

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献2

1王德青,朱建平,谢邦昌.主成分聚类分析有效性的思考[J].统计研究,2012,29(11):84-87. 被引量：46
2师耀龙,滕曼,李成,吴晓凤,柴文轩,杨婧,楚宝临,付强.应用稳健马氏距离评价实验室间比对能力考核[J].中国环境监测,2017,33(2):127-131. 被引量：7

二级参考文献15

1王进.聚类分析中的距离与变量选择[J].山西财经大学学报,2007,29(z1). 被引量：4
2王斌会,陈一非.基于稳健马氏距离的多元异常值检测[J].统计与决策,2005,21(03X):4-6. 被引量：8
3R. A. Fisher, The use of multiple measurement in taxonomic problems [ J ]. Annals of Eugenics, 1936 (7) : 179 - 188.
4A. K. JAIN,M. N. MURTY,P. J. FLYNN. Data Clustering:A Review [J]. ACM 31.3(Sep. 1999) :264 -323.
5何跃,杨磊,徐玖平.一种新的聚类判别分析框架及其实证研究[J].计算机应用研究,2007,24(12):32-36. 被引量：7
6殷瑞飞,朱建平.数据挖掘中一种新的聚类方法--基于对应分析与因子旋转[J].统计研究,2008,25(1):93-97. 被引量：11
7王劼,黄可飞,王惠文.一种函数型数据的聚类分析方法[J].数理统计与管理,2009,28(5):839-844. 被引量：17
8王德青.主成分聚类分析在矿井安全评价应用中的思考[J].中国矿业,2011,20(1):51-53. 被引量：11
9邢小茹,马小爽,田文,吴忠祥.实验室间比对能力验证中的两种稳健统计技术探讨[J].中国环境监测,2011,27(4):4-8. 被引量：58
10张兵,李翠莲.“金砖国家”通货膨胀周期的协动性[J].经济研究,2011,46(9):29-40. 被引量：30

共引文献51

1王丙参,刘鹤飞,魏艳华.改进的传统距离聚类方法及应用[J].统计与决策,2021,37(4):64-68. 被引量：10
2朱建平,王德青,方匡南.中国区域创新能力静态分析——基于自适应赋权主成分聚类模型[J].数理统计与管理,2013,32(5):761-768. 被引量：17
3王静宇,李翠平,李仲学.基于主成分聚类分析的煤层底板突水危险性预测[J].中国安全科学学报,2013,23(8):120-125. 被引量：12
4韩海.逼近法确定球形簇的球心与半径[J].江汉大学学报（自然科学版）,2013,41(5):62-64. 被引量：3
5王德青,朱建平.基于拓展聚类模型的区域创新能力层级划分研究[J].经济经纬,2014,31(1):8-13. 被引量：10
6魏瑾瑞.一类基于模型的聚类方法[J].统计与信息论坛,2014,29(2):19-22. 被引量：5
7王丹,贾跃玮,魏水建,郑文波.新场须四段叠后裂缝综合预测[J].物探与化探,2014,38(5):1038-1044. 被引量：6
8王德青,李凯风,周娇.主成分集成评价方法的问题探析与模型拓展[J].统计与决策,2015,31(2):4-8. 被引量：2
9王德青,朱建平,王洁丹.基于自适应权重的函数型数据聚类方法研究[J].数理统计与管理,2015,34(1):84-92. 被引量：14
10王德青,刘晓葳,朱建平.基于自适应迭代更新的函数型数据聚类方法研究[J].统计研究,2015,0(4):91-96. 被引量：18

同被引文献165

1管雪婷,石鸿雁.融合云模型优化萤火虫的K-mediods聚类算法[J].统计与决策,2021(5):34-39. 被引量：3
2刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：18
3王晶晶,焦勇,江三良.中国八大综合经济区技术进步方向的区域差异与动态演进:1978~2017[J].数量经济技术经济研究,2021,38(4):3-21. 被引量：27
4郭庆瑞,章政,黄卫华,李磊.基于Huber鲁棒估计的改进互补滤波姿态解算算法[J].电子测量与仪器学报,2022,36(3):157-165. 被引量：6
5何尧,梁宏池,连鸿松,许锐.基于滑动窗口和多元高斯分布的变压器油色谱异常值检测[J].高压电器,2020,56(1):203-209. 被引量：12
6张志劲,张翼,蒋兴良,胡建林,梁田.基于区域分割方法的绝缘子覆冰质量预测模型[J].高电压技术,2020,46(2):406-412. 被引量：14
7余晓岭,魏薇,杨忠直.技术开发项目评价方法研究[J].数量经济技术经济研究,1998,15(5):55-58. 被引量：4
8王婧,陈旭.考虑期权合同的生鲜农产品批发商的最优订货[J].系统工程理论与实践,2010,30(12):2137-2144. 被引量：24
9洪银兴.科技金融及其培育[J].经济学家,2011(6):22-27. 被引量：155
10曹颢,尤建新,卢锐,陈海洋.我国科技金融发展指数实证研究[J].中国管理科学,2011,19(3):134-140. 被引量：209

引证文献11

1吴建蓉,文屹,杨涛,吕黔苏,肖书舟,黄军凯.基于气象过程信息及指标遴选判据的电网覆冰灾害评估研究[J].电力大数据,2021,24(11):48-54. 被引量：5
2韩传峰,宋府霖,滕敏敏.长三角地区碳排放时空特征、空间聚类与治理策略[J].华东经济管理,2022,36(5):24-33. 被引量：20
3刘泽滨,吕辉,李用俊.安徽省科技金融发展水平测度研究[J].安徽理工大学学报（社会科学版）,2022,24(2):33-40. 被引量：1
4黄光球,赵羲轩,陆秋琴.基于KPCA-IF-WRF模型的多源VOCs数据清洗方法研究[J].安全与环境学报,2022,22(6):3412-3423. 被引量：6
5张念,徐建新,刘超.公立医院医师绩效评价研究[J].卫生经济研究,2023,40(3):80-85. 被引量：1
6郑欣.体验经济背景下四川特色旅游开发策略[J].成都工业学院学报,2023,26(3):76-80.
7杨成义,熊才权.高维空间数据灰色凸关联度聚类算法仿真[J].计算机仿真,2023,40(6):523-527.
8周海球,黄晓林,李维思,李贵龙,邬亭玉.基于MD-AHP的关键核心技术攻关任务甄选方法研究[J].情报杂志,2023,42(9):149-154. 被引量：3
9王宏杰,徐胜超.基于希尔伯特相似度的云平台异常传输数据聚类方法[J].计算机与现代化,2023(9):27-31.
10李珠月,赵培忻.供应及需求中断下农产品批发商弹性供应链设计研究[J].系统工程理论与实践,2024,44(2):595-611. 被引量：1

二级引证文献37

1张红生.印刷行业中VOCs光催化氧化技术的运用[J].当代化工研究,2022(9):90-92. 被引量：1
2徐叶净.大气VOCs产生途径追踪分析与精准防治研究[J].山西化工,2022,42(3):296-297. 被引量：1
3查道中,祁鹏.中国区域碳排放的影响因素及其空间溢出效应分析[J].淮北师范大学学报（哲学社会科学版）,2022,43(4):37-42. 被引量：1
4李乔楚,陈军华,唐荔.基于清单算法的区域能源系统碳排放特征——以四川省为例[J].天然气技术与经济,2022,16(5):50-56. 被引量：2
5杨柳青,毛先胤,黄欢,牛唯,曾华荣,张露松,蒋兴良.电力设备防除冰碳纤维复合元件的研究[J].电力大数据,2022,25(6):86-92.
6马玉超,张永林.基于多DEA-Gini的纺织业碳排放效率时空分异研究[J].武汉纺织大学学报,2022,35(6):15-23.
7黄丰.地铁车辆轮对实测廓形名义滚动圆修正方法[J].电子测试,2022,36(23):112-114.
8谢耕,吴莉萍,陈敏,黄子.成渝城市群碳排放时空格局演变与影响因素研究[J].环境影响评价,2023,45(3):68-75.
9张培毅,徐凯.500 kV超高压交流输电线路覆冰舞动探究[J].通信电源技术,2023,40(10):232-234.
10李月婷,王希龙,包晓斌.京津冀地区碳排放效率及减排路径研究[J].资源开发与市场,2023,39(8):973-980. 被引量：2

1江艳秋.基于融合马田系统的不平衡财务数据分类器研究[J].微型电脑应用,2021,37(8):147-149. 被引量：3
2曹宇嘉.数字化时代弥合“数字鸿沟”探析[J].新闻研究导刊,2021,12(14):82-84. 被引量：1
3程帅,米珂,李晓博,舒进,陈仓,兰昊,汪俊波.稳健最小二乘法在风电塔筒垂直度分析中的应用[J].热力发电,2021,50(9):152-159. 被引量：1

统计与决策

2021年第14期

浏览历史

内容加载中请稍等...

基于K均值和马田系统的聚类分析方法被引量：11

参考文献2

二级参考文献15

共引文献51

同被引文献165

引证文献11

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于K均值和马田系统的聚类分析方法 被引量：11

参考文献2

二级参考文献15

共引文献51

同被引文献165

引证文献11

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于K均值和马田系统的聚类分析方法被引量：11