基于K-means与ChiMerge算法的数据离散化比较研究被引量：1

Comparative research of data discretization based on K-means and ChiMerge algorithm

下载PDF

导出

摘要许多机器学习算法要求变量为离散量,例如决策树、贝叶斯网络等。当出现变量为连续变量的情况时,需要对连续变量进行离散化处理。离散化直接影响了算法的处理效果,其对整个算法模型具有重大意义。文中提出了两种离散化方式,一种是改进的K-means(K均值聚类)离散化算法,其能确定最佳聚类数并在无监督的条件下进行离散化,一种是传统的有监督离散化算法ChiMerge,使用两种方法对数据集进行离散化处理,然后分别建立贝叶斯网络并且进行预测分析,比较二者的离散化结果。实验表明,相对于改进的K-means算法,ChiMerge的离散化效果更好,但处理效率明显低于前者。 Many machine learning algorithms require variables to be discrete,such as decision trees and Bayesian networks.When the variable is a continuous variable,the continuous variable needs to be discretized.Discretization directly affects the processing effect of the algorithm,which is of great significance to the entire algorithm model.Two discretization methods are proposed.One is an improved K-means(K-means clustering)discretization algorithm,which can determine the optimal number of clusters and perform discretization under unsupervised conditions.The other is traditional ChiMerge,which is supervised discretization algorithm.Two methods are used to discretize the data set,and then establishes a Bayesian network and performs predictive analysis to compare the discretization results of the two.Experiments show that,compared with the improved K-means algorithm,ChiMerge’s discretization effect is better,but the processing efficiency is significantly lower than the former.

作者李浩魏明 LI Hao;WEI Ming(Wuhan Research Institute of Posts and Telecommunications,Wuhan 430070,China;Wuhan Fiberhome Technology Service Co.,Ltd.,Wuhan 430074,China)

机构地区武汉邮电科学研究院武汉烽火技术服务有限公司

出处《信息技术》 2020年第11期121-124,131,共5页 Information Technology

关键词离散化 K-MEANS ChiMerge 贝叶斯网络 discretization K-means ChiMerge Bayesian network

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1桑雨,李克秋,闫德勤.基于改进χ2统计的数据离散化算法[J].大连理工大学学报,2012,52(3):443-447. 被引量：4
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
3解亚萍.基于统计相关系数的数据离散化方法[J].计算机应用,2011,31(5):1409-1412. 被引量：5
4边鹏,赵妍,苏玉召.一种改进的K-means算法最佳聚类数确定方法[J].现代图书情报技术,2011(9):34-40. 被引量：12
5徐盈盈,钟才明.基于集成学习的无监督离散化算法[J].计算机应用,2014,34(8):2184-2187. 被引量：5
6周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：145
7谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
8刘晓明,李盼池,刘显德,肖红.贝叶斯网络参数学习中的连续变量离散化方法研究[J].计算机与数字工程,2018,46(5):992-996. 被引量：9

二级参考文献59

1姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
2谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
4CALINSKI R,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1 -27.
5DAVIES D L,BOULDIN D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,1(2):224-227.
6DUDOIT S,FRIDLYAND J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002,3(7):1-21.
7DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An examination of indexes for determining the number of cluster in binary data sets[J].Psychometrika,2002,67(1):137-160.
8KAPP A V,TIBSHIRANI R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.
9ROUSSEEUW P J.Silhouettes:a graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational and Applied Mathematics,1987,20(1):53 -65.
10DEMB(E)L(E) D,KASTNER P.Fuzzy C-means method for clustering microarray data[J].Bioinformatics,2003,19(8):973-980.

共引文献1370

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献11

1鲍振兴,曾丽萍.高校大学生就业创业教育亟待转变的几种方式[J].福建农林大学学报（哲学社会科学版）,2011,14(1):97-99. 被引量：18
2李毅,胡建成.一种面向混合属性数据的邻域粒离群点检测[J].小型微型计算机系统,2020,41(4):855-860. 被引量：8
3刘宝,冯巨龙,宋树鹏,叶会会.一种基于参数自整定的小波去噪算法研究[J].控制工程,2020,27(3):444-450. 被引量：13
4尚家泽,安葳鹏,郭耀丹.基于阈值的BIRCH算法改进与分析[J].重庆邮电大学学报（自然科学版）,2020,32(3):487-494. 被引量：7
5邓一星.云计算环境下自适应随机数据组合分类算法[J].计算机仿真,2020,37(7):281-284. 被引量：1
6王永贵,郭昕彤.SparkSql上自适应数据集的高效频繁集挖掘算法[J].计算机工程与应用,2020,56(21):72-78. 被引量：6
7郭勇,潘力.结合有向图模型和改进Bandlet变换的图像去噪算法[J].信息技术,2020,44(12):22-27. 被引量：7
8张晓晗,冯爱民.基于经验模态分解和长短期记忆神经网络的短期交通流量预测[J].计算机应用,2021,41(1):225-230. 被引量：22
9林霄,姬硕,岳胜男,孙卫强,胡卫生.面向跨数据中心网络的节点约束存储转发调度方法[J].计算机研究与发展,2021,58(2):319-337. 被引量：12
10李一杨,熊冬梅.大数据时代高校学生信息化管理数据挖掘系统[J].信息技术,2021,45(8):48-52. 被引量：12

引证文献1

1马薏雯.基于数据挖掘的大学生就业指导资源挖掘方法[J].信息技术,2024,48(2):128-131.

1李浪,刘波涛.Surge:一种新型、低资源、高效的轻量级分组密码算法[J].计算机科学,2018,45(2):236-240. 被引量：5
2吴其,黄小红,马严,丛群.复合型日志的模板提取方法[J].浙江大学学报（工学版）,2020,54(8):1557-1561.
3张捍东,骆正磊,吴玉秀,邵伟伟.基于模型辨识的气体信息快速感知[J].仪器仪表学报,2018,39(11):163-171. 被引量：3
4白云.让英语课因创意而充满乐趣[J].课程教材教学研究（教育研究）,2020(5):86-86.
5汤艳君,苏梅,许彩滇,屈丽.利用Doc2Vec及改进K-means聚类实现文本取证分析[J].中国刑警学院学报,2020(4):115-121. 被引量：3
6刘磊.稍纵即逝的电波[J].天文爱好者,2020(9):43-46.
7刘娜,薛河儒,马学磊.基于改进K-means的羊体点云分割方法[J].江西农业大学学报,2020,42(5):1078-1086. 被引量：3
8王新,乔文文.基于云平台的用户隐式需求分析方法研究[J].机械设计与研究,2020,36(5):8-11. 被引量：5
9董家顺,王兴东,李殿杰,汤勃,李震.基于改进K-means算法的钢管表面缺陷视觉检测方法[J].武汉科技大学学报,2020,43(6):439-446. 被引量：21

信息技术

2020年第11期

浏览历史

内容加载中请稍等...

基于K-means与ChiMerge算法的数据离散化比较研究被引量：1

参考文献8

二级参考文献59

共引文献1370

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K-means与ChiMerge算法的数据离散化比较研究 被引量：1

参考文献8

二级参考文献59

共引文献1370

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K-means与ChiMerge算法的数据离散化比较研究被引量：1