基于改进的最大熵均值聚类方法在文本分类中的应用被引量：4

Application of text categorization based on improved maximum entropy means clustering algorithm

下载PDF

导出

摘要针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。 In view of the traditional text classification algorithm has the problems of the characteristics having same influence on classification results,the low rate of classification accuracy,and the increasing of the algorithm time complexity,this paper presented an improved maximum entropy C-means clustering text classification methods.This method combined the C-means clustering algorithm and the maximum entropy algorithm,set Shannon entropy as a maximum entropy model in the target function,simplified classifier forms of expression,and then used the C-means clustering algorithm to the optimal features for classification.The simulation results show that,compared with traditional text classification methods,the proposed method can fast obtain the optimal classification feature subset,greatly improve the accuracy of text classification.

作者张爱科

机构地区柳州职业技术学院

出处《计算机应用研究》 CSCD 北大核心 2012年第4期1297-1299,共3页 Application Research of Computers

基金广西教育厅科研项目基金资助项目(200911LX486 201106LX745)

关键词文本分类最大熵 C-均值聚类特征选择 text classification maximum entropy C-means clustering feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1FORMAN G.An extensive empirical study of feature selection metricsfor text classification[J].Journal of Machine Learning Research,2003,3(1):1289-1305.
2余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
3刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
4张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
5孙荣宗,苗夺谦,卫志华,李文.基于粗糙集的快速KNN文本分类算法[J].计算机工程,2010,36(24):175-177. 被引量：22
6鲁婷,王浩,姚宏亮.一种基于中心文档的KNN中文文本分类算法[J].计算机工程与应用,2011,47(2):127-130. 被引量：17
7董乐红,耿国华,周明全.基于Boosting算法的文本自动分类器设计[J].计算机应用,2007,27(2):384-386. 被引量：13
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
9BERGER A L,PIETRA V J D,PIETRA S A D,et al.A maximum en-tropy approach to natural language processing[J].ComputationalLinguistics,1996,22(1):39-71.
10刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75

二级参考文献68

1王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
2胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
3袁方,苑俊英.基于类别核心词的朴素贝叶斯中文文本分类[J].山东大学学报（理学版）,2006,41(3):111-114. 被引量：12
4宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：42
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
6黄萱菁.大规模中文文本的检索、分类与摘要研究.复旦大学博士学位论文[M].,1998..
7王国胤,Rough集理论与知识获取[M].西安:西安交通大学出版社,1999.
8[1]Cortes C, Vapnik V. Support Vector Networks[J]. Machine Learning, 1995, 20(3):273-297.
9[2]Joachims T. Text Categorization With Support Vector Machines: Learning With Many Relevant Features[A]. Machine Learning: ECML-98, 10th European Conference on Machine Learning[C], 1998. 137-142.
10[3]Allwein E, Schapire R, Singer Y. Reducing multiclass to binary: A Unifying Approach for Margin Classifiers[J]. Journal of Machine Learning Research, 2000,2(1):113-141.

共引文献252

1李艳,刘信杰,胡学钢.数据挖掘中朴素贝叶斯分类器的应用[J].潍坊学院学报,2007(4):48-50. 被引量：2
2高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
3吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
4胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
5徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
6李嘉佑,何清,史忠植.机器学习与网络信息处理[J].计算机工程与应用,2004,40(33):189-191. 被引量：3
7陈文庆,李勤,姚伽华.基于最大熵模型的垃圾邮件过滤方法[J].网络安全技术与应用,2005(1):16-18. 被引量：1
8徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
9丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量：14
10万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11

同被引文献43

1高寅生.安全漏洞库设计与实现[J].微电子学与计算机,2007,24(3):99-101. 被引量：9
2董振东.[EB/OL].知网http://www.keenage.com,1999.
3杨淑莹.模式识别与智能计算[M].北京:电子工业出版社,2011.
4Crammer K, Gentile C. Multiclass classification with ban- dit feedback using adaptive regularization [ J ]. Machine Learning,2013,90:357 - 383.
5Wenbin Zheng, Lixin An, Zhanyi Xu. Dimensionality Re- duction by Combining Category Information and Latent Semantic Index for Text Categorization [ J]. Journal of In- formation & Computational Science, 2013,10 ( 8 ) : 2463 - 2469.
6Bin Zhang, Alex Marin, Brian Hutchinson. Learning Phrase Patterns for Text Classification [ J ]. IEEE Trans- actions on audio, speech, and language processing,2013, 21 (6) :1180 - 1189.
7Baccianella S, Esuli A, Sebastiani F. Using micro-docu- ments for feature selection: The case of ordinal text classi- fication [ J ]. Expert Systems with Applications, 2013,40 : 4687 - 4696.
8Djeddi C, Siddiqi I, Souici-Meslati L. Text-independent writer recognition using multi-script handwritten texts [ J ]. Pattern Recognition Letters,2013,34 : 1194 - 1202.
9刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算语言学及中文信息处理,2002,7:59-76.
10Bahojb I M, Reza K M, Reza A. A novel embedded fea- ture selection method:Acomparative study in the applica- tion of text categorization [ J ]. Applied Artificial Intelli- gence ,2013,27(5) :408 -427.

引证文献4

1李波,石慧霞,王毅.一种基于同义词发现的文本扩充算法[J].重庆理工大学学报（自然科学）,2014,28(2):76-81. 被引量：4
2刘晓蔚.基于等价类规则树的高效关联规则挖掘算法[J].计算机应用与软件,2015,32(1):313-315. 被引量：2
3张鹏,谢晓尧.基于模糊熵特征选择算法的SVM在漏洞分类中的研究[J].计算机应用研究,2015,32(4):1145-1148. 被引量：3
4张鹏,刘寅,栾国强,刘行,丁晓玉,程根.基于图约束和预聚类的主动学习算法在威胁情景感知中的研究[J].计算机应用研究,2017,34(5):1544-1547. 被引量：1

二级引证文献10

1程昌秀,杨山力,宋晓眉,王利军.空间约束对概念的提出与实现[J].地球信息科学学报,2015,17(9):1009-1013. 被引量：1
2黄庆宇,卢珞先.基于数据世系的微博信息管理与检索算法研究[J].计算机科学,2015,42(10):198-201. 被引量：1
3陈晨,张璐,伍之昂.词句协同排序的自动摘要算法[J].江苏大学学报（自然科学版）,2016,37(4):443-449. 被引量：5
4阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
5陈晔.关于软件设计可靠性自动化测试仿真研究[J].计算机仿真,2017,34(6):281-284. 被引量：10
6易黎,胡雅萌,彭艳兵.探索关联规则可视化的结构化关联映射图[J].计算机应用与软件,2017,34(12):68-70. 被引量：5
7黄贤英,熊李媛,刘英涛,李沁东.基于类别特征改进的KNN短文本分类算法[J].计算机工程与科学,2018,40(1):148-154. 被引量：23
8徐伟,冷静.网络主动防护下潜在漏洞溢出点检测方法仿真[J].计算机仿真,2018,35(3):389-392. 被引量：1
9施伟,黄红蓝,冯旸赫,刘忠.面向多类别分类问题的子抽样主动学习方法[J].系统工程与电子技术,2021,43(3):700-708. 被引量：1
10张敏,罗正华,黄建刚.一种结合EWT和成分分析的无线电指纹提取方法[J].计算机测量与控制,2019,27(4):128-133. 被引量：2

1李爱菊,钮文良,王廷梅.改进布鸟搜索算法最大熵值的医学图像分割[J].计算机仿真,2014,31(8):421-426. 被引量：7
2欧萍,贺电.遗传算法粒在二维最大熵值图像分割中的应用[J].计算机仿真,2011,28(1):294-297. 被引量：10
3张小琴,余列,李懿.基于PCNN模型的生物细胞图像分割[J].吉首大学学报（自然科学版）,2014,35(1):46-49. 被引量：2
4王文渊,王芳梅.改进的最大熵算法在图像分割中的应用[J].计算机仿真,2011,28(8):291-294. 被引量：11
5于霞霞,何朗,黄樟灿.基于模拟退火并行算法的二维熵多阈值分割[J].武汉理工大学学报,2015,37(1):116-120. 被引量：3
6刘艳鹤,刘振,刘迅廷,孟云.抖动模糊图像复原方法研究[J].中国印刷与包装研究,2014,6(5):37-43.
7刘辉,赵文杰,周健.一种自适应图像分割算法[J].四川兵工学报,2009,30(12):31-33. 被引量：2
8刘琼,史诺,申妙芳.基于区间二型模糊集的农田障碍物分割方法[J].国外电子测量技术,2016,35(4):81-84. 被引量：5
9林用满,林土胜.基于PID神经网络的后非线性盲源分离算法[J].数据采集与处理,2006,21(3):260-265. 被引量：1
10李学相.改进的最大熵权值算法在文本分类中的应用[J].计算机科学,2012,39(6):210-212. 被引量：8

计算机应用研究

2012年第4期

浏览历史

内容加载中请稍等...

基于改进的最大熵均值聚类方法在文本分类中的应用被引量：4

参考文献11

二级参考文献68

共引文献252

同被引文献43

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进的最大熵均值聚类方法在文本分类中的应用 被引量：4

参考文献11

二级参考文献68

共引文献252

同被引文献43

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进的最大熵均值聚类方法在文本分类中的应用被引量：4