改进的最大熵权值算法在文本分类中的应用被引量：8

Research of Text Categorization Based on Improved Maximum Entropy Algorithm

下载PDF

导出

摘要由于传统算法存在着特征词不明确、分类结果有重叠、工作效率低的缺陷,为了解决上述问题,提出了一种改进的最大熵文本分类方法。最大熵模型可以综合观察到的各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。提出的方法充分结合了均值聚类和最大熵值算法的优点,算法首先以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用均值聚类算法对最优特征进行分类。经过实验论证,所提出的新算法能够在较短的时间内获得分类后得到的特征集,大大缩短了工作的时间,同时提高了工作的效率。 This paper discussed the problems in text categorization accuracy.In traditional text classification algorithm,different feature words have the same affecte on classification result,and classification accuracy is lower,causing the increase algorithm time complexity.Because the maximum entropy model can integrated various relevant or irrelevant probability knowledge observed,the processing of many issues can achieve better results.In order to solve the above problems,this paper proposed an improved maximum entropy text classification,which fully combines c-mean and maximum entropy algorithm advantages.The algorithm firstly takes shannon entropy as maximum entropy model of the objective function,simplifies classifier expression form,and then uses c-mean algorithm to classify the optimal feature.The simulation results show that the proposed method can quickly get the optimal classification feature subsets,greatly improve text classification accuracy,compared with the traditional text classification.

作者李学相

机构地区郑州大学软件技术学院

出处《计算机科学》 CSCD 北大核心 2012年第6期210-212,共3页 Computer Science

基金国家高技术研究发展计划(2007AA010408)资助

关键词文本分类最大熵算法均值聚类特征选择 Text classification Maximum entropy algorithm C-mean Feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Huang Zhe-xue, Michael K N, Rong hong-qiang, et al. Automa- ted Variable Weighting in k-Means Type Clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(5) : 657-668.
2刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48
3朱明,王俊普,蔡庆生.一种最优特征集的选择算法[J].计算机研究与发展,1998,35(9):803-805. 被引量：21
4胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
5潘有能.一个自动分词分类系统的实现[J].情报学报,2002,21(1):38-41. 被引量：14
6巩知乐,张德贤,胡明明.一种改进的支持向量机的文本分类算法[J].计算机仿真,2009,26(7):164-167. 被引量：37
7解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35
8韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
9杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报（工学版）,2003,37(5):521-527. 被引量：118
10罗印升,李人厚,张雷,刘芳.人工免疫算法在函数优化中的应用[J].西安交通大学学报,2003,37(8):840-843. 被引量：26

二级参考文献69

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
3陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
4卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
5杨延彬.免疫学及检验[M].北京：人民卫生出版社,1999.1-65.
6NIR FRIEDMAN, DAN GEIGER, MOISES GOLDSZMIDT. Bayesian Network Classifiers[ J]. Machine Learning, 1997, 29:131 - 163.
7Pat L, Wayne I, Kevin T. An Analysis of Bayesian Classifiers. In Proceeding of the Tenth National Conference on Artificial Intelligence[ M ]. San Jose : AAAI Press, 1992:223 - 228.
8Zijian Zheng,Geoffrey I W ,Kai Ming Ting. Lazy Bayesian Rules: A Lazy Semi-Naive Bayesian Learning Technique Competitive to Boosting Decision Trees[ C ]//the Proceeding of the Sixteenth International Conference on Machine Learning(ICML-99). [S.l.]:[s.n.], 1999:493-502.
9Ying Yang, Geoffrey I W. A Comparative Study of Discretization Methods for Naive-Bayes Classifiers [ C ]//The 2002 Pacific Rim Knowledge Acquisition Workshop. Tokyo : [ s. n. ] ,2002 : 159 - 173.
10Cerquides J , Ramom Lopez de Mantaras. The Indifferent Naive Bayes Classifier [ C ]//American Association for Artificial Intelligence. [ S. l. ] : [ s. n. ], 2003 : 341 - 345.

共引文献660

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4卢义峰,张功员.医学文献汉语自动分词技术—单汉字切分[J].预防医学情报杂志,2006,22(5):575-576.
5董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
6杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
7张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
8万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
9许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
10王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2

同被引文献62

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2高寅生.安全漏洞库设计与实现[J].微电子学与计算机,2007,24(3):99-101. 被引量：9
3杨淑莹.模式识别与智能计算[M].北京:电子工业出版社,2011.
4http://deeplearning.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity.
5Hinton G E.Learning multiple layers of representation.Trends in Cognitive Sciences,2007 ; (11):428-434.
6VAPNIK V. The nature of statistical learning theory [ M ]. New York : Springer-Verlag, 1995 : 112- 268.
7De LUCA A, TERMINI S. A definition of a nonprobabilities entropy in the setting of fuzzy set theory[ J ]. Inform and Control, 1972,20 (4) : 301-312.
8Zhi XB,Fan JL,Zhao F.Fuzzy linear discriminant analysisguided maximum entropy fuzzy clustering algorithm[J].Pattern Recognition,2013,46(6):1604-1615.
9Mirkin BG.Clustering:A data recovery approach[M].CRC Press,2012.
10Malliaros FD,Vazirgiannis M.Clustering and community detection in directed networks:A survey[J].Physics Reports,2013,533(4):95-142.

引证文献8

1秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,21(31):9422-9426. 被引量：17
2张鹏,谢晓尧.基于模糊熵特征选择算法的SVM在漏洞分类中的研究[J].计算机应用研究,2015,32(4):1145-1148. 被引量：3
3刘红光,马双刚,刘桂锋.基于降噪自动编码器的中文新闻文本分类方法研究[J].现代图书情报技术,2016(6):12-19. 被引量：8
4吴陈,许友权.点密度优选中心最大熵核FCM文本聚类算法[J].计算机工程与设计,2016,37(9):2411-2415. 被引量：3
5张素智,魏萍萍,徐家兴.面向聚类的堆叠降噪自动编码器的特征提取研究[J].现代计算机,2016,22(22):3-8. 被引量：2
6周达明,李黎.基于CNN-BiGRU模型的操作票自动化校验方法[J].广东电力,2020,33(9):58-65. 被引量：5
7陈旭,张弛,刘千宽,彭业,周达明,甄家林.基于深度语义学习的智能录波器自配置方法[J].电力系统保护与控制,2021,49(2):179-187. 被引量：9
8李铁成,任江波,刘清泉,耿少博,王志华,周达明.基于深度学习的智能录波器配置数据自动化映射方法[J].电测与仪表,2022,59(9):76-83. 被引量：8

二级引证文献52

1张建强,汪厚祥,杨红梅.基于自编码神经网络的高分辨率距离像降维法[J].解放军理工大学学报（自然科学版）,2016,17(1):31-37. 被引量：6
2江国荐,顾乃杰,张旭,任开新.基于SAE-LBP的网页分类研究[J].小型微型计算机系统,2016,37(4):738-742. 被引量：4
3杨洪余.基于稀疏编码器与集成学习的文本分类[J].科技创新与应用,2017,7(6):104-105. 被引量：1
4陈晔.关于软件设计可靠性自动化测试仿真研究[J].计算机仿真,2017,34(6):281-284. 被引量：10
5李森林,石元泉,黄隆华.一种基于SAE和BP网络相结合的人脸识别模型[J].怀化学院学报,2017,36(5):78-82. 被引量：3
6俸世洲,周尚波.基于深度自编码网络的高校招生咨询算法[J].计算机应用,2017,37(11):3323-3329. 被引量：2
7徐伟,冷静.网络主动防护下潜在漏洞溢出点检测方法仿真[J].计算机仿真,2018,35(3):389-392. 被引量：1
8邱爽,姜明洋,张智丰,卢奕南,裴志利.基于栈式降噪自动编码器的中文短文本分类[J].内蒙古民族大学学报（自然科学版）,2017,32(5):400-405. 被引量：1
9贾文娟,张煜东.自编码器理论与方法综述[J].计算机系统应用,2018,27(5):1-9. 被引量：24
10李程启,林颖,秦佳峰,李学钧,戴相龙,蒋勇.基于深度学习的输电线路危险源智能监控系统[J].南通大学学报（自然科学版）,2018,17(1):10-14. 被引量：6

1王文渊,王芳梅.改进的最大熵算法在图像分割中的应用[J].计算机仿真,2011,28(8):291-294. 被引量：11
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3胡茂海,谢仁龙,高万荣.薄雾模糊图像的恢复算法研究[J].红外技术,2004,26(6):76-78. 被引量：1
4靳其兵,王建辉,顾树生.基于CMAC的自适应控制方案[J].石油化工高等学校学报,1997,10(3):69-71. 被引量：4
5黄玮,刘卫民,王旭.基于遗传算法的BP网络最优权值算法[J].昆明冶金高等专科学校学报,2006,22(5):37-43. 被引量：1
6刘彩,王腾,王丽霞,邵玉斌.基于频谱感知的权值优化算法研究[J].昆明理工大学学报（自然科学版）,2016,41(3):71-75.
7邱俊,张瑞林.基于遗传算法的循环神经网络在销售预测中的应用[J].浙江理工大学学报（自然科学版）,2007,24(3):266-270. 被引量：7
8刘绍翰,武港山,张福炎.基于词条权值的相关反馈算法在Web信息检索中的应用[J].情报学报,2002,21(6):668-673. 被引量：4
9张爱科.基于改进的最大熵均值聚类方法在文本分类中的应用[J].计算机应用研究,2012,29(4):1297-1299. 被引量：4
10陈光,刘宗田.基于特征聚合与最大熵的文本分类算法[J].计算机应用与软件,2008,25(3):263-264. 被引量：2

计算机科学

2012年第6期

浏览历史

内容加载中请稍等...

改进的最大熵权值算法在文本分类中的应用被引量：8

参考文献11

二级参考文献69

共引文献660

同被引文献62

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

改进的最大熵权值算法在文本分类中的应用 被引量：8

参考文献11

二级参考文献69

共引文献660

同被引文献62

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

改进的最大熵权值算法在文本分类中的应用被引量：8