GA-SVM算法在文本分类中的应用研究被引量：12

Research of Text Categorization Based on Genetic Algorithm and Support Vector Machine

下载PDF

导出

摘要文本特征维数通常高达几万且特征之间存在大量冗余和不相关信息,从而导致传统的分类方法效率低、分类准确率低。为了提高文本分类的快速性和准确性,提出了一种遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。把文本特征组合看作遗传算法中一个染色体,并进行二进制编码,将支持向量机分类准确率作为遗传算法的适应度函数,对每一个个体适应度的评价,通过选择、交叉和变异的遗传操作,得到文本最优特征,最后通过支持向量机利用最优特征进行分类。对复旦大学中文文本分类库进行仿真实验,实验结果表明,相对于传统的文本分类方法,能够快速地得到最优分类特征子集,大大提高文本分类的准确率,在文本挖掘中具有较好的应用前景。 In text categorization ,one problem is usually confronted with feature spaces containing 10,000 dimen- sions and more, even exceeding the number of available training samples, the precision is always difficult to be im- proved. In order to enhance operating speed and reduce memory space occupied, a feature selection method based on genetic algorithm and support vector machine is presented. In this algorithm, a feature combination is regarded as a chromosome which is then performed with binary code, and support vector machine precision set density is considered as the fitness function to evaluate the fitness of individual feature. By the operations of selection, crossover and mutation,the optimal feature set can rapidly be obtained.. The improved genetic algorithm is applied to the example of categorization data for feature optimization simulation. It is proved that this method can obtain the subset of the features which contribute to pattern classification. With the result that fault diagnosis accuracy and computational efficiency have been improved, It is a good prospect in text mining.

作者宋淑彩庞慧丁学钧

机构地区河北建筑工程学院计算机系

出处《计算机仿真》 CSCD 北大核心 2011年第1期222-225,共4页 Computer Simulation

关键词文本分类遗传算法支持向量机特征选择 Text categorization Genetic algorithm （GA） Support vector machine （ SVM ） Feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48
2朱明,王俊普,蔡庆生.一种最优特征集的选择算法[J].计算机研究与发展,1998,35(9):803-805. 被引量：21
3胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
4潘有能.一个自动分词分类系统的实现[J].情报学报,2002,21(1):38-41. 被引量：14
5巩知乐,张德贤,胡明明.一种改进的支持向量机的文本分类算法[J].计算机仿真,2009,26(7):164-167. 被引量：37
6解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35

二级参考文献23

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
3卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
4Yang Yiming, Pederson Jan O. A comparative study on feature selection in text categorization [A]. Proceedings of the 14th International Conference on Machine learning[C]. Bled: Morgan Kaufmann, 1997: 258-267.
5Liu Tao, Liu Shengping, Chen Zheng. An evaluation on feature selection for text clustering [A]. Proceedings of the 20th International Conference on Machine learning[C]. Washington DC:2003.
6Xiang,Jing-cheng,Wang Yi-qing.Singal Detection and Estimation.Beijing: Electronics Industry Press,1994.165～166 (in Chinese).
7Lam,W.,Ruiz,M.,Srinivasan,P.Automatic text categorization and its application to text retrieval.IEEE Transactions on Knowledge and Data Engineering,1999,11(6):865～879.
8Chute,C.G.An example based mapping method for text categorization and retrieval.ACM Transactions on Information System,1994,12(3):252～277.
9Cohen,W.W.,Singer,Y.Context-Sensitive learning methods for text categorization.ACM Transactions on Information System,1999,17(2):141～173.
10Turle,H.,Croft,B.Evaluation of an inference network net-based retrieval model.ACM Transactions on Information System,1991,9(3):187～222.

共引文献166

1卢义峰,张功员.医学文献汉语自动分词技术—单汉字切分[J].预防医学情报杂志,2006,22(5):575-576.
2丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
3顾军华,周艳聪,宋洁.基于遗传算法的最小约简算法研究[J].河北科技大学学报,2001,22(3):94-97. 被引量：1
4雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
5高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7纪蔚蔚.基于Web引文索引数据库建设方略[J].现代图书情报技术,2004(12):45-50. 被引量：1
8潘有能,纪蔚蔚.中国警察科学引文索引系统的设计与实现[J].情报学报,2004,23(6):703-708. 被引量：1
9吴春玉.中文全文检索系统中实现主题词标引思路[J].情报杂志,2005,24(1):115-116. 被引量：4
10卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16

同被引文献78

1熊忠阳,刘道群,张玉芳.用改进的遗传算法训练神经网络构造分类器[J].计算机应用,2005,25(1):31-34. 被引量：19
2郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
3王福林,王吉权,吴昌友,吴秋峰.实数遗传算法的改进研究[J].生物数学学报,2006,21(1):153-158. 被引量：30
4任江涛,孙婧昊,黄焕宇,印鉴.一种基于信息增益及遗传算法的特征选择算法[J].计算机科学,2006,33(10):193-195. 被引量：18
5陈晓锋,张凌,董守斌.基于XPath比较的Web数据抽取方法[J].郑州大学学报（理学版）,2007,39(2):161-166. 被引量：4
6廖瑞金,犹登亮,周湶,刘玲.交联聚乙烯电缆局部放电灰度图像的模式识别[J].高压电器,2007,43(2):85-87. 被引量：13
7许新征.一种结构自适应的径向基函数神经网络[J].计算机工程与应用,2007,43(14):75-76. 被引量：3
8邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
9牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
10刘超.中文网页自动分类研究及分类算法的设计与实现.中国科技论文在线,2003,:1-2.

引证文献12

1喻春萍,黄晓霞.基于CFS-GA特征选择算法的中文网页自动分类[J].上海海事大学学报,2012,33(1):77-81. 被引量：2
2崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
3刘斌,张晓婧.Web信息抽取系统的设计[J].微型电脑应用,2013(3):8-10. 被引量：2
4廖周宇,谢晓兰,刘建明.云计算环境下基于SVM的数据分类[J].桂林理工大学学报,2013,33(4):765-769. 被引量：7
5徐旭东,王群,孔令韬.智能医疗系统中GA_SVM特征选择和参数优化[J].计算机系统应用,2015,24(3):226-230.
6谭光兴,刘臻晖.基于SVM的局部潜在语义分析算法研究[J].计算机工程与科学,2016,38(1):177-182. 被引量：3
7陈珂,柯文德,刘美,张良均.一种基于多类别信息的局部潜在语义分析算法研究[J].南京邮电大学学报（自然科学版）,2016,36(1):119-124. 被引量：2
8伍永豪,柯赟,杨华勇.基于多类别相关度的潜在语义挖掘算法[J].计算机工程与设计,2016,37(7):1817-1821.
9胡晓黎,张皓,段玉兵,杨波,孙晓斌.基于参数优化SVM算法的交联电缆局部放电模式识别[J].电气应用,2017,36(3):78-82. 被引量：3
10陈俊梅,周晋阳,张慧英.基于改进GA-SVM的智能推荐诊断挂号算法[J].现代电子技术,2017,40(11):115-118. 被引量：2

二级引证文献116

1韩祥民,刘晓波,徐邦贤,邱知,唐辉.基于CEEMD与GWO-SVM算法的配电网高阻接地故障选线方法[J].智能计算机与应用,2021,11(12):143-148. 被引量：2
2王琳.主体参与扎实训练──第八册《基础训练7》教学设计[J].小学语文教学,2000(6):56-56.
3秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,21(31):9422-9426. 被引量：17
4蔡永铭,谷凌雁.基于社交网络监测药品不良反应[J].医学信息学杂志,2014,35(4):52-54. 被引量：1
5汪少敏,杨迪,任华.基于深度学习的文本分类系统关键技术研究与模型验证[J].电信科学,2018,34(12):117-124. 被引量：11
6冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
7武建军,罗文龙.基于SVM的热点话题跟踪实现过程研究[J].信息安全与技术,2016,7(3):21-23.
8李优柱,李崇光,李谷成.我国蔬菜价格预警系统研究[J].农业技术经济,2014(7):79-88. 被引量：20
9于飞,李红莲,吕学强.基于支持向量机的文本分类技术[J].无线互联科技,2014,11(8):185-186.
10梅笑冬,王彪,朱哲,赵培陆,胡小龙,卢革宇.基于支持向量机的香水识别电子鼻系统设计[J].吉林大学学报（信息科学版）,2014,32(4):355-360. 被引量：4

1牧马人.一个密码畅游互联网[J].计算机应用文摘,2012(5):25-25.
2陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
3崔彩霞,王素格.基于粗集的支持向量机文本分类方法研究[J].科技广场,2006(8):4-6. 被引量：1
4崔彩霞,张朝霞.文本分类方法对比研究[J].太原师范学院学报（自然科学版）,2007,6(4):52-54. 被引量：5
5朱彦廷.基于遗传算法的关联规则挖掘[J].西昌学院学报（自然科学版）,2010,24(3):60-62. 被引量：1
6傅景广,许刚,王裕国.基于遗传算法的聚类分析[J].计算机工程,2004,30(4):122-124. 被引量：49
7曾璐璐.基于GA-SVM的图像分割方法研究[J].软件导刊,2016,15(4):182-184.
8陈灿华,宓詠.复旦大学:集中式日志系统让数据挖掘更深入[J].中国教育网络,2013(9):39-41.
9李幼平.WEB应用中产生大量不同随机数的方法[J].武汉工业学院学报,2010,29(1):64-66. 被引量：1
10朱亦斌,马亮.数据挖掘关联规则算法探讨[J].管理信息系统,2000(3):58-61.

计算机仿真

2011年第1期

浏览历史

内容加载中请稍等...

GA-SVM算法在文本分类中的应用研究被引量：12

参考文献6

二级参考文献23

共引文献166

同被引文献78

引证文献12

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

GA-SVM算法在文本分类中的应用研究 被引量：12

参考文献6

二级参考文献23

共引文献166

同被引文献78

引证文献12

二级引证文献116

相关作者

相关机构

相关主题

浏览历史

GA-SVM算法在文本分类中的应用研究被引量：12