遗传算法在改进文本特征提取方法中的应用被引量：18

Improvement of Text Feature Extraction with Genetic Algorithm

导出

摘要【目的】综合分析特征提取方法并对传统特征提取流程和方法进行改进。【方法】利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。【结果】改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。【局限】实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。【结论】加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。 [Objective] To comprehensively analyze many feature extraction methods and improve traditional feature extraction process. [Methods] Firstly, the paper uses feature pool to pre-extract features, then extract best feature set by genetic algorithm and group coding. [Results] When the fitness function uses KNN classification algorithm, the method using in this paper shows the best performance. Besides, the effect is more obvious with less feature dimensions. Simultaneously, the proposed method has better stability in text classification for different feature dimensions and corpuses. [Limitations] The corpus is not abundant enough. Only IG and CHI are used to extract features for feature pool construction. It ignores semantic relationships among words for group coding. The population size and the number of iteration in genetic algorithm are restricted by experimental conditions. [Conclusions] The stability of text classification is improved by adding a feature pool to pre-extract features. The result of text classification is more accurate by adding genetic algorithm in the text feature extraction. To use proposed method reduces overfitting of features and improves efficiency by utilizing group coding in the genetic algorithm.

作者路永和梁明辉

机构地区中山大学资讯管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2014年第4期48-57,共10页 New Technology of Library and Information Service

基金国家自然科学基金项目"面向文本分类的多学科协同建模理论与实验研究"(项目编号:71373291) 国家高技术研究发展计划(863计划)资助项目"农产品全供应链多源信息感知技术与产品开发"(项目编号:2012AA101701)的研究成果之一

关键词文本分类特征提取遗传算法特征池 Text categorization Feature extraction Genetic algorithms Feature pool

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1符发.中文文本分类中特征选择方法的比较[J].现代计算机,2008,14(6):43-45. 被引量：7
2肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
3高贤维,刘三民,王杰文.基于遗传算法和神经网络的特征提取[J].计算机与现代化,2008(4):23-26. 被引量：7
4路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(7):76-81. 被引量：6
5郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
6张志宏,寇纪淞,陈富赞,李敏强.基于遗传算法的顾客购买行为特征提取[J].模式识别与人工智能,2010,23(2):256-266. 被引量：8
7伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
8龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108. 被引量：5

二级参考文献122

1廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
2付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
5侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
6宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
7宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
8王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
9李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
10程泽凯 ,林士敏 .文本分类器稳定性评估研究[J].情报学报,2005,24(1):64-68. 被引量：3

共引文献55

1吕彦红,陈基漓,阮百尧.基于遗传算法的中文自动分类特征选择[J].山东理工大学学报（自然科学版）,2009,23(1):100-102.
2李敬兆,邓绘梅.自反馈BP网云计算信息融合算法及应用[J].华中科技大学学报（自然科学版）,2012,40(S1):316-319. 被引量：2
3白如江.基于粗糙集和RBF神经网络的文本自动分类方法[J].现代图书情报技术,2006(6):47-51. 被引量：3
4孙铁利,张妍,李晓微.文本挖掘中特征降维方法比较研究[J].电脑知识与技术,2008(1):201-204. 被引量：1
5白似雪,陆萍.一种基于文本分类的特征选择方法[J].南昌大学学报（工科版）,2008,30(1):87-90. 被引量：2
6张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报（自然科学版）,2008,26(3):181-184. 被引量：6
7龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108. 被引量：5
8张宏宇,刘宝旭.基于遗传算法的入侵检测特征选择[J].信息网络安全,2008(10):53-56. 被引量：2
9马春华,朱颢东.一种有效的特征词获取方法[J].计算机工程与应用,2009,45(17):129-132.
10石芙芙,董祥军,陈修宽.负关联规则在Web文档分类中的研究[J].信息化纵横,2009(13):1-3.

同被引文献177

1梁瑛楠,于小云.突发公共事件网络舆情政府监控体系构建研究[J].新闻研究导刊,2021,12(2):22-23. 被引量：4
2吕筱芬.档案自动标引的理论与实践[J].档案学研究,1988(4):36-40. 被引量：1
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
5娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
6伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
7梅家驹竺一鸣等.同义词词林[M].上海:上海辞书出版社,1993..
8管鹏玲,刘贵全.基于词汇链分析的英文自动文摘[J].计算机系统应用,2007,16(9):68-72. 被引量：3
9Liu I). lVng Z, Liu H, et al. Terhnology effect phrase extraction inChinese patent ahslrarl/Alhen 1“ Jia Y, Sellis T. et al. Web technologiesand applications, (lhangsha, China: Springer international publishing,2014:141 -152.
10Zhang (: L, /eng D, Li J X, et al. Senlimenl analysis of (ChinesedocumentsrFrom sentence to document level. J Am Soc Inf Sci Tec,2009,60(12):2474-2487.

引证文献18

1朱晋,怀丽波,崔荣一,尹慧.基于小波分析的特征提取文本分类方法研究[J].中文信息学报,2018,32(11):49-54. 被引量：8
2马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：1
3王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
4路永和,张宇楠.中文文本分类中基于和声搜索算法的特征选择方法[J].情报学报,2015,34(11):1203-1213. 被引量：5
5吴冰冰,哈力旦.阿布都热依木,阿丽亚.艾尔肯,何燕.人工鱼群优化的维吾尔文文本特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(6):46-50. 被引量：1
6路永和,陈泳珊.基于二进制烟花算法的特征选择方法[J].情报学报,2017,36(3):249-259. 被引量：5
7李志鹏,李卫忠.基于可拓小生境量子粒子群算法的特征选择[J].数据分析与知识发现,2017,1(7):82-89. 被引量：4
8李昌兵,庞崇鹏,李美平.基于权重的Apriori算法在文本统计特征提取方法中的应用[J].数据分析与知识发现,2017,1(9):83-89. 被引量：4
9孙方楠,梁后健,张课,胡贺军.基于改进遗传算法的电力通信网路由优化研究[J].自动化与仪器仪表,2018,0(6):25-28. 被引量：10
10温廷新,李洋子,孙静霜.基于改进的果蝇优化算法的文本特征选择优化模型[J].数据分析与知识发现,2018,2(5):59-69. 被引量：3

二级引证文献60

1陈娟,杨倩,文泉,刘歆浏,刘议聪.面向“挑战性课程”的多目标跟踪实验设计[J].实验技术与管理,2020,37(1):155-158. 被引量：3
2王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
3徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：6
4陈德成.土耳其的多党制半总统制政体[J].西亚非洲,2000(2):46-50. 被引量：8
5黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
6谢丽娜.2015年我国情报学研究进展[J].山东图书馆学刊,2016(6):21-28. 被引量：4
7孙新,欧阳童,严西敏,尚煜茗,郭文浩.基于训练集裁剪的加权K近邻文本分类算法[J].情报工程,2016,2(6):8-16. 被引量：7
8路永和,陈泳珊.基于二进制烟花算法的特征选择方法[J].情报学报,2017,36(3):249-259. 被引量：5
9张焕成,林正奎.词向量提取评论观点句方法研究[J].西部皮革,2017,39(10):271-273.
10关浩华.基于语音分析的智能质检关键词提取方法设计[J].自动化与仪器仪表,2017(7):106-108. 被引量：5

1高尚.背包问题的分布估计算法[J].中南大学学报（自然科学版）,2013,44(S2):165-168. 被引量：3
2雷贲,张专成,杨慧雅.一种基于量化抖动和分组编码的图像水印算法[J].计算机安全,2007(7):36-37.
3张倩,丁根宏.求解PDPTW的混合分组编码智能算法[J].重庆理工大学学报（自然科学）,2012,26(11):70-74. 被引量：1
4雷贲,张专成,杨慧雅.一种基于DWT的盲图像水印算法[J].计算机与现代化,2008(5):20-21. 被引量：1
5毕硕本,董学士,马燕.遗传算法和蚁群算法优化TSP的设计与分析[J].武汉理工大学学报,2010,32(16):89-92. 被引量：9
6方晓,董辉,孙士新,朱庆友.软件开发本体构建与模块化的应用研究[J].湖南工业大学学报,2013,27(1):71-76. 被引量：3
7刘丽莉,付东翔,王亚刚.一种图像自适应预测分组编码无损压缩方法[J].微电子学与计算机,2012,29(10):148-151. 被引量：1
8国管公积金出新规:9月起提取手续简化[J].城市住宅,2016,23(8):92-92.
9林卫星,张惠娣,刘士荣,钱积新.应用粒子群优化算法辨识Hammerstein模型[J].仪器仪表学报,2006,27(1):75-79. 被引量：22
10孙中华,许俊伟,古丽米拉.克孜尔别克.一种改进的SVM的昆虫图像检索算法及仿真[J].电子技术应用,2014,40(11):120-122. 被引量：1

现代图书情报技术

2014年第4期

浏览历史

内容加载中请稍等...

遗传算法在改进文本特征提取方法中的应用被引量：18

参考文献8

二级参考文献122

共引文献55

同被引文献177

引证文献18

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

遗传算法在改进文本特征提取方法中的应用 被引量：18

参考文献8

二级参考文献122

共引文献55

同被引文献177

引证文献18

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

遗传算法在改进文本特征提取方法中的应用被引量：18