基于遗传算法的文本特征选择被引量：15

Text Feature Selection Based on Genetic Algorithm

下载PDF

导出

摘要文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency,TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。 Text feature selection is a key issue in natural language processing.Due to the high-dimensional and sparsity of text features,based on the filter feature selection algorithm term frequency-inverse document frequency(TF-IDF),the genetic algorithm was used to optimize the text features.To maximize the fit of the subsequent text classification algorithm,while not effecting the accuracy of the text classification,reduce the feature dimension to reduce the prediction time.Experiments show that compared with a single filtered text feature selection algorithm,the algorithm can effectively reduce the number of selected text features(reduce the feature dimension)and effectively improve the text classification ability.

作者刘成锴王斌君吴勇 LIU Cheng-kai;WANG Bin-jun;WU Yong(College of Information Technology and Network Security,People's Public Security University of China,Beijing 100038,China)

机构地区中国人民公安大学信息技术与网络安全学院

出处《科学技术与工程》北大核心 2019年第33期302-307,共6页 Science Technology and Engineering

关键词文本分类文本特征特征降维遗传算法 text classification text feature feature dimension reduction genetic algorithm

分类号 TP391.14 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1代旺,方昱春,李杨.融合过滤和封装方式的特征选择算法[J].计算机工程,2012,38(24):166-170. 被引量：6
2熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
3刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：56
4赵小冰,王兆霞,白明,李宁宁,汪凯.一种改进的二进制编码遗传算法研究[J].天津理工大学学报,2010,26(4):43-47. 被引量：2
5罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77
6唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
7段莹,潘昊.遗传算法的形式化语言表示[J].计算机与数字工程,2009,37(9):176-179. 被引量：2
8徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16
9周爱武,马那那,刘慧婷.基于卡方统计的情感文本分类[J].微电子学与计算机,2017,34(8):57-61. 被引量：5
10边霞,米良.遗传算法理论及其应用研究进展[J].计算机应用研究,2010,27(7):2425-2429. 被引量：227

二级参考文献187

1颜文俊,张森林.新型多目标优化控制策略及其应用研究[J].浙江大学学报（工学版）,2004,38(6):691-696. 被引量：8
2魏明,蔡延光.一种基于混沌领域搜索的自适应遗传算法[J].计算机应用研究,2009,26(2):464-465. 被引量：16
3赵改善.求解非线性最优化问题的遗传算法[J].地球物理学进展,1992(1):90-97. 被引量：24
4刘丹杰.遗传算法的编码研究[J].甘肃科技,2004,20(6):112-112. 被引量：4
5陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
6徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
7王春水,肖学柱,陈汉明.遗传算法的应用举例[J].计算机仿真,2005,22(6):155-157. 被引量：20
8江雷.基于并行遗传算法的弹性TSP研究[J].微电子学与计算机,2005,22(8):130-133. 被引量：10
9宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44
10刘晓明,闻福岳,赵云学.解空间种群均匀化自适应遗传算法的应用[J].沈阳工业大学学报,2005,27(6):623-628. 被引量：3

共引文献519

1骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
2陈学雷.基于改进遗传算法的矿井风网特征图优化研究[J].工矿自动化,2023,49(S02):71-74.
3葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
4王泽卿,季圣鹏,李鑫,赵子轩,王鹏旭,韩霄松.基于分数线预测的多特征融合高考志愿推荐算法[J].计算机科学,2022,49(S02):254-260. 被引量：6
5杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
6巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
7陈至豪,王立德,王冲,申萍,李召召.基于组合余弦优化窗四谱线插值FFT的电力谐波分析方法[J].电网技术,2020,44(3):1105-1113. 被引量：35
8赵飞虎,宋强,王瑞.舱口下开盖重力平衡机构力学性能分析与优化设计[J].船舶工程,2022,44(8):66-72.
9李文华,张方实,任亚飞,张君彦,林珊颖,葛杨元.基于模糊决策的锚泊定位系统张力分配优化[J].船舶工程,2021,43(2):103-109.
10黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5

同被引文献161

1张岩,刘小秋,李杰,董宏丽.基于时频联合深度学习的地震数据重建[J].吉林大学学报（地球科学版）,2023,53(1):283-296. 被引量：7
2赵红州,唐敬年,蒋国华,郑文艺.物理定律的知识熵表示问题[J].自然辩证法研究,1991,7(8):14-22. 被引量：8
3朱朝艳,刘斌,李艺,张延年.离散变量桁架结构拓扑优化的杂交算法[J].东北大学学报（自然科学版）,2004,25(8):800-803. 被引量：8
4赵红洲,蒋国华.知识单元与指数规律[J].科学学与科学技术管理,1984,5(9):39-41. 被引量：62
5隋允康,于新,叶宝瑞.应力和位移约束下桁架拓扑优化的有无复合体方法[J].固体力学学报,2004,25(3):355-359. 被引量：9
6朱朝艳,郭鹏飞,刘斌,张延年.遗传算法的改进及其在离散变量刚架结构拓扑优化中的应用[J].机械强度,2005,27(1):61-65. 被引量：3
7谭中富,张作泉,冯恩民.桁架结构拓扑优化的对偶逼近方法[J].科技通报,1994,10(5):288-291. 被引量：14
8王跃方,孙焕纯.多工况多约束下离散变量桁架结构的拓扑优化设计[J].力学学报,1995,27(3):365-369. 被引量：37
9江亮.学术博客的“无形学院”交流模式探析[J].情报科学,2006,24(2):296-299. 被引量：29
10姜冬菊,张子明.桁架结构拓扑和布局优化发展综述[J].水利水电科技进展,2006,26(2):81-86. 被引量：8

引证文献15

1侯剑华,郑碧丽,张洋.科学知识扩散研究:概念界定、理论基础与体系重构[J].现代情报,2020,40(9):117-126. 被引量：12
2阎杰,杨永竹,谢军,陈月尧,马宏.离散体结构拓扑优化综述[J].科学技术与工程,2020,20(24):9673-9682. 被引量：11
3崔斌,邹蕾,徐明月.基于BERT的诉讼案件违法事实要素自动抽取[J].科学技术与工程,2021,21(9):3669-3675. 被引量：4
4王彦,董育宁,葛军.实现网络视频流多分类的迁移学习算法[J].计算机工程与应用,2021,57(14):164-168. 被引量：2
5徐明,龙文.基于多策略融合灰狼优化算法的特征选择方法[J].科学技术与工程,2021,21(20):8544-8551. 被引量：10
6刘东强,陈宏伟.基于改进的蜻蜓算法的特征选择[J].湖北工业大学学报,2021,36(4):1-3. 被引量：1
7王琛,董永权.基于二进制灰狼优化的特征选择及文本聚类[J].计算机工程与设计,2021,42(9):2526-2535. 被引量：10
8文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(9):1645-1652. 被引量：5
9陈可嘉,刘惠.文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法[J].科学技术与工程,2021,21(29):12631-12637. 被引量：4
10张阳,王小宁.基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法[J].计算机应用,2021,41(11):3151-3155. 被引量：9

二级引证文献82

1杜鹏,杜文风,高博青.自由拓扑建筑结构的研究及应用[J].河南大学学报（自然科学版）,2024,54(2):245-252.
2于淼,陆娇,管政翔,陈柳娅.人工智能在司法量刑中的应用沿革与技术演进[J].西北工业大学学报（社会科学版）,2021,41(3):88-95.
3陈可嘉,刘惠.文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法[J].科学技术与工程,2021,21(29):12631-12637. 被引量：4
4刘云婷,翟冉冉,韩正彪.用户信息行为理论模型的扩散与影响研究——以Wilson信息行为模型为例[J].图书情报工作,2021,65(22):96-105. 被引量：2
5姚永生,董育宁,邱晓晖.基于相似性度量的网络流分类模型融合[J].计算机技术与发展,2021,31(12):7-12. 被引量：1
6赵鲲鹏,陈星宇,张志耿.知识扩散机制研究综述[J].西安交通工程学院学术研究,2021,6(2):91-94.
7龙梦舒,闵超,赵伟,张馨慧,代博仁.基于机器学习的汽油加氢裂化辛烷值损失预测和脱硫优化[J].科学技术与工程,2022,22(3):1076-1084. 被引量：5
8阮光册,游心月.我国图书情报学者国际发文的知识扩散研究[J].图书馆建设,2022(2):50-57. 被引量：3
9郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：10
10尉洋,王春彭,陈兴,曹月昊,姚松.面向双向渐进结构拓扑优化法的高效灵敏度过滤算法研究[J].铁道科学与工程学报,2022,19(5):1215-1221. 被引量：4

1Siti-Hajar-Aminah Ali,Seiichi Ozawa,Junji Nakazato,Tao Ban,Jumpei Shimamura.An Online Malicious Spam Email Detection System Using Resource Allocating Network with Locality Sensitive Hashing[J].Journal of Intelligent Learning Systems and Applications,2015,7(2):42-57.
2张丽,马静.一种基于“特征降维”文本复杂网络的特征提取方法[J].情报科学,2019,0(10):20-25. 被引量：10
3李光华,李俊清,张亮,辛衍森,邓华伟.一种融合蚁群算法和随机森林的特征选择方法[J].计算机科学,2019,46(S11):212-215. 被引量：23
4文武,赵成,赵学华,刘颖,范荣妹.基于信息增益和萤火虫算法的文本特征选择[J].计算机工程与设计,2019,40(12):3457-3462. 被引量：6
5高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计,2019,40(11):3180-3185. 被引量：3
6王鑫,张鑫,宁晨.基于多特征降维和迁移学习的红外人体目标识别方法[J].计算机应用,2019,39(12):3490-3495. 被引量：7
7王茜竹,徐瑞,江德潮,雒江涛.基于多源数据的出行安全时空评价模型研究[J].重庆邮电大学学报（自然科学版）,2019,31(5):618-627. 被引量：2
8薛金成,姜迪,吴建德.基于LSTM-A深度学习的专利文本分类研究[J].通信技术,2019,52(12):2888-2892. 被引量：5
9何牧宇,周晖.ReliefF-MFO多标签特征选择算法[J].计算机工程与设计,2019,40(12):3469-3473. 被引量：8
10刘国平,王南星,周毅,汪文博,唐慜越.基于改进ReliefF算法的哑铃动作识别[J].科学技术与工程,2019,19(32):219-224. 被引量：1

科学技术与工程

2019年第33期

浏览历史

内容加载中请稍等...

基于遗传算法的文本特征选择被引量：15

参考文献12

二级参考文献187

共引文献519

同被引文献161

引证文献15

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的文本特征选择 被引量：15

参考文献12

二级参考文献187

共引文献519

同被引文献161

引证文献15

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的文本特征选择被引量：15