使用优化模拟退火算法的文本特征选择被引量：1

Text feature selection based on improved simulated annealing algorithm

下载PDF

导出

摘要在文本分类中,特征空间维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,提出了一种基于优化的模拟退火算法的特征选择方法。在该方法中,为避免遗失当前最优解,增加了记忆功能,将当前最好的状态记忆下来,从而使得模拟退火算法成为一种智能化算法;设计了一个自适应温度更新函数,并设置双阈值使得在尽量保持最优性的前提下减少计算量,从而较快地获得较具代表性的特征子集。实验结果表明该方法是有效的。 In text categorization,one problem is usually confronted with feature spaces containing 10,000 dimensions and more, even exceeding the number of available training samples.In order to enhance operating speed and reduce memory space oceupied,a feature selection method based on an improved Simulated Annealing Algorithm is presented.In order to avoid missing current optimal solution,the presented method is increased memory function to remember the current best state so that it becomes an intelligent algorithm.An adaptive temperature update function and a dual-threshold are set up to reduce amount of calculation,so can acquire quickly the feature subsets which are more representative.Experimental results show that presented method is effective.

作者朱颢东钟勇

机构地区中国科学院成都计算机应用研究所中国科学院研究生院

出处《计算机工程与应用》 CSCD 北大核心 2010年第4期8-11,共4页 Computer Engineering and Applications

基金四川省科技计划项目No.2008GZ0003 四川省科技厅科技攻关项目No.07GG006-019~~

关键词文本分类特征空间特征选择模拟退火算法 text categorization feature space feature selection simulated annealing algorithm

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1Delgado M,Martin-Bautista M J,Sanchez D,et al.Mining text data:Special features and pattems[C]//Proceedings of ESF Exploratory Workshop, London: U K,Sept,2002:32-38.
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
3刘健,钱猛,张维明.基于Fisher线性判别模型的文本特征选择算法[J].国防科技大学学报,2008,30(5):135-138. 被引量：4
4Chen W,Chang X,Wang H,et al.Automatic word clustering for text categorization using global information[C]//Proc of the Information Retrieval Technology,Asia Information Retrieval Symp(AIRS 2004), Beijing.[S.l.] : Springer-Verlag, 2004:1-11.
5Kirkpatrick S, Gelatt Jr C D,Vecchi M P.Optimization by simulated annealing[J].Science, 1983,220( 11 ) : 671-650.
6Metropolis N,Rosenbluth A,Rosenbluth M.Equation of state calculations by fast computing machines[J].Journal of Chemical Physics, 1953,56(21 ) : 1087-1092.
7曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..
8Li Bao-lin,Li Zhi-shu,Zhang Jing-yu,et al.An automated test case generation approach by genetic simulated annealing algorithm[C]// Proc of the 3rd International Conference on Natural Computation, China, Haikou, 2007 : 106-111.
9李雪,刘弘,常亮.基于模拟退火机制的多微粒群协同进化算法[J].计算机应用研究,2009,26(1):71-73. 被引量：5
10柴晓冬,周成鹏.一种改进的模拟退火算法的相位恢复[J].计算机工程与应用,2008,44(7):75-77. 被引量：2

二级参考文献30

1肖健梅,李军军,王锡淮.改进微粒群优化算法求解旅行商问题[J].计算机工程与应用,2004,40(35):50-52. 被引量：29
2王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4封举富,时建新.基因选择的快速Fisher优化模型[J].北京大学学报（自然科学版）,2005,41(1):122-128. 被引量：2
5张良英,曹力,祝法辉.Stochastic resonance for signal-modulated pump noise in a single-mode laser[J].Chinese Optics Letters,2006,4(1):30-32. 被引量：7
6王丽芳,曾建潮.以模拟退火算法为收敛判据的混合微粒群算法[J].计算机工程与科学,2006,28(5):77-79. 被引量：4
7原萍,陈红,王光兴.Ad hoc网络路由优化的微粒群方法[J].小型微型计算机系统,2006,27(7):1193-1196. 被引量：4
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
9刘建成,蒋新华,吴今培.应用改进型微粒群算法优化语言模型[J].小型微型计算机系统,2006,27(12):2306-2309. 被引量：1
10王雪,王晟,马俊杰.无线传感网络移动节点位置并行微粒群优化策略[J].计算机学报,2007,30(4):563-568. 被引量：37

共引文献490

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
5王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
10李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4

同被引文献20

1郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
2张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
3王飒,郑链.基于Fisher准则和特征聚类的特征选择[J].计算机应用,2007,27(11):2812-2813. 被引量：21
4蒋盛益,郑琪,张倩生.基于聚类的特征选择方法[J].电子学报,2008,36(B12):157-160. 被引量：18
5肖婷,唐雁.改进的χ^2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137. 被引量：26
6周雪芹,刘建舟,邵雄凯,廖力.中文文本分类中特征提取的方法[J].湖北工业大学学报,2010,25(2):60-62. 被引量：3
7刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：56
8樊东辉,王治和,陈建华,许虎寅.基于DF算法改进的文本聚类特征选择算法[J].甘肃联合大学学报（自然科学版）,2012,26(1):51-54. 被引量：6
9邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
10崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83

引证文献1

1徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16

二级引证文献16

1王根生,黄学坚,吴小芳,胡向亮.基于改进信息增益特征选择法的SVM中文情感分类算法[J].成都理工大学学报（自然科学版）,2019,46(1):105-110. 被引量：4
2杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9
3刘成锴,王斌君,吴勇.基于遗传算法的文本特征选择[J].科学技术与工程,2019,19(33):302-307. 被引量：15
4曹梦舟,张艳.基于卷积-长短期记忆网络的电能质量扰动分类[J].电力系统保护与控制,2020,48(2):86-92. 被引量：38
5朱衍丞,蔡满春,芦天亮,石兴华,丁祎姗.基于SVM的融合多特征TextRank关键词提取算法[J].软件导刊,2020,19(2):88-91. 被引量：2
6肖楚琬,刘嘉,唐小峰.面向智能决策的军事数据工程建设[J].指挥控制与仿真,2020,42(3):97-101. 被引量：3
7何家欢,刘勇国,蒋羽,张云,张春梅,李东晓,张艺.藏药药理命名实体识别[J].医学信息学杂志,2020,41(4):30-36. 被引量：4
8石磊,王毅,成颖,魏瑞斌.自然语言处理中的注意力机制研究综述[J].数据分析与知识发现,2020,4(5):1-14. 被引量：63
9张猛.基于大数据框架的开源情报特征提取算法[J].舰船电子工程,2020,40(9):36-40. 被引量：5
10栗征征.中文文本分类概述[J].电脑知识与技术,2021,17(1):229-230. 被引量：1

1朱颢东,钟勇.一种改进的模拟退火算法[J].计算机技术与发展,2009,19(6):32-35. 被引量：84
2段红玉,陈炎龙.基于双阈值的具有记忆功能的自适应模拟退火算法[J].计算技术与自动化,2012,31(2):82-85.
3赵丽,邓曦辉.入侵检测中阈值的优化设置研究[J].网络新媒体技术,2016,5(3):6-9. 被引量：1
4王钊.基于SSH的Web中的文本挖掘算法的研究与应用[J].工业控制计算机,2015,28(9):128-129.
5朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
6杨培勇,赵志强,孙鹏.一种智能终端数据共享中的预取缓存技术[J].网络新媒体技术,2012,1(4):31-36. 被引量：2
7事业竞争随时应对商务笔记本电脑助力效率提升[J].微型计算机,2010(31):11-11.
8事业竞争随时应对——商务笔记本电脑助力效率提升[J].互联网周刊,2010(21):55-55.
9事业竞争随时应对——商务笔记本电脑助力效率提升[J].IT经理世界,2010(21):115-115.
10肖建红,魏长军.基于Java2和VB6.0开发蒸馏塔腐蚀在线监控系统[J].长春工程学院学报（自然科学版）,2004,5(3):63-65. 被引量：3

计算机工程与应用

2010年第4期

浏览历史

内容加载中请稍等...

使用优化模拟退火算法的文本特征选择被引量：1

参考文献10

二级参考文献30

共引文献490

同被引文献20

引证文献1

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

使用优化模拟退火算法的文本特征选择 被引量：1

参考文献10

二级参考文献30

共引文献490

同被引文献20

引证文献1

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

使用优化模拟退火算法的文本特征选择被引量：1