基于潜在语义索引和遗传算法的文本特征提取方法被引量：16

The Method of Text Feature Selection Based on LSI and GA

下载PDF

导出

摘要本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value De-composition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的维数,并能提高分类准确率。 This paper selects the features of text by using LSI and GA （Genetic Algorithm）. This paper uses LSI to reflect the relation of words in VSM （Vector Space Model）. The dimension of VSM can be reduced greatly by Singular Value Decomposition. However, after that the text features have still several hundreds dimensions, so this paper continues to reduce the dimension by using GA in this base. The results of exexperiment indicate that combining these two methods can greatly reduce the dimension of VSM and advance precision of text classifying.

作者郝占刚王正欧

机构地区天津大学系统工程研究所

出处《情报科学》 CSSCI 北大核心 2006年第1期104-107,共4页 Information Science

基金国家自然科学基金资助项目(60275020)

关键词特征提取潜在语义索引遗传算法 KOHONEN网络 feature selection latent semantic index genetic algorithm kohonen network

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1刘勇国,李学明,张伟,彭军,廖晓峰,吴中福.基于遗传算法的特征子集选择[J].计算机工程,2003,29(6):19-20. 被引量：22
2林鸿飞,姚天顺.基于潜在语义索引的文本浏览机制[J].中文信息学报,2000,14(5):49-56. 被引量：29
3盖杰,王怡,武港山.基于潜在语义分析的信息检索[J].计算机工程,2004,30(2):58-60. 被引量：29
4李德强,黄莎白.一种新聚类算法在模糊神经网络中的应用[J].信息与控制,2002,31(5):451-455. 被引量：6
5周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41

二级参考文献9

1陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
2Yang Y，Proceedingsofthe 14thInternationalConferenceonMachineLearning，1997年
3吴立德，大规模中文文本处理，1997年
4姚天顺，自然语言理解，1995年
5Young P，学位论文，1994年
6康立山.非数值并行算法(第1册)--模拟退火算法[M].北京：科学出版社,1997..
7林鸿飞,战学刚,姚天顺.文本层次分析与文本浏览[J].中文信息学报,1999,13(4):7-15. 被引量：12
8林鸿飞,战学刚,姚天顺.基于概念的文本结构分析方法[J].计算机研究与发展,2000,37(3):324-328. 被引量：35
9林鸿飞,姚天顺.基于潜在语义索引的文本浏览机制[J].中文信息学报,2000,14(5):49-56. 被引量：29

共引文献117

1洪兴勇,徐银,胡煜.一种新的聚类算法在数据挖掘中的应用[J].舰船电子工程,2008,28(4):165-167. 被引量：4
2符保龙,黄崇争.基于免疫遗传退火算法的Web关联规则挖掘方法[J].计算机应用研究,2009,26(2):478-480. 被引量：3
3严丽丽,陈鹤年,马杰.基于自适应策略的动态模拟退火遗传挖掘算法[J].软件导刊,2010,9(5):61-62.
4王东龙,李茂青.基于遗传算法的数据挖掘技术应用[J].南昌大学学报（工科版）,2005,27(1):81-84. 被引量：16
5钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
6钱晓东,王正欧.文本处理中基于随机映射的加速LSI方法[J].天津大学学报（自然科学与工程技术版）,2005,38(4):372-376. 被引量：1
7陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
8魏传锋,庞彧,李运泽,王浚,于涛.改进的最近邻法在基于事例推理中的应用[J].系统仿真学报,2005,17(5):1045-1047. 被引量：13
9马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
10郝占刚,王正欧.基于模式聚类和遗传算法的文本特征提取方法[J].计算机应用,2005,25(7):1632-1633. 被引量：4

同被引文献218

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
4还书国,邱海霞.WEB信息抽取的研究[J].消费导刊,2008,0(12):172-172. 被引量：2
5袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
6陈淑珍,卢昌荆,林克明.粗糙集理论在Web文本挖掘特征提取中的应用[J].武汉化工学院学报,2004,26(4):86-88. 被引量：1
7胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
8唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
9王晓晔,王正欧.K-最近邻分类技术的改进算法[J].电子与信息学报,2005,27(3):487-491. 被引量：25
10许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-25. 被引量：24

引证文献16

1白如江.基于粗糙集和RBF神经网络的文本自动分类方法[J].现代图书情报技术,2006(6):47-51. 被引量：3
2孙铁利,张妍,李晓微.文本挖掘中特征降维方法比较研究[J].电脑知识与技术,2008(1):201-204. 被引量：1
3白似雪,陆萍.一种基于文本分类的特征选择方法[J].南昌大学学报（工科版）,2008,30(1):87-90. 被引量：2
4龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108. 被引量：5
5郭武斌,周宽久,张世荣.基于潜在语义索引的SVM文本分类模型[J].情报学报,2009,28(6):827-833. 被引量：3
6马范玲,胡泽文.基于SUMO本体的图书自动分类模型研究[J].情报杂志,2011,30(1):168-173. 被引量：8
7奉国和,郑伟.文本分类特征降维研究综述[J].图书情报工作,2011,55(9):109-113. 被引量：16
8甄志龙,曾晓勤,韩立新.文本分类中基于图模型的特征提取方法[J].情报科学,2011,29(8):1248-1251.
9李海蓉.基于概念向量空间的文档语义分类模型研究[J].图书情报工作,2011,55(24):106-111. 被引量：3
10刘逵,周竹荣.基于野草算法的文本特征选择[J].计算机应用,2012,32(8):2245-2249. 被引量：8

二级引证文献138

1张涛,傅丽芳.基于粗糙集及RBF网络的英文字母识别[J].计算机应用与软件,2008,25(11):210-213. 被引量：1
2李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
3石芙芙,董祥军,陈修宽.Web文本分类中特征选择的研究[J].山东轻工业学院学报（自然科学版）,2009,23(3):22-24. 被引量：1
4王雅菲,赵伟.一种基于相似融合的文本特征降维方法[J].长春工业大学学报,2009,30(6):651-656.
5马范玲,胡泽文.基于SUMO本体的图书自动分类模型研究[J].情报杂志,2011,30(1):168-173. 被引量：8
6李海蓉.基于概念向量空间的文档语义分类模型研究[J].图书情报工作,2011,55(24):106-111. 被引量：3
7刘萍,胡月红.领域本体学习方法和技术研究综述[J].现代图书情报技术,2012(1):19-26. 被引量：14
8马瑞新,邓贵仕,孟繁成.基于角色划分的文献软聚类算法[J].计算机应用研究,2012,29(3):856-858.
9刘萍,高慧琴,胡月红.基于形式概念分析的情报学领域本体构建[J].图书情报知识,2012,29(3):20-26. 被引量：10
10刘立月,黄兆华,刘遵雄.高维数据分类中的特征降维研究[J].江西师范大学学报（自然科学版）,2012,36(2):131-134. 被引量：3

1宋海周,钱鹰.基于统计特征的人脸识别研究[J].重庆邮电大学学报（自然科学版）,2011,23(1):121-126. 被引量：1
2丁一.利用矩阵的奇异值分解对物体进行形状复原[J].中小企业管理与科技,2014,0(31):309-310.
3王渊,刘业政,姜元春.基于粗糙KNN算法的文本分类方法[J].合肥工业大学学报（自然科学版）,2014,37(12):1513-1517. 被引量：5
4吴鹏飞.基于WVTool的文本向量空间模型研究与实现[J].电脑编程技巧与维护,2012(5):10-12.
5宋伟,侯建军,李赵红,黄亮.一种基于Logistic混沌系统和奇异值分解的零水印算法[J].物理学报,2009,58(7):4449-4456. 被引量：32
6孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
7何元娇,张国英.基于本体语义的简单向量距离分类方法[J].北京石油化工学院学报,2007,15(3):13-17. 被引量：2
8康健,乔少杰,格桑多吉,韩楠,洪西进,尼玛扎西,范小刚.基于群体智能的半结构化藏文文本聚类算法[J].模式识别与人工智能,2014,27(7):663-671. 被引量：7
9袁理,陈庆虎.基于三维数据与MMSV特征的二维人脸识别[J].计算机应用研究,2012,29(1):373-375.
10谷军,何南.基于特征词权值的渔业文本分类研究[J].大众科技,2014,16(12):40-42.

情报科学

2006年第1期

浏览历史

内容加载中请稍等...

基于潜在语义索引和遗传算法的文本特征提取方法被引量：16

参考文献5

二级参考文献9

共引文献117

同被引文献218

引证文献16

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引和遗传算法的文本特征提取方法 被引量：16

参考文献5

二级参考文献9

共引文献117

同被引文献218

引证文献16

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引和遗传算法的文本特征提取方法被引量：16