基于同义词词林的文本特征选择方法被引量：5

A Text Feature Selection Method Based on TongYiCi CiLin

下载PDF

导出

摘要特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度. Feature selection is one of important problems in text categorization,machine learning and pattern recognition.In particular,with the rapid development of network and cloud computing,the massive data analysis methods are vitally important.Feature selection can reduce high dimension data′s feature dimension under the condition of ensuring data integrity and classification accuracy.Previously proposed feature selection method based on TongYiCi CiLin can effectively avoid the eigenvalue repetitive in concept,but they did′t consider about that subset composed by the optimal weight of feature vectors may not the best one.To solve this problem,this article combine the TongYiCi and Genetic Algorithm,proposed a text feature selection method based on TongYiCi CiLin.The experiment results show that the method can reduce feature vector′s dimension and improve the efficiency of feature selection.

作者郑艳红张东站

机构地区厦门大学信息科学与技术学院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2012年第2期200-203,共4页 Journal of Xiamen University：Natural Science

基金国家自然科学基金项目(50604012)

关键词特征选择同义词词林遗传算法文本分类 feature selection TongYiCi CiLin genetic algorithm text categorization

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
2吕震宇,林永民,赵爽,朱卫东.基于同义词词林的文本特征选择与加权研究[J].情报杂志,2008,27(5):130-132. 被引量：9
3Cover T M.The best two independent measurements arenot the two best[J].IEEE Transactions on Systems,Manand Cybernetics,1974,4:116-117.
4张锋,樊孝忠,许云.基于遗传算法的文本聚类特征选择[J].华南理工大学学报（自然科学版）,2004,32(z1):133-136. 被引量：3
5李桂芳,刘培玉.一种基于改进遗传算法的文本特征选择方法[J].山东师范大学学报（自然科学版）,2007,22(2):17-19. 被引量：4

二级参考文献33

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：21
4柳伯超,秦茂玲,刘弘.基于遗传算法的多约束背包问题求解方案[J].山东师范大学学报（自然科学版）,2007,22(1):19-22. 被引量：8
5赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
6刑文训.现代优化计算方法[M].北京:清华大学出版社,1999..
7[1]Kowalski G. Information Retrieval Systems Theory and Implementation [M]. Netherlands: Kluwer Academic Publishers, 1997.
8[2]Zamir O,Etzioni O,Madani O,et al. Fast and intuitive clustering of Web documents [A]. Proc of KDD-97 [C].Newport Beach, USA, 1997. 287 - 290.
9[3]Cutting D R, Karger D R, Pedersen J O, et al. Scatter/gather:A cluster-based approach to browsing large document collections [A]. Proc of SIGIR ′92 [C]. Copenhagen, 1992. 318 - 329.
10[4]Aggrawal C C,Yu P S. Finding generalized projected clusters in high dimensional spaces [A]. Proc of SIGMOD′00 [C]. Dallas ,USA ,2000.70 - 81.

共引文献177

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
9赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
10陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79

同被引文献55

1李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
2卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
3Thomas K Landauer,Peter W Foltz,Darrell Laham.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998(25):259-284.
4Mark Steyvers.Probabilistic Topic Models[D].Uniwersity of California,2005.
5Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Commun.ACM,November,1975,18(2):613-620.
6David M Blei,Jon D Mc Auliffe.Supervised topic models[C]//NIPS,2007.
7Samuel Brody,Noemie Elhadad.An unsupervised aspect-sentiment model for online reviews[C]//Human Language Technologies:The 2010Annual Conference of the North American Chapter of the Association for Computational Linguistics,Stroudsburg,PA,USA,2010,HLT’10,2010:804-812.
8Ivan Titov,Ryan Mc Donald.A joint model of text and aspect ratings for sentiment summarization[C].Columbus,Ohio,June 2008,In Proceedings of ACL-08:HLT,2008:308-316.
9Branavan S R K,Chen H,Eisenstein J,et al.Learning document-level semantic properties from free-text annotations[J].Journal of Artificial Intelligence Research,2009,34(1):569-603.
10Hanna Wallach,David Mimno,Andrew Mc Callum.Rethinking lda:Why priors matter[J].Advances in Neural Information Processing Systems22,2009:1973-1981.

引证文献5

1肖雷,王旭,粟武林.一种基于词义降维的主题特征选择算法[J].计算机应用与软件,2016,33(3):244-247. 被引量：1
2周巧扣,倪红军.一种基于语义的垃圾短信过滤算法[J].实验室研究与探索,2016,35(11):137-140. 被引量：1
3王晓栋,严菲,洪朝群.一种基于半监督多任务学习的特征选择模型[J].厦门大学学报（自然科学版）,2017,56(4):567-575. 被引量：3
4李海林,邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报,2017,12(4):556-562. 被引量：6
5吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：7

二级引证文献18

1曾子明,周知.基于主题热度调权的用户兴趣建模研究[J].情报科学,2018,36(4):150-154. 被引量：2
2高慧文,周巧扣,丁涵清,沈红威.基于Android的污水定位与上报系统的设计与实现[J].电脑知识与技术,2017,13(6X).
3余传明,李浩男,安璐.基于多任务深度学习的文本情感原因分析[J].广西师范大学学报（自然科学版）,2019,37(1):50-61. 被引量：13
4巫红霞,谢强.基于加权社区检测与增强人工蚁群算法的高维数据特征选择[J].计算机应用与软件,2019,36(9):285-292. 被引量：7
5潘浩,高英铭,潘尔顺.短文本相似性的改进及其在电商评论推荐中的应用[J].工业工程与管理,2019,24(5):132-137. 被引量：2
6武越,刘向东,周晓俊,石兆军,李可.涉密环境下的非密办公网敏感信息监控系统设计[J].网络安全技术与应用,2020(7):28-31. 被引量：3
7尹延鑫,李传富.基于深度学习的用户健康词表构建方法研究[J].医学信息学杂志,2020,41(8):29-33.
8仲远,王芳,黄树成.基于百度百科多特征信息的词汇相似度计算[J].计算机与数字工程,2020,48(7):1580-1584. 被引量：1
9孟祥辉,张浩威,葛诗琪,李靓珠.多任务学习正则化模型对患者的分类研究[J].物联网技术,2021,11(3):51-53.
10邹德芳,胡秦斌.基于树到串模型强化的神经机器翻译模型构建[J].计算机仿真,2021,38(2):344-347. 被引量：3

1胡玉娴.基于《知网》和遗传算法的中文文本聚类特征选择[J].中国电子商情（通信市场）,2009(2):87-92.
2张慈祥,刘辉,强振平.基于稀疏表示和奇异值分解的人脸识别[J].计算机应用,2013,33(A01):233-235. 被引量：9
3夏冰.基于MIDF(t)的短文本特征权重计算方法研究[J].黑龙江科学,2016,7(16):28-29. 被引量：1
4魏雪丽,张桦,安树志,马艳洁.利用PCA加速实现基于特征点的图像拼接[J].光电子．激光,2008,19(10):1398-1401. 被引量：1
5郭黎,冷洁,梅文兰,孔祥聪,廖宇,廖红华.基于PCA和SVM的人脸识别技术研究[J].湖北民族学院学报（自然科学版）,2015,33(2):193-196. 被引量：7
6朱德兵,何继善.前向神经网络定解及泛化问题研究[J].物探化探计算技术,2001,23(2):144-149. 被引量：4
7杨飒,郑志硕.基于稀疏随机投影的SIFT医学图像配准算法[J].量子电子学报,2015,32(3):283-289. 被引量：8
8陈小辉,高燕,刘汉烨.基于归一化方法的协同过滤推荐算法[J].电子设计工程,2014,22(14):17-20. 被引量：4
9王小乐,黄宏斌,邓苏,刘明星.传感器选择问题的GSS算法有效性分析与改进[J].华南理工大学学报（自然科学版）,2013,41(11):43-49.
10张学钱,林世平,郭昆.协同过滤推荐算法对比分析与优化应用[J].计算机系统应用,2015,24(5):100-105. 被引量：10

厦门大学学报（自然科学版）

2012年第2期

浏览历史

内容加载中请稍等...

基于同义词词林的文本特征选择方法被引量：5

参考文献5

二级参考文献33

共引文献177

同被引文献55

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于同义词词林的文本特征选择方法 被引量：5

参考文献5

二级参考文献33

共引文献177

同被引文献55

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于同义词词林的文本特征选择方法被引量：5