一种基于类别信息的改进文本特征选择被引量：1

AN IMPROVED TEXT FEATURE SELECTION METHOD BASED ON CATEGORY INFORMATION

下载PDF

导出

摘要信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量。通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型。随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果。 The information gain method determines the weight of text feature in terms of the whole training set,but it does not suit to forming the categorisation eigenvector.We put forward an improved model of text feature weighting based on categorisation.Firstly,we use the improved Nave Bayes to select the categorisation features for constructing the categorisation vector.Secondly,we use word frequency to improve the information gain method for text feature selection,which ameliorates the problem of insufficient use of the information of medium frequency words in information gain method.The following test on text categorization shows that the weighting model presented in the paper has better text categorisation effect than the conventional information gain method.

作者刘海峰刘守生汪泽焱

机构地区解放军理工大学理学院

出处《计算机应用与软件》 CSCD 2010年第6期8-10,56,共4页 Computer Applications and Software

基金国家自然科学基金资助项目(70571087)

关键词文本分类特征选择贝叶斯方法特征加权 Text categorization Feature selection Nave Bayes Feature weighting

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1刘海峰,王元元,姚泽清,王倩.一种基于特征聚类的文本分类模型研究[J].情报学报,2008,27(2):224-228. 被引量：2
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3闫鹏,郑雪峰,李明祥,陈松华.二值文本分类中基于Bayes推理的特征选择方法[J].计算机科学,2008,35(7):173-176. 被引量：10
4杨胜,顾钧.Feature selection based on mutual information and redundancy-synergy coefficient[J].Journal of Zhejiang University Science,2004,5(11):1382-1391. 被引量：7
5周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165

二级参考文献28

1李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
2侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
3和亚丽,陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程,2005,31(5):181-182. 被引量：14
4孙斌.一种义项矩阵模型SMM[J].中文信息学报,2005,19(2):28-35. 被引量：3
5胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10
6闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件过滤的实现[J].微电子学与计算机,2006,23(2):86-88. 被引量：10
7张选平,蒋宇,袁明轩,马琮,梁平.一种基于概念的信息检索查询扩展[J].微电子学与计算机,2006,23(4):110-114. 被引量：13
8刘海峰,王元元.基于向量模型的文本检索若干问题研究[J].情报杂志,2006,25(10):57-59. 被引量：14
9刘海峰,王元元,张学仁.基于潜在语义空间的文本检索问题研究[J].情报科学,2007,25(5):748-753. 被引量：9
10Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.

共引文献180

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

同被引文献20

1Emeritus, Swanson DR. ASIST Award of Merit Accepance : on the fragmentaion of knowledge, the connection exploion, and assembing other people's [ J]. Bullttin of the American Socitey for Information Science&Technology, 2005, 27 (3): 12-14.
2Swanson DR. Undiscovered Public Knowledge [ J]. Library Quarterly, 1986, 56 (2): 103-118.
3Swanson DR. Two Medical Literatures that are Logically but not Bibliographically Connected [ J ]. Journal of the American So- ciety for Information Science, 1987, 38 (4) : 228 -233.
4Swanson DR, Smalheiser NR. An Interactive System for Finding Complementary Literatures: a stimulus to scientific discovery [ J ]. Artificial Intelligence, 1997, 91 ( 97 ) : 183 - 203.
5Hristovski D, Peterlin B, Mitchell JA, et al. Using Litera- ture- based Discovery to Identify Disease Candidate Genes [ J ]. International Journal of Medical Informatics, 2005, 74 (2/4) : 289 - 298.
6Yetisgen- Yildiz M, Pratt W. Using Statistical and Knowl- edge- based Approaches for Literature -based Discovery [ J]. Journal of Biomedical Informatics, 2006, 39 (6) : 600 -611.
7Weeber M, Klein H, Aronson AR, et al. Text -based Discovery in Biomecine: the architecture of the DAD-system [J]. Pro- ceedings of Amia the annual Conference of the American Medical Infonmtics Association, 2000, 7 (1): 903-~r/.
8Weeber M. Drug Discovery as an Example of Literature - Based Discovery [ M ]. Berlin: Springer Berlin Heidel- berg, 2007.
9Huang W, Nakamori Y, Wang S, et al. Mining Scientific Literature to Predict New Relationships [ J ]. Intelligent Data Analysis, 2005, 9 (2): 219-234.
10Fabian G, Wachter T, Schroeder M. Extending Ontologies by Finding Siblings Using Set Expansion Techniques [ J ]. Bioinformatics, 2012, 28 (12): 292-300.

引证文献1

1冉升,钱领,高艳.基于MeJo模型的病原微生物潜在药物挖掘[J].医学信息学杂志,2016,37(9):53-57.

1檀林,张永奎.一种基于迭代学习的文本分类器构造方法[J].电脑开发与应用,2004,17(2):5-6.
2刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117. 被引量：9
3刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：55
4任江涛,施潇潇,孙婧昊,黄焕宇,印鉴.一种改进的基于特征赋权的K均值聚类算法[J].计算机科学,2006,33(7):186-187. 被引量：10
5潘正才,陈海光.基于信息增益的中文网页SVM分类研究[J].上海师范大学学报（自然科学版）,2013,42(3):277-282.
6郭庚麒,陈启买.一个基于Web挖掘的中文专业搜索引擎的设计与实现[J].计算机工程与科学,2004,26(9):16-20. 被引量：6
7陈实,黄芝平,刘纯武.基于可视化图形特征的入侵检测方法[J].计算机测量与控制,2016,24(8):49-51. 被引量：4
8刘钦创.财经类专业搜索引擎关键技术的设计与实现[J].韩山师范学院学报,2008,29(3):22-25. 被引量：1
9马春华,朱颢东,钟勇.结合新型文档频和二进制可辨矩阵的特征选择[J].计算机应用,2009,29(8):2268-2271. 被引量：3
10阳小兰,钱程.基于贝叶斯分类器的垃圾邮件过滤的研究与改进[J].计算机与数字工程,2011,39(4):111-114.

计算机应用与软件

2010年第6期

浏览历史

内容加载中请稍等...

一种基于类别信息的改进文本特征选择被引量：1

参考文献5

二级参考文献28

共引文献180

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于类别信息的改进文本特征选择 被引量：1

参考文献5

二级参考文献28

共引文献180

同被引文献20

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于类别信息的改进文本特征选择被引量：1