中文文本分类中的特征选择研究被引量：165

Study on Feature Selection in Chinese Text Categorization

下载PDF

导出

摘要本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%～ 5 %左右。 This paper introduces and compares eight feature selection methods in text categorization. Among the eight methods, Multi Class Odds Ratio(MC OR), a variant of Odds Ratio which is often used in binary classification, and a new feature selection method based on Class Discriminating Words(CDW) are proposed. Combined with the classic VSM classifier based on cosine similarity and the Nave Bayes classifier, training and test are carried out on two text sets with different class distribution. As the results indicate, MC OR and CDW gain the best selecting effect.

作者周茜赵明生扈旻

机构地区清华大学电子工程系

出处《中文信息学报》 CSCD 北大核心 2004年第3期17-23,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目 ( 6 0 0 0 30 14 6 0 1710 37)

关键词计算机应用中文信息处理文本分类特征选择类别区分词 computer application Chinese information processing text categorization feature selection class discriminating words

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
2Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
3Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
4Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
5王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17
6范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
7刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48
8梁久祯兰东俊扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.

二级参考文献6

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
3Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页
4黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
5曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型[J].情报学报,1999,18(1):27-32. 被引量：18
6邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45

共引文献112

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
3施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
4张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
5刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
6钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
7王丽侠,房福亭.分级聚类与平面划分结合方法在网页分类中的应用[J].计算机工程与应用,2004,40(35):139-141. 被引量：2
8梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5
9许勇,宋柔.基于HMM的百科辞典文本中句子的知识点分类[J].计算机工程与应用,2005,41(4):35-37. 被引量：5
10卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16

同被引文献1205

1王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
2谢波,陈岭,陈根才,陈纯.普通话语音情感识别的特征选择技术[J].浙江大学学报（工学版）,2007,41(11):1816-1822. 被引量：13
3肖明,殷锋,张楠.垃圾邮件过滤技术及发展[J].西南民族大学学报（自然科学版）,2007,33(1):207-212. 被引量：8
4靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
5叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
6张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
7刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
8荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
9曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
10张锋,樊孝忠,许云.基于遗传算法的文本聚类特征选择[J].华南理工大学学报（自然科学版）,2004,32(z1):133-136. 被引量：3

引证文献165

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

二级引证文献912

1章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：3
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3沈昕怡,柯艺璐,徐成龙.基于文本挖掘的我国全民健身政策量化评价[J].体育视野,2023(24):6-8.
4郭丽环,韩越,王伟.在线评论对旅游者酒店选择的影响——基于细粒度文本情感分析[J].泉州师范学院学报,2019,0(6):93-100. 被引量：5
5杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
6刘峻杉,侯前伟.“文化”的多学科理解及其在教育学中的运用[J].高等教育研究,2023,44(6):11-25.
7范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
8陈志贤.作者发文情况在投稿真实性审查中的应用[J].编辑学报,2021,33(5):515-517.
9扈宁,董丽莎,王民.基于文本挖掘技术应用的计算机漏洞自动分类[J].新一代信息技术,2022,5(5):74-76.
10刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10

1周奇年,张振浩,徐登彩.用于中文文本分类的基于类别区分词的特征选择方法[J].计算机应用与软件,2013,30(3):193-195. 被引量：8
2张可,柴毅,刘建环.一类基于类别区分的多重故障诊断模型框架[J].控制理论与应用,2016,33(2):154-163. 被引量：3
3陈景年,黄厚宽,田凤占,瞿有利.一种用于贝叶斯分类器的文本特征选择方法[J].计算机工程与应用,2008,44(13):24-26. 被引量：6
4陈集,樊兴华,王鹏.中文文本分类的两步特征选择法[J].计算机辅助工程,2008,17(3):76-80. 被引量：2
5王欢,武刚,杨抒.基于文本分类的林业Web黄页分类系统[J].计算机系统应用,2012,21(1):21-24. 被引量：2
6安永辉.EM算法的研究及其在文本处理中的应用[J].现代计算机,2013,19(7):3-8. 被引量：2
7毛雪岷,丁友明.基于语义引导与支持向量机的中文文本分类[J].情报杂志,2007,26(11):56-58. 被引量：1
8王连喜,蒋盛益.一种基于类别区分互补性的特征选择[J].小型微型计算机系统,2013,34(8):1798-1802. 被引量：3
9赛普拉斯为PSoC平台及其他领先技术推出在线设计社区[J].电子与电脑,2010(6):108-108.
10赵俊生,苏依拉.多特征结合的中文垃圾邮件过滤特征选择方法研究[J].内蒙古工业大学学报（自然科学版）,2013,32(3):209-213.

中文信息学报

2004年第3期

浏览历史

内容加载中请稍等...

中文文本分类中的特征选择研究被引量：165

参考文献8

二级参考文献6

共引文献112

同被引文献1205

引证文献165

二级引证文献912

相关作者

相关机构

相关主题

浏览历史

中文文本分类中的特征选择研究 被引量：165

参考文献8

二级参考文献6

共引文献112

同被引文献1205

引证文献165

二级引证文献912

相关作者

相关机构

相关主题

浏览历史

中文文本分类中的特征选择研究被引量：165