基于两步策略的中文短文本分类研究被引量：7

Chinese short-text classification in two-steps

导出

摘要为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能. Three key issues of classifying Chinese short-text in two-steps were discussed to mine text information effectively, and a method of combining naive Bayesian （NB） with k-nearest neighbor （KNN） classifiers for this task was developed. Firstly, the test text collection was divided into three parts： part-A which could be classified reliably by KNN, part-B which could not be classified reliably by KNN but could be classified reliably by NB and the another part-C. All above was implemented by utilizing the outputs of NB or KNN classifier to construct the corresponding two-dimension space respectively, and thereby making the division according to the distribution of texts misclassified in the space. Then, part-A and part-B was classified respectively by using KNN and NB classifiers, and part-C was assigned directly the labels according to the distribution of categorization in the training data. The experimental results show that the proposed method achieves high performance comparing with KNN, NB and support vector machine （SVM）.

作者樊兴华王鹏

机构地区重庆邮电大学计算机科学与技术研究所

出处《大连海事大学学报》 EI CAS CSCD 北大核心 2008年第3期121-124,共4页 Journal of Dalian Maritime University

基金国家自然科学基金资助项目(60703010) 重庆市自然科学基金资助项目(2006BB2374) 重庆市教委科学技术研究项目(KJ070519) 教育部回国留学人员启动基金资助项目(教外司留[2007]1109号)

关键词中文短文本文本分类两步策略朴素贝叶斯(NB) K近邻(KNN) Chinese short-text text classification two-steps strategy naive Bayesian （NB） k-nearest neighbor （KNN）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
2樊兴华.因果推理和文本分类[D].北京:清华大学,2004.
3FAN Xing-hua, SUN Mao-song, CHOI Key-sun, et al. Classifying chinese texts in two steps[C]// Proceedings of 2nd International Joint Conference on Natural Language. Berlin: Springer-Verlag, 2005 : 302-313.
4FAN Xing-hua. A high performance prototype system for chinese text categorization[C]//Proceedings of 5th Mexican International Conference on Artificial Intelligence. Heidelberg, Berlin: Springer,2006:1017-1026.
5LEWIS D. Naive baye.s at forty: The independence assumption in information retrieval[C]// Proceedings of the 10th European Conference on Machine Learning. Chemnitz, Germany: [s. n]. 1998:4-15.
6MITCHELL T M. Machine Learning[M]. New York: McCraw Hill, 1996.
7YANG Yi-ming, SLATTERY S, GHANI R. A study of approaches to hypertext categorization[J ]. Journal of Intelligent Information Systems, 2002, 18(2-3) :219-241.
8孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36

二级参考文献17

1Lewis D. D.. An evaluation of phrasal and clustered representalions on a text categorization task. In: Proceedings of SIGIR'92,the 15st ACM International Conference on Research and Development in Information Retrieval, Copenhagen, Denmark,1992, 37-50.
2Sebastiani F,. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47.
3Lewis D.. Naive bayes at forty: The independence assumption in information retrieval. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998,4-15.
4Salton G.. Automatic Text Processing: The Transformation,Analysis, and Retrieval of Information by Computer. Reading,MA: Addison Wesley, 1989.
5Mitchell T. M.. Machine Learning. New York: McCraw Hill,1996.
6Joachims T.. Text categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning,Chemnitz, Germany, 1998, 137-142.
7Yang Y. , Liu X.. A Re-examination of text categorization methods. In: Proceedings of SIGIR'99, the 22nd ACM International Conference on Research and Development in Information Retrieval, Berkeley, CA, 1999, 42-49.
8樊兴华.因果推理和文本分类.清华大学博士后出站报告,2004.
9Larkey L. S.. Automatic essay grading using text categorization techniques.. In: Proceedings of SIGIR'98, the 21st ACM International Conference on Research and Development in Information Retrieval, Melbourne, Australia, 1998, 90-95.
10Dumais S. T. , Platt J. , Hecherman D. , Sahami M.. Inductive learning algorithms and representation for text categorization.In: Proceedings of CIKM'98, the 7th ACM International Conference on Information and Knowledge Management, Bethesda, MD, 1998, 148-155.

共引文献103

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
5彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
6李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
7张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
8张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
9王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
10何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1

同被引文献68

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
3张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
4王永恒,贾焰,杨树强.大规模文本数据库中的短文分类方法[J].计算机工程与应用,2006,42(22):5-7. 被引量：4
5刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
6刘洋.中文文本分类中特征选择方法的比较研究[J].科技信息,2007(3):54-54. 被引量：3
7黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
8宋东风,张志浩.短文本数据的自动分类[J].电脑与信息技术,2007,15(1):36-38. 被引量：4
9伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
10牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22

引证文献7

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量：18
3王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
4丁军平,蔡皖东.面向元信息分类的支持向量机改进技术[J].西安交通大学学报,2011,45(8):37-42. 被引量：1
5杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
6杨震,王来涛,赖英旭.基于改进语义距离的网络评论聚类研究[J].软件学报,2014,25(12):2777-2789. 被引量：9
7庄仁团.几种省长信箱文本分类算法的实验与比较[J].福建电脑,2016,32(5):92-95.

二级引证文献81

1孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：98
2於建峰,吴正升.文本地名自动识别的空间信息检索研究[J].测绘科学技术学报,2011,28(3):227-230. 被引量：4
3范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
4王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
5严志.基于UML的分类信息系统研究与设计[J].长沙民政职业技术学院学报,2012,19(3):130-131. 被引量：1
6张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
7张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
8乐娟,赵玺.基于HMM的京剧机构命名实体识别算法[J].计算机工程,2013,39(6):266-271. 被引量：17
9赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
10赵辉,刘怀亮.面向用户生成内容的短文本聚类算法研究[J].现代图书情报技术,2013(9):88-92. 被引量：6

1何泉昊,樊兴华,周鹏.基于两步策略的文本分类方法实验研究[J].广西师范大学学报（自然科学版）,2011,29(4):35-38.
2陈建林,樊兴华,王国胤.基于两步策略的英文文本分类[J].广西师范大学学报（自然科学版）,2007,25(4):200-203. 被引量：1
3王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
4郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].电脑知识与技术,2014(5):3182-3185. 被引量：3
5王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
6范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
7胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
8朱灿伟.一种基于决策粗糙集的两步分类算法[J].中国新通信,2012,14(20):72-73.
9王细薇,沈云琴.中文短文本分类方法研究[J].现代计算机,2010,16(7):28-31. 被引量：5
10何大华,陈传波.两个三角形不相交的充要条件[J].应用数学,2002,15(S1):28-30. 被引量：2

大连海事大学学报

2008年第3期

浏览历史

内容加载中请稍等...

基于两步策略的中文短文本分类研究被引量：7

参考文献8

二级参考文献17

共引文献103

同被引文献68

引证文献7

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于两步策略的中文短文本分类研究 被引量：7

参考文献8

二级参考文献17

共引文献103

同被引文献68

引证文献7

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

基于两步策略的中文短文本分类研究被引量：7