一种基于类别强信息特征和贝叶斯算法的中文文本分类器被引量：5

A CHINESE TEXT CLASSIER BASED ON STRONG INFORMATION FEATURE OF CATEGORY AND BAYESIAN ALGORITHM

下载PDF

导出

摘要为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。 For improving the efficiency and accuracy of Chinese text classification,in this paper we design a new Chinese text classifier,which adopts corpus-based forward scanning for word segmentation counting. In word frequency statistics stage,it uses the method of counting by category in training stage and the method of counting by different regions of the text in testing stage. In order to better select the feature words,we propose three strong information feature standards： the frequency,the concentration and the correlation. On feature weight calculation issue,we propose a feature weight calculation method which combines the word frequency with comprehensive feature selection function.At last,in combination with naive Bayes theory to carry out the classification. It is proved that this classier is simple and effective by the test.

作者陈艳秋孙培立

机构地区大连东软信息技术学院计算机科学与技术系大连海洋大学经济管理学院

出处《计算机应用与软件》 CSCD 北大核心 2014年第8期330-333,共4页 Computer Applications and Software

关键词中文文本分类特征选择特征权重分类算法 Chinese text categorisation Feature selection Feature weighting Classification algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Chao L,Fan G,Christos F.BBM:bayesian browsing model from petabyte scale data[C]//15th ACM SIGKDD international conference on Knowledge discover and data mining,2009:537-546.
2Cohen J D.High lights:Language and Domain-independent Automatic Indexing Terms for Abstracting[J].Journal of the American Society for Information Science,1995,46(3):162-174.
3洪伟,韩筱璞,周涛,汪秉宏.Heavy-Tailed Statistics in Short-Message Communication[J].Chinese Physics Letters,2009,26(2):297-299. 被引量：31
4Zhang Y C,Wang D,Wang G,et al.Learning click models via probit bayesian inference[C]//19th ACM international conference on Information and knowledge management,2010:439-448.
5徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
6袁磊.基于概率模型的文本聚类[D].吉林:吉林大学,2004.
7薛得军.中文文本自动分类中的关键问题研究[D].北京:清华大学,2004.
8刘东绪.在自然汉语中进行分词和词性标注[D].成都:电子科技大学,2003.

二级参考文献28

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
3索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
4刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
5Aiello W, Chung F and Lu L 2000 Proceedings of the 32nd ACM Symposium on the Theory of Computing (New York: ACM) p 171.
6Barabasi A L 2005 Nature 435 207.
7Oliveira J G and Barabasi A L 2005 Nature 437 1251 Li N N, Zhang N and Zhou T 2008 Physica A 387 6391.
8Zhou T, Han X P and Wang B H 2008 Science Matters: Humanities as Complex Systems ed Burguete M and Lam L (Singapore: World Scientific) p 207.
9Politi M and Scalas E 2008 Physica A 387 2025.
10Jiang Z Q et al 2008 Physica A 387 5818.

共引文献94

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
4王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
5施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：217
6田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
7张靖.网络个性化服务资源综合推荐研究[J].计算机仿真,2009,26(11):157-160. 被引量：5
8张瑜,苏晓路,刘世洪,李景,胡海燕.基于本体的农业科技信息用户建模系统设计与实现[J].现代图书情报技术,2009(11):34-39. 被引量：1
9刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14
10任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20

同被引文献23

1程剑,应自炉,张有为.基于模糊积分多分类器融合的人脸表情识别[J].信号处理,2005,21(z1):358-361. 被引量：2
2菅利荣,刘思峰.粗糙模糊决策表概率决策分析的扩展粗糙集方法[J].东南大学学报（自然科学版）,2006,36(5):842-846. 被引量：6
3Surgeno M.Fuzzy measures and fuzzy integralsA Sur- vey[C].Fuzzy Automata and Decision Processes mster- dam : North Holland, 1977 : 89-102.
4官礼和,王国胤,于洪.属性序下的增量式Pawlak约简算法[J].西南交通大学学报,2011,46(3):461-468. 被引量：12
5张保富,施化吉.一种基于粗糙集文本自动分类的改进算法[J].计算机工程与应用,2011,47(24):129-131. 被引量：1
6吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.词形还原方法及实现工具比较分析[J].现代图书情报技术,2012(3):27-34. 被引量：12
7丁硕,常晓恒.Gaussian型RBF神经网络的函数逼近仿真研究[J].河南科学,2013,31(9):1383-1386. 被引量：6
8张学峰,王鹏辉,冯博,杜兰,刘宏伟.基于多分类器融合的雷达高分辨距离像目标识别与拒判新方法[J].自动化学报,2014,40(2):348-356. 被引量：21
9江伟坚,郭躬德.复杂环境下高效物体跟踪级联分类器[J].中国图象图形学报,2014,19(2):253-265. 被引量：5
10郭云龙,潘玉斌,张泽宇,李莉.基于证据理论的多分类器中文微博观点句识别[J].计算机工程,2014,40(4):159-163. 被引量：8

引证文献5

1邹晴,钮焱,李军.基于模糊积分的多分类器融合文本分类研究[J].湖北工业大学学报,2015,30(2):95-98. 被引量：1
2朱敏玲.基于粗糙集与向量机的文本分类算法研究[J].北京信息科技大学学报（自然科学版）,2015,30(4):31-34. 被引量：1
3娜迪热,胡俊.基于用户社交网络数据的人格倾向性分析及预测模型的建立[J].电脑知识与技术,2018,14(3):6-11. 被引量：7
4韩艳,刘晨.大差异数据冲击下的网络路由分类器的设计与实现[J].现代电子技术,2017,40(12):76-78.
5刘宇强,李军,范志鹏.基于纹理特征和随机森林的恶意代码分类研究[J].湖北工业大学学报,2020,35(2):56-60.

二级引证文献9

1孙素琴,周群,郁鉴源,胡鑫尧.分子振动光谱法与中药研究的最新进展[J].光谱学与光谱分析,2000,20(2):199-202. 被引量：61
2刘平,崔宗艺,周炜翔,张仰森.基于行为信息的微博用户性格预测研究[J].北京信息科技大学学报（自然科学版）,2019,34(3):32-38. 被引量：4
3王雪丽,宋启祥.基于BP神经网络的文本分类算法研究与设计[J].通化师范学院学报,2018,39(2):70-73. 被引量：5
4朱敏玲,吴海艋,石磊.粗糙集规则匹配算法及其在文本分类中的应用[J].计算机系统应用,2018,27(4):131-137. 被引量：1
5赵宏,刘颖,李爽,徐鹏飞,郑勤华.基于在线学习行为数据的人格特质识别研究[J].开放教育研究,2019,25(5):110-120. 被引量：10
6费定舟,赵雅婷.社交媒体中的人格计算研究综述[J].计算机工程与应用,2019,55(20):34-42. 被引量：1
7李向华.由虚拟到现实:人格特征在网络行为要素上的折射[J].九江学院学报（社会科学版）,2020,39(1):66-72.
8苏悦,刘明明,赵楠,刘晓倩,朱廷劭.基于社交媒体数据的心理指标识别建模:机器学习的方法[J].心理科学进展,2021,29(4):571-585. 被引量：10
9王梓屹,刘烁,陈盼,黄润,宋长伟,付光晖,黄奕佳,黄智生,杨冰香.高自杀风险微博用户的网络行为特征[J].中国心理卫生杂志,2022,36(5):423-426.

1陈艳秋,熊耀华.新型快速中文文本分类器的设计与实现[J].计算机工程与应用,2009,45(22):53-55. 被引量：5
2武子英.基于模糊模式识别的中文文本分类器的设计与实现[J].科技情报开发与经济,2005,15(16):228-230. 被引量：1
3张杰,战学刚,冯金平,陈文亮.中文文本分类器的评价[J].鞍山科技大学学报,2005,28(3):231-234. 被引量：1
4肖雪,卢建云,余磊,龚恒.基于最低词频CHI的特征选择算法研究[J].西南大学学报（自然科学版）,2015,37(6):137-142. 被引量：6
5张翔,周明全,耿国华,侯凡.Bagging算法在中文文本分类中的应用[J].计算机工程与应用,2009,45(5):135-137. 被引量：11
6陆建江,张文献.中文文本分类器的设计[J].计算机工程与应用,2002,38(15):49-51. 被引量：10
7火善栋.用BP神经网络实现中文文本分类[J].计算机时代,2015(11):58-61. 被引量：2
8黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
9王荔,宋胜利,冯佳,陈平.一种全切分与统计结合的分词系统[J].微电子学与计算机,2009,26(5):68-70. 被引量：1
10张翔,周明全,耿国华.Bagging中文文本分类器的改进方法研究[J].小型微型计算机系统,2010,31(2):281-284. 被引量：8

计算机应用与软件

2014年第8期

浏览历史

内容加载中请稍等...

一种基于类别强信息特征和贝叶斯算法的中文文本分类器被引量：5

参考文献8

二级参考文献28

共引文献94

同被引文献23

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于类别强信息特征和贝叶斯算法的中文文本分类器 被引量：5

参考文献8

二级参考文献28

共引文献94

同被引文献23

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于类别强信息特征和贝叶斯算法的中文文本分类器被引量：5