Bayes文本分类器的改进方法研究被引量：11

Research on Improvement of Bayesian Text Classifier

下载PDF

导出

摘要在文本分类领域,Bayes分类器是一种常用且效果较好的、基于概率的分类器,具有较严密的理论基础。该文对朴素Bayes文本分类器进行了分析,提出了利用权值调整机制改善其分类性能的方法,以及在缺乏大量训练文本的情况下,利用EM算法进行非监督Bayes分类的方法,并讨论了如何运用启发式方法确定Bayes网络结构,在更贴近真实环境的情况下进行文本分类。 Bayesian classification model is common, powerful for text categorization task. It is based on probability and is of religious theoretic basis. The paper makes analysis to the simple and common naive Bayesian categorization model, and presents an approach to improve performance of Bayesian classification model using weight adjustment and an approach to make non-tutor Bayesian categorization using EM algorithm when lacking mass training texts, and discusses how to fix the framework of Bayesian network using heuristic methods so as to make text classification in real circumstance.

作者鲁明羽

机构地区大连海事大学计算机科学与技术学院

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第17期63-65,共3页 Computer Engineering

基金国家自然科学基金资助项目(60473115)

关键词文本分类朴素Bayes分类模型权值调整 EM算法 Text categorization Naive Bayesian categorization model Weight adjustment EM algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
2石洪波,王志海,黄厚宽,励晓健.一种限定性的双层贝叶斯分类模型[J].软件学报,2004,15(2):193-199. 被引量：44
3鲁明羽,李凡,庞淑英,陆玉昌,周立柱.基于权值调整的文本分类改进方法[J].清华大学学报（自然科学版）,2003,43(4):513-515. 被引量：17
4石洪波,王志海,黄厚宽.一种基于TAN的文本分类方法[J].广西师范大学学报（自然科学版）,2003,21(1):81-85. 被引量：4

二级参考文献29

1[1]Langley P,Iba W,Thompson K.An analysis of bayesian classifiers[A].Proceedings tenth national conference on artificial intelligence[C].Menlo Park,CA:AAAI Press,1992.223-228.
2[2]Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29:131-163.
3[3]Pearl J.Probabilistic reasoning in intelligent systems:Networks of plausible inference[M].San Francisco:Morgan Kaufman Publishers,1988.122-150.
4[4]Chickering D M.Learning bayesian networks is NP-complete[A].Horvitz Eric,Jensen Finn V.Proceedings of the 12th conference on uncertainty in artificial intelligence[C].San Francisco:Morgan Kaufmann Publishers,1996.210-216.
5[5]Dumais S,Platt J,Heckerman D,et al.Inductive learning algorithms and representations for text categorization[A].Makki K,Bouganim L.Proceedings international conference on information and knowledge management[C].New York:ACM Press,1998.148-155.
6[6]Yang Y.An evaluation of statistical approaches to text categorization[J].Journal of Information Retrieval,1999,1(1/2):67-88.
7[7]Lam W,Ho C Y.Using a generalized instance set for automatic text categorization[A].Moffat Alistair,Wilkinson Ross.Proceedings of the 21th annual international ACM SIGIR conference on research and development in information retrieval[C].New York:ACM Press,1998.81-89.
8[8]Han E H,Karypis G,Kumar V.Text categorization using weight adjusted k-nearest neighbor classification[A].Cheung D,Williams G J,Li Q.Proceedings of the 5th Pacific Area conference on knowledge discovery and data mining (PAKDD 2001).Lecture notes in artificial intelligence (LNAI)[C].Berlin:Springer,2001.53-65.
9[9]Yang Y,Chute C G.An application of least squares fit mapping to text information retrieval[A].Korfhage Robert,Rasmussen Edie,Willett Peter.Proceedings of 16th annual international ACM SIGIR conference on research and development in information retrieval[C].New York:ACM Press,1993.281-290.
10[10]Mccallum A,Nigam K.A comparison of event models for naive bayes text classification[DB/OL].http://citeseer.nj.nec.com/mccallum98comparison.html.1999.

共引文献138

1张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
2于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
3王利民,李雄飞,张海龙.基于广义信息论的贝叶斯分类器动态建模[J].吉林大学学报（工学版）,2009,39(3):776-780. 被引量：5
4单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
5陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
8许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
9钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
10周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11

同被引文献54

1肖明,殷锋,张楠.垃圾邮件过滤技术及发展[J].西南民族大学学报（自然科学版）,2007,33(1):207-212. 被引量：8
2孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
3刘良斌,王小平.基于支持向量机和输出编码的文本分类器研究[J].计算机应用,2004,24(8):32-34. 被引量：8
4王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
5陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
6郑淑荣.整治垃圾短信国外经验及对我们的启示[J].数字通信世界,2006(5):24-26. 被引量：6
7牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
8肖云,韩崇昭.基于支持向量机的降低入侵检测误报警方法[J].计算机工程,2006,32(17):25-27. 被引量：7
9孙晋文,肖建国.基于SVM文本分类中的关键词学习研究[J].计算机科学,2006,33(11):182-184. 被引量：12
10邓维维,彭宏.移动环境下的垃圾短信过滤系统的研究[J].计算机应用,2007,27(1):221-224. 被引量：14

引证文献11

1曹建芳,王鸿斌.基于SVM的汉语动词短语分类算法研究[J].河北北方学院学报（自然科学版）,2008,24(2):66-70.
2李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程,2008,34(12):154-156. 被引量：17
3张虹.基于自动文本分类的关键词抽取算法[J].计算机工程,2009,35(12):145-147. 被引量：18
4曹建芳,王鸿斌.一种新的基于SVM的文本分类增量学习算法[J].电子商务,2009,10(12):68-71. 被引量：1
5张兢,候旭东,吕和胜.基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J].重庆理工大学学报（自然科学）,2010,24(1):77-80. 被引量：18
6曹建芳,王鸿斌.一种新的基于SVM-KNN的Web文本分类算法[J].计算机与数字工程,2010,38(4):59-61. 被引量：4
7曹建芳,王鸿斌.基于支持向量机的中文娱乐新闻词语的识别[J].计算机应用与软件,2011,28(2):249-252. 被引量：2
8许明英,尉永清,赵静.一种结合反馈信息的贝叶斯分类增量学习方法[J].计算机应用,2011,31(9):2530-2533. 被引量：5
9李彬.垃圾短信过滤器的研究与实现[J].科技传播,2011,3(1):203-204. 被引量：1
10金秀,姜尚伟,苑莹.基于股吧信息的投资者情绪与极端收益的可预测性研究[J].管理评论,2018,30(7):16-25. 被引量：28

二级引证文献94

1尹必超,孔东民,季绵绵.散户积极主义提高上市公司审计质量吗[J].会计研究,2022(10):157-178. 被引量：5
2罗剑宏,徐子涵.投资者情绪、拥挤交易行为与股票风险溢价关系研究[J].价格理论与实践,2019(10):83-86. 被引量：8
3陈锦青,韩延杰.基于改进遗传算法的支持向量机预测模型研究[J].微型机与应用,2013,32(24):82-84. 被引量：2
4拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
5高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
6李斌.基于贝叶斯网络的垃圾邮件自动识别[J].现代计算机,2010,16(6):26-29. 被引量：1
7张颖颖,谢强,丁秋林.基于同义词链的中文关键词提取算法[J].计算机工程,2010,36(19):93-95. 被引量：13
8夏彦,何琳,潘运来,欧阳辰晨.基于规则与统计相结合的互联网突发事件识别研究[J].现代图书情报技术,2010(10):65-69. 被引量：6
9齐晓莉.垃圾彩信监控系统建设探讨[J].电信工程技术与标准化,2011,24(5):47-51.
10段磊,唐常杰,左劼,彭京,刘婷婷,苟驰.Web实时环境两级过滤中文文本内容自学习算法[J].计算机科学与探索,2011,5(8):695-706. 被引量：3

1程波.四种机制改善基于工作流的OA[J].中国教育网络,2009(6):58-60.
2王丽芳,王珺吉,蒋泽军.基于消息代理的数据集成框架研究[J].微电子学与计算机,2007,24(1):190-192. 被引量：3
3郑燕玲.一种基于信息熵的空间聚类算法[J].微电子学与计算机,2011,28(8):225-227.
4杨杰,陈晓云.图像分类方法比较研究[J].微计算机应用,2007,28(6):627-632. 被引量：4
5刘子轶,郝玲.反垃圾邮件策略的研究[J].机电产品开发与创新,2009,22(2):115-117.
6王旭仁,何发镁.基于Nave Bayes分类的网络安全审计数据分析研究[J].计算机工程与应用,2007,43(31):154-155.
7付小勇,杨建祥,谭靖.基于统计的遥感图像分类方法[J].林业调查规划,2005,30(6):20-22. 被引量：2
8刘春贵,张连芳,舒炎泰,吴晓金,石宏杨.无线自组网络QoS流的准入控制和流量控制[J].计算机工程与应用,2008,44(25):88-91. 被引量：2
9赵新慧.搜索引擎中基于Bayes分类的网页更新研究[J].交通与计算机,2005,23(5):63-65.
10梁妍,刘心松,邱元杰.一种DHT与洪泛相结合的P2P资源定位模型[J].计算机工程与科学,2008,30(7):36-39. 被引量：1

计算机工程

2006年第17期

浏览历史

内容加载中请稍等...

Bayes文本分类器的改进方法研究被引量：11

参考文献4

二级参考文献29

共引文献138

同被引文献54

引证文献11

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

Bayes文本分类器的改进方法研究 被引量：11

参考文献4

二级参考文献29

共引文献138

同被引文献54

引证文献11

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

Bayes文本分类器的改进方法研究被引量：11