基于隐Markov模型的文本分类被引量：5

HMM based text categorization

下载PDF

导出

摘要把基于序列模型的隐Markov模型引入文本分类领域。把待分类文本描述成一系列状态演化的隐Markov过程,其中状态以特定的概率产生代表文本的特征项。用序列模式来描述文本类,文本序列通过与隐Markov模型的匹配,求出其对应状态序列和最大输出概率。比较各个文本类的结果,达到文本分类的目的。最后通过和简单向量算法,KNN,Naive Bayes分类算法的比较,说明本算法的在文本分类中的成功应用。 Presents the new method using Hidden Markov Models （HMM） to supervise document classification.Represents the document to be classified in a kind of hidden Markov models.The states of HMM eject the symbols with a certain probability. These symbols composes of the classified documents.The class of document is supposed to be composed by some character item series.By calculating the output probability of the HMM on the class character series can get the max corresponding output probability and the output series.Compares the result on all the class can decide the category of a certain document.The model is evaluated on the real dataset with Naive Bayes,KNN and simple vector models.It is shown to be successful method in text categorization.

作者罗双虎欧阳为民

机构地区上海大学计算机科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第30期179-181,227,共4页 Computer Engineering and Applications

关键词隐马尔可夫文本分类序列模型 Hidden Markov Models（HMM） text categorization sequence model

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Denoyer L,Zaragoza H,Gallinari P.HMM-based passage models for document classification and ranking[C]//Proceedings of 23rd European Colloquium on Information Retrieval Research,ECIR - 01,2001.
2Ge X,Smyth P.Deformable Markov model templates for time-series pattern matching [C]//Proc of the 6th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining,Boston,MA,2000:81-90.
3Leah S.Larkey:automating survey coding by multiclass text categorization techniques[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, 1998 : 90-95.
4Zaiane O R,Antonie M L.Classifying text documents by associating terms with text categories[C]/,rFhirteenth Australasian Database Conference(ADC'02), Melbourne, Australia, January 2002:215-222.
5Frasconi P,SOda G,Vullo A.Hidden Markov models for text categorization in multi-page documents [J].Joumal of Intelligent Information Systems,2002,18(2/3): 195-217.
6Freitag D,McCallum A.Information extraction with HMMs and shrinkage [C]//Proceedings of the AAAI-99 Workshop on Machine Learning for Information Extraction, 1999.
7Zavrel J,Berck P,Lavrijssen W.Information extraction by text classification:corpus mining for features [C]//Proceedings of the Workshop Information Extraction Meets Corpus Linguistics,May 30 2000.
8Szummer M,Jaakkola T.Partially labeled classification with Markov random walks [C]//Advances in Neural Information Processing Systems (NIPS)2002,14: 945-952.
9Nigam K,McCallum A K.Text classification from labeled and unlabeled documents using EM [J].Machine Learning, 2000,39 (2/3) : 103-134.
10McCallum A,Nigam K.A comparison of event models for Naive Bayes text classification [C]//AAAI-98Workshop Learning for Text Categorization, 1998.

同被引文献32

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
2张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
3郭昭辉,刘绍翰,武港山.基于神经网络的中文文本分类中的特征选择技术[J].计算机应用研究,2006,23(7):161-164. 被引量：8
4李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
5王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4
6徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：122
7吴芬芬,刘磊,肖宪.一种启发式的信息抽取算法[J].吉林大学学报（理学版）,2007,45(1):73-76. 被引量：3
8周顺先,林亚平,王耀南.基于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报（自然科学版）,2007,34(6):74-77. 被引量：3
9PETER T,MICHAEL L. Measuring praise and criticism: Inference of semantic orientation from association [J]. ACM Transactions on Information Systems, 2003,21 (4):315-346.
10RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition [ J]. Proceedings of the IEEE, 1989, 77(2) : 257 - 286.

引证文献5

1杨健,汪海航.基于隐马尔可夫模型的文本分类算法[J].计算机应用,2010,30(9):2348-2350. 被引量：8
2章栋兵,姚寒冰,颜昕.基于隐马尔科夫模型的语义倾向性研究[J].微型机与应用,2010,29(17):71-73. 被引量：1
3张春元.基于条件随机场的文本分类模型[J].计算机技术与发展,2011,21(7):77-80. 被引量：5
4刘晓飞,邸书灵.基于隐马尔科夫模型的文本分类[J].石家庄铁道大学学报（自然科学版）,2013,26(1):101-105. 被引量：1
5高知新,徐林会.基于隐马尔科夫模型与语义融合的文本分类[J].计算机应用与软件,2017,34(7):303-307. 被引量：4

二级引证文献19

1张春元.基于条件随机场的文本分类模型[J].计算机技术与发展,2011,21(7):77-80. 被引量：5
2李开荣,孔照昆,陈桂香,朱俊武.基于改进隐马尔可夫模型的文本分类研究[J].微电子学与计算机,2012,29(11):161-165. 被引量：3
3刘晓飞,邸书灵.基于隐马尔科夫模型的文本分类[J].石家庄铁道大学学报（自然科学版）,2013,26(1):101-105. 被引量：1
4何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件,2015,32(1):179-185. 被引量：67
5柳姣姣,禹素萍,吴波,姜华,何风行,李凤荣.基于隐马尔科夫模型的时空序列预测方法[J].微型机与应用,2016,35(1):74-76. 被引量：6
6闫海磊,施水才.一种面向时政新闻的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):23-26. 被引量：3
7兰秋军,李卫康,刘文星.不同情境下中文文本分类模型的表现及选择[J].湖南大学学报（自然科学版）,2016,43(4):141-146. 被引量：4
8刘培玉,荀静,费绍栋,朱振方.基于隐马尔可夫模型的主观句识别[J].中文信息学报,2016,30(4):206-212. 被引量：10
9冯海涛,李琳,黄炎一,余小婷.微博内容自动抽取方法研究[J].辽宁工业大学学报（自然科学版）,2017,37(1):13-16.
10高知新,徐林会.基于隐马尔科夫模型与语义融合的文本分类[J].计算机应用与软件,2017,34(7):303-307. 被引量：4

1杨兴强,刘翔鹏,刘毅.Linux进程状态演化过程的图形学表示[J].系统仿真学报,2013,25(10):2444-2448. 被引量：1
2Xiao-ming GOU,Zhi-wen LIU,Wei LIU,You-gen XU.Filtering and tracking with trinion-valued adaptive algorithms[J].Frontiers of Information Technology & Electronic Engineering,2016,17(8):834-840. 被引量：1
3李园芳,佘维,叶阳东,孙振,李江林,时谊.基于混杂系统的电力设备状态感知与趋势分析[J].计算机测量与控制,2013,21(12):3352-3355. 被引量：2
4王祺,陈晓亮.一种用于柔性制造系统混惑状态估计的算法[J].西安电子科技大学学报,2017,44(2):69-74. 被引量：2
5池凤彬,潘日华,陈扉,赵冬晖.基于GPU的VLSI的DRC加速系统[J].微电子学与计算机,2007,24(4):171-173. 被引量：1
6孙志勇,杨小强,朱会杰.机械设备电控系统元器件在线故障检测系统研制[J].机械制造与自动化,2017,46(2):177-180. 被引量：2
7焦建民,左洪福.多约束条件下机械臂关节轨迹模糊控制算法[J].南京航空航天大学学报,2006,38(5):623-627. 被引量：2
8陈舒,蒋志会,陆恒,缪天翔.路网环境中关于模糊组最近邻问题的研究[J].计算机应用研究,2016,33(2):343-346. 被引量：3
9吴晓军,薛惠锋.基于元胞自动机扩展模型的图的最短路径算法[J].计算机应用,2004,24(5):92-93. 被引量：13
10吴德会,龙俊波.基于LS-SVM的车牌图像倾斜校正新方法[J].电子技术应用,2006,32(6):43-45. 被引量：4

计算机工程与应用

2007年第30期

浏览历史

内容加载中请稍等...

基于隐Markov模型的文本分类被引量：5

参考文献15

同被引文献32

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于隐Markov模型的文本分类 被引量：5

参考文献15

同被引文献32

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于隐Markov模型的文本分类被引量：5