基于特征缺失补偿最大熵模型的文本分类被引量：2

Text Classification Algorithm Based on Maximum Entropy and Compensation Strategy for Unseen Features

下载PDF

导出

摘要针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法。为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法。通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法。

作者祁瑞华杨德礼胡润波

机构地区大连外国语学院现代教育技术中心大连理工大学管理学院系统工程研究所

出处《情报杂志》 CSSCI 北大核心 2010年第5期141-143,147,共4页 Journal of Intelligence

基金国家自然科学基金项目"移动电子商务支付模式及安全性能分析研究"(编号:70672092) 国家自然科学基金重大项目"面向服务的商务智能与知识管理方法研究"(编号:708890080)

关键词特征缺失最大熵文本分类特征选择

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
2Zheng Ping Jiang,Hwee Tou Ng.Semantic Role Labeling of Nom-Bank:A Maximum Entropy Approach[C].Conference on Empirical Methods in Natural Language Processing,2006:138-145.
3Adwait Ramaparkhi.Maximum Entropy Models for Natural Language Ambiguity Resolution[D].PA,USA:University of Pennsylvania Philadelphia,1998:AAI9840230.
4JAYNES E T.On the Rationale of Maximum-Entropy Methods[C].IEEE,Proceedings,1982,70:939-952.
5Chen Stanley F,Joshua Goodman.An Empirical Study of Smoothing Techniques for Language Modeling[C].Proceedings of the 34th Annual Meeting on Association for Computational Linguistics,Santa Cruz,California,1996:310-318.
6Adma L Berger,Stephen A Della Pietra,Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistic,1996,22(1):39-71.
7谭松波.王月粉.中文文本分类语料库-TanCorpV1.0[DB]. [2009-10-30]http://www,searchforum,org.cn/tansongbo/corpus,htm.

二级参考文献28

1Chen SF, Rosenfeld R. A Gaussian prior for smoothing maximum entropy models. Technical Report, CMU-CS-99-108, 1999.
2Gildea D, Jurafsky D. Automatic labeling of semantic roles. Computational Linguistics, 2002,28(3):245-288.
3Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project. In: Boitet C, Whitelock P, eds. Proc. of the ACL&Coling'98.Montreal: ACL, 1998. 86-90.
4Palmer M, Gildea D, Kingsbury P. The Proposition bank: An annotated corpus of semantic roles. Computational Linguistics, 2005,31(1):71-106.
5Erk K, Kowalski A, Pado S, Pinkal M. Towards a resource for lexical semantics: A large german corpus with extensive semantic annotation. In: Hinrichs EW, Roth D, eds. Proc. of the ACL 2003. Sapporo: ACL, 2003. 537-544.
6Chen J, Rainbow O. Use of deep linguistic features for the recognition and labeling of semantic arguments. In: Hinrichs EW, Roth D, eds. Proc. of the EMNLP 2003. Sapporo: ACL, 2003.41-48.
7Nielsen RD, Pradhan S. Mixing weak learners in semantic parsing. In: Lin D, Wu D, eds. Proc. of the EMNLP 2004. Barcelona:ACL, 2004. 80-87.
8Pradhan S, Hacioglu K, Krugler V, Ward W, Martin JH, Jurafsky D. Support vector learning for semantic argument classification.Machine Learning Journal, 2005,60(3): 11-39.
9Carreras X, Marques L, Chrupala G. Hierarchical recognition of propositional arguments with perceptrons. In: Ng HT, Riloff E, eds.Proc. of the CoNLL 2004. Boston: ACL, 2004.106-109.
10Punyakanok V, Koomen P, Roth D, Yih W. Generalized inference with multiple semantic role labeling systems. In: Knight K, Ng HT, Oflazer K, eds. Proc. of the CoNLL 2005. Ann Arbor: ACL, 2005. 181-184.

共引文献72

1刘亚慧,杨浩苹,李正华,张民.一种轻量级的汉语语义角色标注规范[J].中文信息学报,2020(4):10-20. 被引量：4
2丁金涛,周国栋,王红玲,朱巧明.语义角色标注中有效的识别论元算法研究[J].计算机工程与应用,2008,44(18):153-156. 被引量：2
3方巍,黄黎,崔志明.基于最大熵分类器的Deep Web查询接口自动判定[J].计算机工程与应用,2008,44(21):133-137. 被引量：1
4丁伟伟,常宝宝.基于最大熵原则的汉语语义角色分类[J].中文信息学报,2008,22(6):20-26. 被引量：11
5丁金涛,王红玲,周国栋,朱巧明,钱培德.语义角色标注中特征优化组合研究[J].计算机应用与软件,2009,26(5):17-21. 被引量：7
6谢毓湘,栾悉道,吴玲达,谭洁,陈丹雯.基于概念的多媒体数据语义检索模型[J].计算机应用研究,2009,26(8):2945-2947.
7汪红林,王红玲,周国栋.基于依存关系的语义角色标注[J].计算机工程,2009,35(15):82-84. 被引量：4
8贾君枝,赵文娟,王东元.汉语框架网络知识库的语义角色特征识别[J].图书情报工作,2009,53(17):110-113. 被引量：4
9丁伟伟,常宝宝.基于语义组块分析的汉语语义角色标注[J].中文信息学报,2009,23(5):53-61. 被引量：23
10李军辉,王红玲,周国栋,朱巧明,钱培德.语义角色标注中句法特征的研究[J].中文信息学报,2009,23(6):11-18. 被引量：11

同被引文献21

1佘正炜,钱松荣.基于神经网络的情感词汇自动获得方法[J].微型电脑应用,2011(11):33-36. 被引量：1
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
4马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171. 被引量：509
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6Hatzivassiloglou V, McKeown K R.Predi-cting the Semantic Orientation of Adjectives[C].Proc.of the 35th Annual Meetingof the Association for Computational Linguistics.Madrid,Spain:[s.n.],1997:174-181.
7Peter D Turney.Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsuper-vised Classification of Reviews[C].Proceedings of the 40th Annual Meeting of the Association forComputational Linguistics ( ACL), Philadelphia, PA, USA.2002:417-424.
8Turney P, Littman M L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Trans.on Information Systems, 2003,21(4):315-346.
9Hannah D, Macdonald C.Experiments in Blog and EnterpriseTracks with Terrier[A].USA:NIST Special Publication,2007:1-10.
10辛霄,范士喜,王轩,王晓龙.基于最大熵的依存句法分析[J].中文信息学报,2009,23(2):18-22. 被引量：11

引证文献2

1孙瑞娜,刘继,钟磊.面向网络舆情的哈萨克语情感词汇自动获取[J].情报杂志,2015,34(1):169-173. 被引量：2
2任立园,谢振平,刘渊.文本摘要的建构渗透度特征模型[J].中文信息学报,2018,32(7):74-81.

二级引证文献2

1徐娜,唐海芳,张煊.基于ISM方法的舆情管理人员胜任力结构模型分析[J].情报杂志,2017,36(3):104-108. 被引量：4
2王娟丽.网络社会公共危机影响因素的实证分析[J].图书馆,2017(5):40-46. 被引量：3

1蒋方纯.机器学习应用中特征缺失研究[J].深圳信息职业技术学院学报,2012,10(3):28-32. 被引量：1
2刘爽.基于特征缺失修复的人脸三维运动形变估计算法[J].科技通报,2012,28(5):163-166.
3王风华,孟文杰.基于自适应并行结构的多模态生物特征识别[J].电子设计工程,2012,20(20):190-192. 被引量：1
4陈素根,尹贺峰.基于白化PCA图像重构的特征补偿人脸识别新方法[J].计算机应用研究,2015,32(9):2853-2856. 被引量：8
5杨伟,王宽全,左旺孟.GP-MaxEnt模型的蛋白质二级结构预测[J].哈尔滨工业大学学报,2009,41(8):65-68. 被引量：1
6陈学灵,王美清.基于双重轮廓演化曲线的相似图像组分割模型[J].微型机与应用,2015,34(23):33-36.
7叶青,黄炎磊.基于空间曲线逼近算法的三维图像重建[J].科技通报,2013,29(5):134-137. 被引量：3
8刘大千,刘万军,费博雯.先验模型约束的抗干扰轮廓跟踪[J].中国图象图形学报,2017,22(4):502-515. 被引量：5
9庞秀丽,冯玉强,庞志贤.基于最大熵的经济预警研究[J].计算机工程与应用,2007,43(5):215-218. 被引量：5
10张平,蒋烈辉,刘铁铭,谢耀滨.基于多属性决策的嵌入式操作系统识别技术[J].计算机应用,2012,32(4):1060-1063. 被引量：4

情报杂志

2010年第5期

浏览历史

内容加载中请稍等...

基于特征缺失补偿最大熵模型的文本分类被引量：2

参考文献7

二级参考文献28

共引文献72

同被引文献21

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征缺失补偿最大熵模型的文本分类 被引量：2

参考文献7

二级参考文献28

共引文献72

同被引文献21

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于特征缺失补偿最大熵模型的文本分类被引量：2