基于最大熵模型的交集型切分歧义消解被引量：6

Resolution of Overlapping Ambiguity Strings Based on Maximum Entropy Model

下载PDF

导出

摘要利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%. The resolution of overlapping ambiguity strings （OAS） is studied based on maximum entropy model. There are two model outputs, where either the first two characters form a word or the last two characters form a word. Features of the model include one word in context of OAS, the current OAS and word probability relation of two kinds of segmentations result. OAS in the training text is found by the combination of FMM and BMM segmentation method. After feature tagging they are used to train the maximum entropy model. The People Daily corpus of January 1998 is used in training and testing. Experimental result shows a closed test precision of 98.64% and an open test precision of 95.01%. The open test precision is improved 3.76% compared with that of the precision of common word probability method.

作者张锋樊孝忠

机构地区北京理工大学信息科学技术学院计算机科学工程系

出处《北京理工大学学报》 EI CAS CSCD 北大核心 2005年第7期590-593,共4页 Transactions of Beijing Institute of Technology

关键词中文信息处理汉语自动分词交集型歧义最大熵模型 Chinese information processing Chinese automatic word segmentation overlapping ambiguity strings maximum entropy model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
3李蓉,刘少辉,叶世伟,史忠植.基于SVM和k-NN结合的汉语交集型歧义切分方法[J].中文信息学报,2001,15(6):13-18. 被引量：19
4Ratnaprkhi A. Maximum entropy models for natural language ambiguity resolution [D]. Pomsy Lvania: University of Pennsylvania, 1998.
5Berger A L, Pietra S A D, Pietra V J D. A maximum entropy approach to natural language processing [J]. Computational Linguistic, 1996,22(1): 39-71.
6Darroch J N, Ratcliff D. Generalized iterative scaling for log-linear models [J]. The Annals of Mathematical Statistics, 1972,43(5): 1470-1480.
7Pietra S D, Pietra V D, Lafferty J. Inducing features of random fields [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19(4): 380-393.

二级参考文献7

1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
2Sun Maosong，Proc 5th Conf Applied Natural Language Processing，1997年
3刘开瑛，语言文字应用，1997年，1期，101页
4孙茂松，语言文字应用，1995年，4期，40页
5孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51
6沈达阳,孙茂松.Internet中文个人信息搜索[J].中文信息学报,1999,13(2):24-32. 被引量：7
7李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133

共引文献74

1付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
5刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
6陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
7吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
10陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7

同被引文献71

1李亮.英语语料库检索工具的设计理念及其深层化[J].外语电化教学,2007(6):16-20. 被引量：8
2张小衡,石定栩.面向语料库处理的CDBMS和CSQL[J].当代语言学,1998(1):30-37. 被引量：3
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
7李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

引证文献6

1余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
2任惠,林鸿飞,杨志豪.融合字特征的平滑最大熵模型消解交集型歧义[J].中文信息学报,2010,24(4):18-24. 被引量：3
3于江德,李学钰,樊孝忠,庞文博.最大熵模型的事件分类[J].电子科技大学学报,2010,39(4):612-616. 被引量：7
4罗浩,魏祖宽,金在弘.面向GIS基于专有名词优先的中文分词方法[J].计算机应用,2010,30(7):1941-1943. 被引量：1
5于江德,周宏宇,余正涛.汉语词性标注的特征工程[J].山东大学学报（工学版）,2011,41(6):12-17.
6刘国兵,刘瑞.基于词汇坐标的语料库文本处理模型:原理及方法[J].河南师范大学学报（自然科学版）,2012,40(4):133-136. 被引量：1

二级引证文献12

1刘涛,蒋国权,丁鲲,孙毅,刘姗姗.基于大模型的事件抽取技术及军事应用思考[J].网络安全与数据治理,2023,42(S01):163-168.
2张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
3肖升,何炎祥.事件超图模型及类型识别[J].中文信息学报,2013,27(1):30-38. 被引量：2
4刘晓燕,孙海燕.基于“词坐标”的文本处理模型算法分析[J].河南大学学报（自然科学版）,2015,45(1):95-101.
5左惠凯,闫路娜,任瑞娟.面向本体的专有叙词语义关系研究[J].河北科技大学学报（社会科学版）,2016,16(2):45-48. 被引量：1
6尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3
7赵红丹,田喜平,于江德.互联网数据资源中特征用户准确识别仿真[J].计算机仿真,2017,34(7):256-259. 被引量：3
8邱定,张激,王金华,王盼盼,游飞.基于Rocchio和KNN提出的新的文本分类技术[J].自动化与仪器仪表,2017(8):107-110. 被引量：3
9姚敦红,李石君,胡亚慧.三维有偏权值张量分解在授课推荐上的应用研究[J].电子科技大学学报,2017,46(5):747-754. 被引量：3
10尤慧丽.基于CFRs模型的交集型歧义消解研究[J].电脑知识与技术,2018,14(6X):263-264.

1李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
2刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14
3李天侠,戴新宇,陈家骏.基于混合模型的交集型歧义消歧策略[J].计算机工程与应用,2008,44(21):5-8. 被引量：2
4羊毛卓玛,欧珠.一种改进的藏文分词交集型歧义消解方法[J].西藏科技,2012(1):66-68. 被引量：3
5张培颖,李村合.基于知识库的交集型歧义字段切分系统[J].计算机系统应用,2006,15(8):42-43. 被引量：1
6谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
7李蓉,刘少辉,叶世伟,史忠植.基于SVM和k-NN结合的汉语交集型歧义切分方法[J].中文信息学报,2001,15(6):13-18. 被引量：19
8黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
9闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22
10郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5

北京理工大学学报

2005年第7期

浏览历史

内容加载中请稍等...

基于最大熵模型的交集型切分歧义消解被引量：6

参考文献7

二级参考文献7

共引文献74

同被引文献71

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的交集型切分歧义消解 被引量：6

参考文献7

二级参考文献7

共引文献74

同被引文献71

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于最大熵模型的交集型切分歧义消解被引量：6