用基于词的二元模型消解交集型分词歧义被引量：7

Using Word-based Bi-gram as a Discriminator for Crossing Ambiguities in Chinese Word Segmentation

下载PDF

导出

摘要解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99％以上,开放测试正确率达到90％以上,比以往最好结果有明显的提高。 It is very important to solve the crossing ambiguities in word segmentation for Chinese information processing. We employ the word-based bi-gram to discriminate the 3-character crossing ambiguous string in two corpora. The precision rates are above 99% and 90% respectively in close test and open test, which are much higher than the best results yielded before.

作者陈小荷

机构地区南京师范大学文学院

出处《南京师大学报（社会科学版）》 CSSCI 北大核心 2004年第6期109-113,共5页 Journal of Nanjing Normal University(Social Science Edition)

关键词中文信息处理基于词的二元模型交集型分词歧义 Chinese information processing Word-based Bi-gram crossing ambiguities in Chinese word segmentation

分类号 H030 [语言文字—语言学]

引文网络
相关文献

参考文献3

1梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
2孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报（自然科学版）,1999,39(5):101-103. 被引量：22
3[6]Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing. London: The MIT Press. 1999.

二级参考文献3

1Sun Maosong，Proc 5th Conf Applied Natural Language Processing，1997年
2刘开瑛，语言文字应用，1997年，1期，101页
3孙茂松，语言文字应用，1995年，4期，40页

共引文献61

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
4刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
7陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7
8杨芳,杨振山.一种消除中文匹配中交集型歧义的方法[J].计算机辅助工程,2005,14(2):36-38. 被引量：2
9张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
10杨芳.基于电子政务主题词表的中文匹配方法[J].情报杂志,2005,24(8):14-15. 被引量：1

同被引文献71

1邱庆山.歧义句“连N也V”中N的“语义成分同词”类型考察[J].理论月刊,2008(12):109-111. 被引量：2
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3周明强.歧义、歧解和用歧的认知问题[J].语言文字应用,2004(3):83-90. 被引量：17
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5尤庆学.歧义度的调查与分析[J].汉语学习,2000(5):15-19. 被引量：24
6延俊荣.“挖深了”歧义成因及分化[J].语文研究,2000(2):26-29. 被引量：4
7刘开瑛.歧义切分与专有名词识别软件[J].语言文字应用,2001(3):9-15. 被引量：4
8何洪峰.论双重歧义因素组合的结构[J].语言研究,2002,22(3):39-48. 被引量：5
9武宁宁,舒华.汉语词类歧义解决初探[J].心理科学,2003,26(1):60-63. 被引量：11
10张亚旭,舒华,张厚粲,周晓林.话语参照语境条件下汉语歧义短语的加工[J].心理学报,2002,34(2):126-134. 被引量：29

引证文献7

1李斌,陈小荷,方芳,徐艳华.基于语料库的高频最大交集型歧义字段考察[J].中文信息学报,2006,20(1):1-6. 被引量：6
2章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
3吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12
4任惠,林鸿飞,杨志豪.融合字特征的平滑最大熵模型消解交集型歧义[J].中文信息学报,2010,24(4):18-24. 被引量：3
5于秒,冯玥.近十年来汉语歧义研究综观与展望[J].理论月刊,2011(11):64-67. 被引量：1
6尤慧丽.基于CFRs模型的交集型歧义消解研究[J].电脑知识与技术,2018,14(6X):263-264.
7张霄军,陈小荷.双语平行语料的预处理[J].外语教育,2007(1):145-149. 被引量：1

二级引证文献22

1章成志,苏新宁.面向信息检索的排除词识别研究[J].现代图书情报技术,2007(2):44-48.
2乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
3刘健,张维明.一种快速的交集型歧义检测方法[J].计算机应用研究,2008,25(11):3259-3261. 被引量：3
4刘丹,方卫国,周泓.二元语法中文分词数据平滑算法性能研究[J].计算机工程与应用,2009,45(17):33-36. 被引量：4
5刘丹,方卫国,周泓.基于贝叶斯网络的二元语法中文分词模型[J].计算机工程,2010,36(1):12-14. 被引量：8
6李寿山,黄居仁.基于词边界分类的中文分词方法[J].中文信息学报,2010,24(1):3-7. 被引量：6
7张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44
8修驰,宋柔.基于“固结词串”实例的中文分词研究[J].中文信息学报,2012,26(3):59-64. 被引量：5
9张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
10王春桥.从语义和语用的角度看汉语歧义句的英译策略[J].齐齐哈尔大学学报（哲学社会科学版）,2013(6):124-125.

1毛瑞,刘雪莹.关于器物类的“字串”式对外汉字教学[J].现代交际,2012(12):220-221. 被引量：1
2廖振发.汉语字串的结构模式研究[J].佳木斯职业学院学报,2016,32(10).
3罗竞.美国关于外语阅读理论的发展[J].外语教学与研究,1992,24(3):37-39. 被引量：29
4“辛苦”体验[J].优秀作文选评（小学版）,2009(1):107-107.
5王永艳.从六字串的自然音步看汉语音步与超音步的张力[J].现代语文（上旬．文学研究）,2013(2):130-132.
6老乔.汉字趣谈(一)[J].老友,2016,0(5):47-47.
7一课语文[J].文学少年（中学）,2011(4):41-41.
8丁立梅.文字长情[J].天天爱学习（四年级）,2017,0(7):12-12.
9冯敏萱,杨翠兰,陈小荷.“者”缀词识别[J].常州工学院学报（社会科学版）,2005,23(3):77-81. 被引量：2
10周荐.从字、词、组合的分野谈词的单位的确定[J].南开语言学刊,2004(2):212-222. 被引量：4

南京师大学报（社会科学版）

2004年第6期

浏览历史

内容加载中请稍等...

用基于词的二元模型消解交集型分词歧义被引量：7

参考文献3

二级参考文献3

共引文献61

同被引文献71

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

用基于词的二元模型消解交集型分词歧义 被引量：7

参考文献3

二级参考文献3

共引文献61

同被引文献71

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

用基于词的二元模型消解交集型分词歧义被引量：7