期刊文献+

基于虚词停顿的中文分词消歧研究 被引量:2

Research on the Sense Disambiguation of Chinese Segmentation Based on the Pause of the Form Word
原文传递
导出
摘要 提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。 This paper puts forward a model which can eliminate sense ambiguity of Chinese segmentation based on the pause of the empty words. Firstly, this model segments words roughly based on the empty words library and then it has many phrases between pauses. Secondly, they segment phrases based on MM and RMM and extract the ambiguity. Finally, they have the model of N-Gram and the technology of the data smoothing to improve it. The process can be divided into three parts : segments word roughly, segments word nar rowly and disambiguation. The test result shows that this model is able to reduce the error rate of segmentation ,which is caused by the ambiguity of word segmentation.
出处 《图书情报工作》 CSSCI 北大核心 2010年第14期121-125,共5页 Library and Information Service
基金 广西教育厅科研项目"基于中文自然语言理解的智能检索技术研究"(项目编号:桂科目0991254) 广西研究生教育创新计划资助项目"面向对象的汉语语义网络模型的研究"(项目编2008105960812M18)的研究成果之一
关键词 分词 停顿 最大匹配 N-GRAM模型 数据平滑 word segmentation pause word maximum matching method N-Gram model data smoothing
  • 相关文献

参考文献7

  • 1张谊生.助词语相关格式.安徽教育出版社,2002.
  • 2C-ToBI : Prosodic labeling system for Chinese. [ 2008 - 06 - 27]. http://www, cass. net. cn/chinese/slSyys/yuyin/product/product10. htm.
  • 3Pan - Mandarin ToBI System. [ 2008 - 06 - 27]. http://people.cohums, ohio - state, edu/chan9/MToBI, htm.
  • 4昝红英,张坤丽,柴玉梅,俞士汶.现代汉语虚词知识库的研究[J].中文信息学报,2007,21(5):107-111. 被引量:27
  • 5Duda R O, Hart P E, Stork D G. Pattern Classification (2nd Edition). New York :Wiley, 2001.
  • 6Katz SM. Estimation of probabilities from sparse Data for the language model component of a speech recognizer. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1987, 35 (3) :400- 401.
  • 7梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.

二级参考文献9

  • 1俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量:29
  • 2吴云芳,俞士汶.信息处理用词语义项区分的原则和方法[J].语言文字应用,2006(2):126-133. 被引量:30
  • 3刘云.汉语虚词知识库的建设[D].北京:北京大学.2004.
  • 4俞士汶 朱学锋 刘云.现代汉语广义虚词知识库的建设.汉语语言与计算学报,2003,(1):89-98.
  • 5俞士汶,朱学锋,刘云.面向自然语言理解的汉语虚词研究[A].民族语言文字信息技术研究[C],西苑出版社,2007.270-277.
  • 6彭爽.现代汉语介词知识库的建设及相关研究[D].北京:北京大学,2006.
  • 7昝红英,张坤丽,柴玉梅,俞士汶.现代汉语副词用法的形式化描述[A],第八届汉语词汇语义学研讨会论文集[C].香港理工大学,2007.
  • 8张谊生.助词语相关格式[M].安徽教育出版社,2002.
  • 9俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量:126

共引文献70

同被引文献38

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部