期刊文献+

现代汉语通用分词系统中歧义切分的实用技术 被引量:19

Disambiguation in a Modern Chinese General-Purpose Word Segmentation System
下载PDF
导出
摘要 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%· Disambiguation is one of the most important parts of segment systems in Chinese. A Chinese general-purpose word segmentation (GPWS) system demands higher capacity of disambiguation techniques particularly, because it has functions such as allowing users to create their own dictionaries dynamically and employing multiple user' s dictionaries to word segmentation. Based on inspection of the distributions and characteristics of ambiguity fragments (especially overlapping ambiguity fragments) in large-scale real corpus, an improved forward maximum match algorithm for ambiguity fragment detection, as well as a practical " rules + exceptions" disambiguation strategy, are proposed in this paper. An exhaustive extraction has been made of the overlapping ambiguity sections (about 2.4 million occurrences) from a People's Daily corpus of 100 million characters (234MB approximately), and open-ended experiments on the above strategy randomly were carried out, which achieved accuracy average of 99 %.
作者 罗智勇 宋柔
出处 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1122-1128,共7页 Journal of Computer Research and Development
基金 国家自然科学基金项目(60272055) 国家"八六三"高技术研究发展计划基金项目(2001AA114111) 教育部科学技术研究重点基金项目(00128) 教育部人文社会科学重点研究基地重大项目(02JAZJD740007)~~
关键词 中文信息处理 通用分词系统 歧义切分 Chinese information processing general-purpose word segmentation system disambiguation
  • 相关文献

参考文献10

  • 1娄珽,宋柔,李卫亮,罗智勇.现代汉语分词系统通用接口设计与实现[J].中文信息学报,2001,15(5):1-7. 被引量:6
  • 2娄埏.现代汉语分词系统通用性设计及切分歧义处理:[硕士论文].北京:北京工业大学,2000.
  • 3罗智勇,宋柔,等.现代汉语自动分词中专名的一体化、快速况别方法.2001 Int'l Conf.Chinese Computing(ICCC’2001),新加坡,2001.
  • 4Andi Wu,Zixin Jiang.Word segmentation in sentence analysis.1998中文信息处理国际会议论文集.北京:清华大学出版社,1998.169~180.
  • 5马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
  • 6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量:101
  • 7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量:197
  • 8孙茂松,左正平,等.汉语真实文本中交集型切分歧义.汉语计量与计算研究.香港:香港城市大学语言资讯科学研究中心,1998.323~338.
  • 9冯志伟.自然语言的计算机处理[M].上海外语教育出版社,1994..
  • 10何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量:29

二级参考文献90

共引文献324

同被引文献213

引证文献19

二级引证文献93

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部