期刊文献+

基于词形的汉语文本切分方法 被引量:4

Word Form Based Chinese Text Segmentation Approach
下载PDF
导出
摘要 本文在分析汉语分词一般模型基础上,引入词形概率、词整合系数和词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法。由于引入了词形概率、词整合系数,本模型不仅反映了词形统计构词规律,而且在一定程度上体现了长词优先的切分原则。初步测试表明,本方法的切分准确率和消歧率分别可达996%和9344%。 In this paper,word form probability,word form coefficient and word lattice are introduced to construct a word formality based segmentation model,and a two way scanning segmentation algorithm is implemented incorporating backward dynamic programming algorithm with forward stack decoding algorithm.Not only the statistic law on word formality,but also the principle of longest word first to some extent is reflected in the model,due to the introducing of word form probability and coefficient.Finally a segmentation accuracy rate of 99 6% and a disambiguation rate of 93 44% are achieved in the primary experiment.
出处 《情报学报》 CSSCI 北大核心 1999年第3期235-240,共6页 Journal of the China Society for Scientific and Technical Information
基金 国家863项目资助
关键词 汉语分词 词形概率 整合系数 词形网格 信息处理 Chinese word segmentation,word form probability,word form coefficient,word Form lattice.
  • 相关文献

参考文献8

  • 1孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量:66
  • 2Yao Yuan,博士学位论文,1997年
  • 3王轩,博士学位论文,1997年
  • 4Wong P K,Proc COLING’96 16th Int Conf Computational Linguistics Copenhagen,1996年,200页
  • 5Wang Y J,Proc COLING’94 16th Int Conf Computational Linguistics,1994年,1245页
  • 6Chiang T H,Proc ROCLING V ROC Computational Linguistics Conf,1992年,123页
  • 7梁南元,Communications COLIPS,1991年,1卷,1期,51页
  • 8Wang Xiaolong,Chin Sci Bull,1989年,34卷,22期,1924页

二级参考文献5

  • 1Lai B Y,Proc of ROCLING-IV,1991年
  • 2Zhang J S,Proc of ROCLING-IV,1991年
  • 3王晓龙,科学通报,1989年,13页
  • 4梁南元,中文信息学报,1987年,1期
  • 5冯志伟,数理语言学,1985年

共引文献65

同被引文献33

引证文献4

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部