期刊文献+

一种新的基于统计的词典扩展方法 被引量:8

A New Statistical Method of Automatic Lexicon Augmentation
下载PDF
导出
摘要 在建立统计语言模型时 ,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料 ,这一问题尤为严重。针对这一问题 ,本文提出了一种新的基于统计的识别新词方法———右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计 ,利用右边缘扩展的方法判断词的边界。在实验中 ,我们将右边缘扩展法与基于Witten Bellbackoff方法的两两合并法相结合 ,循环地调整词典 ,优化语言模型。实验结果表明 ,该算法具有很高的识别正确率与检出率 ,可以有效地识别出语料中出现的新词汇 。 The out of vocabulary problem is one of the bottlenecks in Chinese Language Modeling.The problem is especially serious for domain specific training data set.This paper presents a new statistical method to extract new words from the training data.This new method is based on association norm estimation,and searches for the word boundaries by right boundary expanding.Combining the new method with another word merging method,we can iteratively optimize the lexicon,segmentation and language model.And very encouraging results are reported in our experiments.
出处 《中文信息学报》 CSCD 北大核心 2001年第5期46-51,共6页 Journal of Chinese Information Processing
关键词 词典 关联范数估计 右边缘扩展法 统计语言模型 文字识别 两两合并法 lexicon association norm estimation right boundary expanding language model
  • 相关文献

参考文献5

  • 1Tang Haijiang,2000 International Symposium on Chinese Spoken Language Processing,2000年
  • 2Gao Jianfeng,IEEE 2000 Int Conference on Acoustics Speech and Signal Processing,2000年
  • 3Chien Leefeng,Information Processing and Management,1999年,35卷,501页
  • 4Yang Kaecherng,IEEE 1998 Int Conference on Acoustics Speech and Signal Processing,1998年,169页
  • 5Wong Padkwong,The 16th Int Conferenceon Computational Linguistics,1996年,200页

同被引文献93

引证文献8

二级引证文献72

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部