-
题名一种新的基于统计的词典扩展方法
被引量:8
- 1
-
-
作者
周正宇
李宗葛
-
机构
复旦大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2001年第5期46-51,共6页
-
文摘
在建立统计语言模型时 ,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料 ,这一问题尤为严重。针对这一问题 ,本文提出了一种新的基于统计的识别新词方法———右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计 ,利用右边缘扩展的方法判断词的边界。在实验中 ,我们将右边缘扩展法与基于Witten Bellbackoff方法的两两合并法相结合 ,循环地调整词典 ,优化语言模型。实验结果表明 ,该算法具有很高的识别正确率与检出率 ,可以有效地识别出语料中出现的新词汇 。
-
关键词
词典
关联范数估计
右边缘扩展法
统计语言模型
文字识别
两两合并法
-
Keywords
lexicon
association norm estimation
right boundary expanding
language model
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-