期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种利用校对信息的汉字识别自适应后处理方法 被引量:6
1
作者 李元祥 刘长松 丁晓青 《中文信息学报》 CSCD 北大核心 2001年第1期46-52,共7页
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应... 后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。 展开更多
关键词 汉字识别 修正候选字集 自适应语言模型 文本平均错误率 动态识别特性 校对信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部