文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面...文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面的技术不能满足蒙古文需求。本文在借鉴中文、英文、阿拉伯文、印度文等多种语言拼写检查技术的基础上,介绍了一种基于混合策略的蒙古文非词检查及纠错建议生成方法。在非词检查阶段融合正字法词典和相关语法规则,研制了蒙古文有限状态自动机,大大提高了词语识别速度和非词查准率。在纠错建议生成阶段,首先以3500万词文本语料为基础,构建蒙古文全词词典,并解决了动词纠错建议的生成问题。之后以上述文本语料为基础,构建了蒙古文Ngram模型,并将最小编辑距离和词根Bigram融合,研制了六种候选词排序算法。经试验,本文提出的基于字符相似度的编辑距离计算方法以及与Bigram值加权融合的排序算法表现最好,正确候选词排在第一位和前三位的准确率分别达到了92.01%和96.51%,并且已实现在商业化校对软件Mongolian Editor Version 6.0中。展开更多
文摘文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合。文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发。由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面的技术不能满足蒙古文需求。本文在借鉴中文、英文、阿拉伯文、印度文等多种语言拼写检查技术的基础上,介绍了一种基于混合策略的蒙古文非词检查及纠错建议生成方法。在非词检查阶段融合正字法词典和相关语法规则,研制了蒙古文有限状态自动机,大大提高了词语识别速度和非词查准率。在纠错建议生成阶段,首先以3500万词文本语料为基础,构建蒙古文全词词典,并解决了动词纠错建议的生成问题。之后以上述文本语料为基础,构建了蒙古文Ngram模型,并将最小编辑距离和词根Bigram融合,研制了六种候选词排序算法。经试验,本文提出的基于字符相似度的编辑距离计算方法以及与Bigram值加权融合的排序算法表现最好,正确候选词排在第一位和前三位的准确率分别达到了92.01%和96.51%,并且已实现在商业化校对软件Mongolian Editor Version 6.0中。