摘要
蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文"音词转换"和"形词转换"研究都有广泛的参考价值。
The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts. To address this issue for spelling input, this pa per adopts a large dictionary with correct pronunciations, training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence. Experiments indicate a more efficient spelling in put method is achieved, which is also enlightening for "pronunciation-to-word" coversion and "spelling-to-word" conversion.
出处
《中文信息学报》
CSCD
北大核心
2017年第1期118-125,共8页
Journal of Chinese Information Processing
基金
国家电子发展基金2010年度
2011年度蒙古文专项
国家自然科学基金(61163020)
内蒙古自治区自然科基金(2011MS0918)
关键词
蒙古文原始文本
统计建模
读音错误
字形错误
智能输入
Mongolian corpus
statistical language model
pronunciation error
spelling error
intelligent input method