期刊文献+

蒙古文原始语料统计建模研究 被引量:1

Study of Mongolian Raw Text Modeling
下载PDF
导出
摘要 蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文"音词转换"和"形词转换"研究都有广泛的参考价值。 The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts. To address this issue for spelling input, this pa per adopts a large dictionary with correct pronunciations, training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence. Experiments indicate a more efficient spelling in put method is achieved, which is also enlightening for "pronunciation-to-word" coversion and "spelling-to-word" conversion.
作者 白双成
出处 《中文信息学报》 CSCD 北大核心 2017年第1期118-125,共8页 Journal of Chinese Information Processing
基金 国家电子发展基金2010年度 2011年度蒙古文专项 国家自然科学基金(61163020) 内蒙古自治区自然科基金(2011MS0918)
关键词 蒙古文原始文本 统计建模 读音错误 字形错误 智能输入 Mongolian corpus statistical language model pronunciation error spelling error intelligent input method
  • 相关文献

参考文献8

二级参考文献71

共引文献47

同被引文献8

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部