蒙古文原始语料统计建模研究被引量：1

Study of Mongolian Raw Text Modeling

下载PDF

导出

摘要蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文"音词转换"和"形词转换"研究都有广泛的参考价值。 The Mongolian language model for its text is challenged by the same character with different codes owing to the different pronunciations of the character in various contexts. To address this issue for spelling input, this pa per adopts a large dictionary with correct pronunciations, training a statistical spelling model to maximize the the pronunciation sequence directly from the candidate code sequence. Experiments indicate a more efficient spelling in put method is achieved, which is also enlightening for ＂pronunciation-to-word＂ coversion and ＂spelling-to-word＂ conversion.

作者白双成

机构地区内蒙古社会科学院蒙古语信息技术研发中心内蒙古蒙科立软件股份有限公司

出处《中文信息学报》 CSCD 北大核心 2017年第1期118-125,共8页 Journal of Chinese Information Processing

基金国家电子发展基金2010年度 2011年度蒙古文专项国家自然科学基金(61163020) 内蒙古自治区自然科基金(2011MS0918)

关键词蒙古文原始文本统计建模读音错误字形错误智能输入 Mongolian corpus statistical language model pronunciation error spelling error intelligent input method

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张小衡.中文的同形异码字问题[J].中文信息学报,2015,29(4):144-150. 被引量：1
2那顺乌日图.蒙古文词根、词干、词尾的自动切分系统[J].内蒙古大学学报（哲学社会科学版）,1997,29(2):53-57. 被引量：15
3侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8
4赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
5应玉龙,李淼,乌达巴拉,朱海.基于条件随机场的蒙古语词性标注方法[J].计算机应用,2010,30(8):2038-2040. 被引量：9
6姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
7苏传捷,侯宏旭,杨萍,员华瑞.基于统计翻译框架的蒙古文自动拼写校对方法[J].中文信息学报,2013,27(6):175-179. 被引量：10
8白双成,张劲松,呼斯勒.蒙古文输入法输入码方案研究[J].中文信息学报,2013,27(6):169-174. 被引量：6

二级参考文献71

1那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
2那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
3古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
4姚延栋,吴健,孙玉芳,呼斯勒.传统蒙古文变形显示机制研究与实现[J].中文信息学报,2005,19(5):84-89. 被引量：18
5侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
6张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
7侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
8陈壮.中国在ISO/IEC JTC1/SC2的活动与中文编码的国际标准化[J].中文信息学报,2007,21(4):122-128. 被引量：2
9那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展-新一代蒙古语词语自动切分与标注系统(Darhan Tagging System)[C]//第十届全国少数民族语言文字信息处理学术研讨会论文集.青海:2005.
10那顺乌日图,雪艳,叶嘉明.现代蒙古语语料库加工技术的新进展--新一代蒙古语词语自动切分与标注系统[C] //第十届全国少数民族语言文字信息处理学术研讨会.西宁:[s.n] ,2005:122-127.

共引文献47

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
3菊花.蒙古文单词音节自动拆分软件的设计[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(4):436-438.
4侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
5侯宏旭,张国强,刘志文.层次化蒙古语统计语言模型[J].内蒙古大学学报（自然科学版）,2009,40(3):336-340. 被引量：2
6侯宏旭,刘群,李锦涛.一种基于短语的汉蒙统计机器翻译与调序模型[J].高技术通讯,2009,19(5):475-479. 被引量：3
7刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
8赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
9姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
10李文,李淼,梁青,朱海,应玉龙,乌达巴拉.基于短语统计机器翻译模型蒙古文形态切分[J].中文信息学报,2011,25(4):122-128. 被引量：4

同被引文献8

1娜仁图雅,白振东.浅析大洋3000非编软件蒙古文字幕系统[J].内蒙古广播与电视技术,2008,25(1):39-40. 被引量：3
2斯.劳格劳.基于不确定有限自动机的蒙古文校对算法[J].中文信息学报,2009,23(6):110-115. 被引量：8
3罗蕴军,黄瑞卿.编目子系统在媒体资产管理系统中的应用[J].数字通信世界,2013(9):74-77. 被引量：5
4李澎涛,王力栋.内蒙古广播电视台媒资编目生产管理与实践[J].内蒙古广播与电视技术,2014,31(3):20-21. 被引量：5
5何锋,高晓华,李凤英.内蒙古电视台媒体资产建设编目管理与实践[J].现代电视技术,2014(11):113-117. 被引量：4
6龚亦炜.音像资料编目在数字化媒体资产管理中的地位与前景[J].西部广播电视,2015,36(4):69-70. 被引量：5
7龚明,高晨.媒资管理系统中自动编目实现的研究[J].电视工程,2016,0(3):11-13. 被引量：5
8徐少勇.宁波电视台媒资编目使用数据浅析[J].新媒体研究,2016,2(15). 被引量：4

引证文献1

1娜仁图雅,白双成.蒙古语媒体资产编目问题研究[J].广西科学院学报,2018,34(1):72-77.

1陆国丽,王小华,王荣波.最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J].现代图书情报技术,2008(12):43-47. 被引量：2
2桑农,张涛,李斌,吴翔.基于字典学习的背景建模[J].华中科技大学学报（自然科学版）,2013,41(9):28-31. 被引量：2
3红梅.基于Windows 2000/XP平台蒙古文输入法的设计技术[J].内蒙古师范大学学报（自然科学汉文版）,2005,34(1):40-43. 被引量：2
4沈达阳,孙茂松,黄昌宁.汉语分词系统中的信息集成和最佳路径搜索方法[J].中文信息学报,1997,11(2):34-47. 被引量：13
5高波.基于语料统计树的专业信息库生成算法[J].常州工学院学报,2009,22(1):15-18.
6陈优阳.汉盲翻译中的分词连写处理算法研究[J].网络安全技术与应用,2014(2):154-154. 被引量：1
7Vrizlynn L. L. Thing Ying Hwei-Ming.Design and Analysis of Inequalitybased Fragmented File Carving Algorithms[J].China Communications,2010,7(6):1-9.
8斯.劳格劳.蒙古文编码转换通用算法研究[J].内蒙古大学学报（哲学社会科学版）,2009,41(2):133-136. 被引量：2
9Mbarki Aymen Ammari Abdelaziz Sghaier Halim Hassen Maaref.Hidden Markov Models for Automatic Speech Recognition[J].Journal of Mechanics Engineering and Automation,2011,1(1):68-73.
10姚天昉,林莉,玉素甫.艾白都拉.基于德语语料库词性标注和统计方法的研究[J].上海交通大学学报,1996,30(6):35-40. 被引量：1

中文信息学报

2017年第1期

浏览历史

内容加载中请稍等...

蒙古文原始语料统计建模研究被引量：1

参考文献8

二级参考文献71

共引文献47

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

蒙古文原始语料统计建模研究 被引量：1

参考文献8

二级参考文献71

共引文献47

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

蒙古文原始语料统计建模研究被引量：1