传统蒙古文“同形不同码”问题研究

The Study on Same Shape and Different Code for Traditional Mongolian

下载PDF

导出

摘要设计并实现了一种基于语料库的传统蒙古文同形不同码识别系统。通过网络爬虫获取原始语料,然后对语料进行预处理并生成词表和倒排索引。基于词表利用GDI和传统蒙古文字库对每个传统蒙古文词生成字形图,并根据字形图之间的相似度识别出相同的字形。系统根据倒排索引、同形词列表统计出语料中传统蒙古文同形不同码的情况。实验结果显示,同形不同码问题在传统蒙古文中普遍存在,反映出了制定相关标准的迫切性。 In this paper, a corpus-based system is designed and implemented to recognize same shape and different code of Mongolian. The raw corpus is crawled by web spider, a dictionary and inverted index are generated from the corpus. The isomorphic words are recognized depending on the similarity of word glyphs which are generated though GDI and Mongolian font.The statistical information of same shape and different code based on two types of the corpus is calculated according to inverted index and list of same shape and different code. The experimental results show that thesame shape and different code of Mongolian is pervasive in traditional Mongolian, which also reflects the necessity and urgency of developing relevant standard.

作者安波诺明花吴健刘汇丹马龙龙

机构地区中国科学院软件研究所中国科学院大学

出处《信息技术与标准化》 2015年第1期62-66,共5页 Information Technology & Standardization

基金国家自然科学基金项目编号:61303165 61202219 61202220 新闻出版重大科技工程项目编号:0610-1041BJNF 2328/23

关键词传统蒙古文同形不同码爬虫倒排索引语料库 raditional mongolian same shape and different code web spider inverted index

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1确精扎布.蒙古文信息处理专辑[M].呼和浩特:内蒙古教育出版社,2013.
2张建梅.面向信息处理的蒙古文同形异音词读音识别研究[J].内蒙古大学学报（哲学社会科学版）,2007,39(3):25-28. 被引量：2
3吉仁尼格.蒙古文同形词的统计法[c]//第十一届全国民族语言文字信息学术研讨会论文集.北京.2007.
4敖登巴拉.蒙古文变形显现字符到名义字符转换的研究与实现[D].呼和浩特:内蒙古大学学报.2010.
5Zede Zhu, Miao Li, Lei Chen, et al. Building Comparable Corpus Based on Bilingual LDA Modeln :Proceedings of the 51 st Annual Meeting of the Association for Computational Linguistics (ACL) [C].Wisconsin:Omnipress, 2013.

二级参考文献2

1《现代蒙古语文数据库》.
2《现代蒙古语文数据库》.《从蒙古文方正编码到ASCII码的转写》

共引文献1

1杨利润,斯琴巴图,锡林宝力尔.关于解决蒙古文形对码错错误的研究综述[J].现代计算机,2020,26(4):29-31.

1郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29
2菊花,金良.使用程序自动分析蒙古文词的研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(2):225-228.
3才让拉毛,安见才让.藏文词一“ ”的消歧研究[J].中国科技博览,2015,0(45):276-277. 被引量：1
4百度推出新闻和图片两大技术化搜索引擎[J].中国传媒科技,2003(8):21-21.
5柳涛.文中文词编码系统[J].电脑编程技巧与维护,2013(4):71-72.
6伍小平.Word2000的中文特性[J].大众软件,2000(2):51-52.
7张晓天.浅谈Excel在无线电检测计算中的使用[J].中国无线电,2005(5):48-48.
8牛方远.汉日同形词研究[J].科技致富向导,2011(35):217-217.
9哈斯,布音其其格.基于蒙古语名词语义网的同形词歧义消除研究[J].中文信息学报,2016,30(6):230-235. 被引量：1
10顾鑫,王士同,许敏.领域自适应的最小包含球设计方法[J].控制与决策,2013,28(2):177-182. 被引量：4

信息技术与标准化

2015年第1期

浏览历史

内容加载中请稍等...

传统蒙古文“同形不同码”问题研究

参考文献5

二级参考文献2

共引文献1

相关作者

相关机构

相关主题

浏览历史