维哈柯及蒙语多文种语言相似性考查研究被引量：5

An Investigation Research on the Similarity of Uyghur Kazakh Kyrgyz and Mongolian languages

下载PDF

导出

摘要该文以阿勒泰语系下的维哈柯及蒙古语多语言平行文本和语音语料为研究对象,分别对比多语言文本量化序列向量及语音声学音律特征的相似度,研究语言信息间存在的相通性。试验发现,同语系同语族黏着语言相似度较高:文本相似性达85%;声频特征相似性达95%。从而确认在同语系多种黏着语言间创建语言信息共享云模的可行性,这将有利于实现语言文本及语音信息的跨语言转换处理,极大降低少数民族语言信息处理成本。 In this paper, an investigation is done for the similarity between the same family and agglutinative langua- ges （such as Altai family languages ,for example, Uyghur, Kazakh, Kyrgyz and Mongolian using different countries and areas ）. Cosine similarity measure is used to calculate the similarity using the parallel texts and the acoustic fea tures extracted from the same content speech sentences spoken by the different language speakers. Experimental results show that the transformation is more feasible by word to word units when learning the connection rule of a stem and an affix （function words） between languages by word level and common acoustic models. Thus, this avoids the uphill work of MT for the resource-deficient languages such as minority languages being used in the developing countries. Additionally, the costs can be reduced.

作者王玲达瓦.伊德木草吾守尔.斯拉木

机构地区新疆大学新疆多语种信息技术实验室新疆大学信息与工程学院

出处《中文信息学报》 CSCD 北大核心 2013年第6期180-186,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(61163030)

关键词同语系同语族语言平行语料声学音律特征基频F0 相似性考查 same family and agglutinative language parallel text acoustic and prosody parameters F0 similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1Wushour Slam, et al, Speech Processing Technology of Uyghur Language[C]//Proeeedings of Oriental CO- COSDA International Conference on Speech Database and Assessments, 2009: 11-16.
2卡哈尔江.阿比的热西提,吐尔根.依布拉音,姚天昉,艾山.吾买尔,艾山.毛力尼亚孜.一种改进的维吾尔语句子相似度计算方法[J].中文信息学报,2011,25(4):50-53. 被引量：8
3伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
4Shuichi Itahashi, Chiu-yu Tseng. Computer Process- ing of Oriental Languages[M]. 2010. World Scientif- ic, www. American-sGroup. com.
5T Schultz, A Waibel. Fast Bootstrapping of LVCSR System with Multilingual Phoneme Sets[C]//Proeeed- ings of Eurospeeeh 2001 : 371 374.
6Lin jun Zhang, et al. Cross-Language information re-trival, Journal of Computer Science, 2004,31 (7), 16- 19.
7EHARA Terumasa, et al. Mongolian to Japanese ma- chine translation system [C]//Proceedings of second international symposium on information and language processing, 2007: 27-33.
8Idomucogiin Dawa, Satoshi Nakamura. A Study on Cross Transformation of Mongolian Family Language [J]. Journal of Natural Language Processing, J- STAGE, 2008,15 (5): 3-21.
9达瓦·伊德木草.基于机器翻译的蒙文多文本转写方法的研究[C]//新疆维吾尔自治区科技厅自然科学基金资助项目(2011211A012).
10伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6

二级参考文献54

1伊.达瓦,大川茂树,白井克彦.蒙古语主要方言的声学和音律特征分析分类[J].民族语文,2001(1):26-32. 被引量：1
2伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
3伊·达瓦大川茂村等.蒙古语音素的分类及识别性能的评价.日本声学会全国论文集[M].,1997..
4伊·达瓦大川茂村等.蒙古语七个元音共振峰频率分析.日本声学会全国论文集[M].,1996..
5古井贞燕.音响.音声工学[M].日本近代科学社,1992..
6哈斯额尔德尼那仁巴特.蒙古语基础[M].吉林人民出版社,1977..
7Young S J, Evermann G, Gales M J F, Hain T, Kershaw D, Moore G. The HTK Book, Version3.4. Berlin: Springer, 2006.
8Kawahara T. Participants' areas of research and technical work [Online], avaiable: http://www.julius.scorceforge.jp/, March 17, 2009.
9伊·达瓦,卢绪刚,清水微,中村哲.蒙古语连续语音识别在不同结构语言模型下的精度讨论.第十届全国人机语音通讯学术会议.兰州,中国:新疆师范大学出版社,2009.57.
10Schultz T, Waibel A. Experiments on cross-language acoustic modeling. In: Proceedings of the 7th European Conference on Speech Communication and Technology. Aalborg, Denmark: ISCA, 2001. 567-570.

共引文献25

1伊.达瓦,大川茂树,白井克彦.蒙古语主要方言的声学和音律特征分析分类[J].民族语文,2001(1):26-32. 被引量：1
2图雅.关于声学语音学研究方法的几个问题[J].内蒙古大学学报（哲学社会科学版）,2004,36(6):94-98. 被引量：4
3伊.达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦.蒙古语语言-文字的自动化处理[J].中文信息学报,2006,20(4):56-62. 被引量：6
4许慧燕,钱盛友.湖南方言声频特性的计算机分析[J].电声技术,2007,31(4):56-58. 被引量：2
5百顺.基于派生文法的日—蒙动词短语机器翻译研究[J].中文信息学报,2008,22(2):47-54. 被引量：5
6刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
7王昆仑,张贯虹,吐尔洪江.阿布都克力木.维吾尔语元音的声频特性分析和识别[J].中文信息学报,2010,24(2):122-128. 被引量：10
8伊·达瓦,匂坂芳典,中村哲.语料资源缺乏的连续语音识别方法的研究[J].自动化学报,2010,36(4):550-557. 被引量：9
9木合塔尔.沙地克,李晓,布合力齐姑丽.瓦斯力.维吾尔语广播新闻敏感词检索系统的研究[J].中文信息学报,2011,25(4):3-10. 被引量：1
10谭勋,吐尔根·依布拉音,艾山·吾买尔,张韦煜.基于相似度计算的维吾尔语词聚类[J].新疆大学学报（自然科学版）,2012,29(1):104-107. 被引量：2

同被引文献34

1维尼拉.木沙江,吐尔地.托合提,吐尔洪.吾司曼.基于重定位的维、哈、柯文Unicode编码及多文种索引技术研究[J].郑州大学学报（理学版）,2009,41(1):48-49. 被引量：2
2依布拉音鸟斯曼.维吾尔文字转换器的设计与实现[D].大连:大连理工大学,2007,10-13.
3D.Tserenpil, R.KuUmann, Mongolian Grammar. School of Mongolian Language and Culture, National University of Mongolia and Institute of Lan- guage and Literature [ C ]. Academy of Science, Mongolia,2005.
4国家质量监督检验检疫总局,国家标准化管理委员会GB256914-2010.信息技术传统蒙古文名义字符,变形显现字符和控制字符使用规则[S].北京:中国标准出版社,2011:11.
5Idomucogiin Dawa, Satoshi Nakamura. A Study on Cross Transformation of Mongolian Family Language [ J ] .Jouml of Natural Language Processing, J -STAGE, 2008,15(5) :3-21.
6T. Ishikawa,. et al. A Bidirectional Translation Method for the Traditional and Modem MongolianSeripts [ C ]. Proceeding of the Eleventh Annum Meeting of The Association for Natural Language Processing, 2005: 360-363.
7Y.Namsurai. et al. The database Structure for BI-Direetional Textual Transformation Between TwoMongolian Scripts[ C]. Proceeding ICEIC,2006: 265 - 268.
8EHARA Terumasa, et al. Mongolian to Japanese machine translation system [ C ]. Proceedings of second international symposium on information and language processing, 2007 : 27-33.
9Nagao M. A framwork of a mechanical translation between Japanese and English by analogy principle. In : A.Elithom and R. Banerji( eds. ) artificial and intelligence[ M]. NATO publications, 1984.
10P. Koehn,H Hoang,A Birch, et al. Moses: open source toolkit for staistical machine translation [ C] .Proceed.Of ACL, 2007:177-180.

引证文献5

1李端端,吾守尔.斯拉木,艾尼宛尔.托乎提.支持维、哈、柯文的Web浏览器的研究与实现[J].新疆大学学报（自然科学版）,2014,31(4):470-474.
2伊.达瓦,米尔阿迪力江.麦麦提.丝绸之路经济带相似语言信息横向处理通信技术的研究[J].新疆师范大学学报（自然科学版）,2014,33(4):66-74.
3买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于统计专用字符的维、哈、柯文文种识别研究[J].中文信息学报,2015,29(2):111-117. 被引量：5
4何峻青,黄娴,赵学敏,张克亮.利用领域外数据对口语风格短文本的相近语种识别研究[J].中文信息学报,2019,33(3):71-78. 被引量：2
5伊.达瓦,王羡慧,米尔阿迪力江.麦麦提.基于统计机器翻译技术的胡都木—托忒文本转写的实现[J].西部蒙古论坛,2014(2):62-71.

二级引证文献7

1刘旭.双向文本元素在SVG中的显示技术[J].计算机系统应用,2017,26(4):246-251. 被引量：2
2何峻青,黄娴,赵学敏,张克亮.利用领域外数据对口语风格短文本的相近语种识别研究[J].中文信息学报,2019,33(3):71-78. 被引量：2
3李顺,木特力铺.马木提,吾尔尼沙.买买提,阿力木江.艾沙,库尔班.吾布力.基于离散曲波变换的多文种文档图像文种识别[J].计算机工程与设计,2019,40(5):1376-1382. 被引量：4
4伊克拉木·伊力哈木,艾山·吾买尔,王路路,麦麦提依明·巴吾顿.面向大数据短文本的高并发语种识别系统的设计与实现[J].现代计算机,2020,26(20):7-13. 被引量：1
5吴正健,木特力甫·马木提,吾尔尼沙·买买提,阿力木江·艾沙,库尔班·吾布力.基于LTP和HOG纹理特征融合的中亚文档图像文种识别[J].山东大学学报（工学版）,2021,51(2):115-121. 被引量：3
6熊黎剑,吾守尔·斯拉木,许苗苗.基于Django印刷体维吾尔文识别系统的设计与实现[J].郑州大学学报（理学版）,2021,53(3):9-14. 被引量：1
7郝焕香.基于深度学习的方言语音识别模型构建[J].自动化与仪器仪表,2022(4):48-51. 被引量：3

1孟飞.OpenGL在工业机器人动态仿真中的应用[J].电脑开发与应用,2005,18(6):57-57.
2张朝阳.论汉语族的二次跨文化交流元素——电影文献译名信息[J].文教资料,2011(14):39-41.
3刘其云,李中言.信息抽取的功能和实现方法[J].情报杂志,2005,24(5):67-68. 被引量：4
4马志强,张泽广,闫瑞,刘利民,冯永祥,苏依拉.基于N-Gram模型的蒙古语文本语种识别算法的研究[J].中文信息学报,2016,30(1):133-139. 被引量：3
5刘雪松.电子商务的风险及其安全管理探究[J].中小企业管理与科技,2014,0(26):28-28.
6杨先娣,何宁,吴黎兵,刘君强.一种基于本体的语义信息集成方法(英文)[J].Journal of Southeast University(English Edition),2007,23(3):338-342. 被引量：1
7彭小利.软硬件的相通性[J].四川文理学院学报,2010,20(5):57-59. 被引量：1
8杨先娣,彭智勇,吴黎兵,刘君强.基于树结构的多策略本体映射算法[J].武汉大学学报（理学版）,2008,54(3):357-361. 被引量：1
9李仁飞.基于OpenStack的企业成本降低系统设计[J].电子测试,2014,25(5X):53-54. 被引量：3
10敖其尔,王斯日古楞.英蒙机器翻译系统的设计[J].内蒙古大学学报（自然科学版）,2003,34(5):582-587. 被引量：2

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

维哈柯及蒙语多文种语言相似性考查研究被引量：5

参考文献14

二级参考文献54

共引文献25

同被引文献34

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

维哈柯及蒙语多文种语言相似性考查研究 被引量：5

参考文献14

二级参考文献54

共引文献25

同被引文献34

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

维哈柯及蒙语多文种语言相似性考查研究被引量：5