基于混合模式的藏文音节切分

Tibetan Syllable Segmentation Based on Mixed Mode

下载PDF

导出

摘要通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%. A Tibetan syllable segmentation method based on mixed mode of rules,support vector machine,restoration method was proposed through the analysis of case-auxiliary words and contextual features of Tibetan in this paper.The Tibetan syllable segmentation is the basis of many research fields such as Tibetan character frequency statistics,word segmentation,part-of-speech tagging and machine translation.Moreover,the correct identification,segmentation and restoration of Tibetan ambiguity case-auxiliary words are difficult points in Tibetan syllable segmentation.The experiment result showed that the F-measure score of 99.97%was obtained by using mixed mode Tibetan syllable segmentation.

作者才让当知华却才让却措卓玛夏吾吉 Cairangdangzhi;Huaquecairang;Quezuozhuoma;XIA Wu-ji(The Com puter College of Qinghai Normal University,Xining 810016,China;Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province,Xining 810008,China;Key Laboratory of Tibetan Information Processing,Ministry of Education,Xining 810008,China)

机构地区青海师范大学计算机学院藏文信息处理教育部重点实验室青海省藏文信息处理与机器翻译重点实验室

出处《内蒙古师范大学学报（自然科学汉文版）》 CAS 2019年第5期406-412,共7页 Journal of Inner Mongolia Normal University(Natural Science Edition)

基金国家社科基金资助项目(17XYY030) 青海省科技计划项目(2017-GX-146) 青海师范大学中青年科研基金项目(17ZR11) 青海省重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03) 藏文信息处理与机器翻译重点实验室(2013-Y-17)

关键词音节特征紧缩格歧义紧缩格支持向量机 syllable characteristic abbreviated case-auxiliary words ambiguity abbreviated case-auxiliary words SVM

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1黄小兰,黄鹤鸣,钟小莉.现代藏文音节的划分与确定[J].计算机应用与软件,2012,29(9):62-65. 被引量：5
2李苗苗,高定国,普次仁,扎西仓觉.藏文字频统计软件的设计与实现[J].电脑知识与技术,2016,0(2):179-181. 被引量：1
3刘汇丹,洪锦玲,诺明花,吴健.基于大规模网络语料的藏文音节拼写错误统计与分析[J].中文信息学报,2017,31(2):61-70. 被引量：6
4才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
5拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6
6陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
7完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究[J].中文信息学报,2014,28(4):132-139. 被引量：7
8仁青卓么,祁坤钰,贡保扎西.藏文音节七元组类型分析研究[J].西北民族大学学报（自然科学版）,2015,36(1):32-36. 被引量：4
9李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
10拉巴顿珠,欧珠,赵栋材.藏文自动分词系统中虚词识别算法研究[J].计算机应用与软件,2017,34(9):299-301. 被引量：8

二级参考文献136

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3索南才让.面向自然语言处理的藏语虚词la格研究[J].西藏大学学报（社会科学版）,2013,28(5):48-52. 被引量：2
4邓英,欧贵文.基于HMM的性别识别[J].计算机工程与应用,2004,40(15):74-75. 被引量：8
5林河水,程伟,曹晖,李文波,吴健,孙玉芳.一种符合ISO14651语义的藏文排序实现方法[J].中文信息学报,2004,18(5):36-41. 被引量：19
6王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
7张仰森,曹元大,徐波.中文文本自动校错系统中知识库及其构造方法研究[J].小型微型计算机系统,2004,25(12):2237-2242. 被引量：3
8李永燧.论藏缅语黏着语素与语言类型学[J].民族语文,2002(2):10-24. 被引量：4
9高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
10扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-133. 被引量：18

共引文献185

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
4拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
7邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11
8刘晓英.汉语自动分词研究的发展趋势[J].高校图书馆工作,2005,25(4):25-28. 被引量：4
9文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
10陈丽娜,祁坤钰,贾彦民,吴健,康丽.藏文拉丁转写的研究与实现[J].计算机工程与设计,2006,27(1):15-17. 被引量：13

1乌兰其其格.日语“は”、“が”与蒙古语格助词之比较[J].内蒙古社会科学（蒙文版）,2019,0(3):77-79.
2王任梅.孩子“语迟”怎么办?[J].家教世界,2019,0(26):41-42.
3朱珏珏.致爸爸：你再不陪我，我就长大了[J].早期教育（家庭教育）,2019(9):54-55.
4梁龙.幻想梦想：2020春“梵·卉”pierrecardin新品发布[J].中国纺织,2019,0(9):109-109.
5阿日木扎,林民,马占新.一类蒙文词切分方法构造及智能词切分系统设计[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):393-399.
6张玉田,关白.藏文音节七元组软件算法设计与实现[J].电脑知识与技术,2019,15(2):195-197. 被引量：1
7程金盛.谈中学英语词汇教学和记忆[J].新一代（理论版）,2019,0(15):128-129.
8马跃进,汪凯蔚,沈峥嵘,黄永华.大型复杂电子系统的紧缩可靠性试验解决方案[J].电子产品可靠性与环境试验,2019,37(4):6-10.
9罗思.藏露之间[J].特别健康,2019,0(10):82-82.
10刘辉.从最小的余数是几说起[J].考试周刊,2019,0(67):83-83.

内蒙古师范大学学报（自然科学汉文版）

2019年第5期

浏览历史

内容加载中请稍等...

基于混合模式的藏文音节切分

参考文献20

二级参考文献136

共引文献185

相关作者

相关机构

相关主题

浏览历史