藏文合并音节纠正算法

Error Correction Algorithm of Tibetan Combined Syllables

下载PDF

导出

摘要语料库是自然语言处理中不可或缺的数据资源,其预处理结果直接影响后期研究的应用性能。文章分析了藏文语料库预处理方法,提出了一种规则和统计相结合的藏文合并音节纠正算法:首先,以藏文音节分隔符“·”为切分点对原语料进行音节切分;其次,通过前向和反向的合并音节纠正算法还原合并音节;最后,采用歧义消解算法消除双向纠正算法中存在的歧义合并音节。实验结果表明,该算法能有效纠正合并音节的非真字错误,该算法的宏平均准确率达到了79.27%。 A corpus is an indispensable data resource in natural language processing,and the result of preprocessing of the corpus has a significant impact on subsequent research.A Tibetan corpus preprocessing method is studied and a Tibetan combined syllable error correction algorithm based on rules and statistics is proposed in this paper.In the algorithm,firstly,the Tibetan syllable separator"་"is used as the segmentation point to split the original corpus.Then,the combined syllables are restored using forward and backward combined syllable correction algorithms.Finally,the ambiguity resolution algorithm is applied to eliminate the ambiguous combined syllables existing in the bidirectional correction algorithm.Our experimental results demonstrate that the algorithm can effectively correct the nonexisting word errors in combined syllables,and the macro-average accuracy of the algorithm achieved 79.27%.

作者道吉扎西尼玛扎西才智杰色差甲仁青东主 Dorje-Tashi;Nima-Tashi;Caizhi-Jie;Secha-Jia;Rinchen-Dongrub(School of Information Science and Technology,Tibet University,Lhasa 850000,China;College of Computer Science and Technology,Qinghai Normal University,Xining 810016,China)

机构地区西藏大学信息科学技术学院青海师范大学计算机学院

出处《高原科学研究》 CSCD 2023年第3期112-118,共7页 Plateau Science Research

基金西藏大学校级科研培育计划项目(ZDQMJH22-01) 科技创新2030-“新一代人工智能(2030)”重大项目(SQ2022AAA01028802)。

关键词自然语言处理语料库藏文合并音节 natural language processing corpus Tibetan combined syllables

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55. 被引量：12
2史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
3李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
4李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
5李亚超,加羊吉,江静,何向真,于洪志.融合无监督特征的藏文分词方法研究[J].中文信息学报,2017,31(2):71-75. 被引量：9
6才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
7陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
8江荻.现代藏语组块分词的方法与过程[J].民族语文,2003(4):30-39. 被引量：17
9才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
10才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18

二级参考文献122

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
5陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
6宋金兰.汉藏语形态变体的分化[J].民族语文,2002(1):29-33. 被引量：5
7才智杰.藏汉英电子词典的开发研究[J].青海师范大学学报（自然科学版）,2005,21(2):48-50. 被引量：8
8江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10

共引文献191

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
4尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
5才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
6拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
7完么扎西.藏语词语兼类情况及识别规则库[J].西藏大学学报（社会科学版）,2014,29(5):87-94.
8文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
9文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
10邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11

1孟祥和,于洪志.融合音节和词条特征的藏文文本情感分类研究[J].中文信息学报,2023,37(2):80-86. 被引量：1
2班玛宝,慈祯嘉措,张瑞,才让加.融合La格虚词语义信息的藏文La格分类模型[J].厦门大学学报（自然科学版）,2023,62(4):695-703.
3胥桂仙,刘兰寅,张廷,董玉双.基于预训练模型和图神经网络的藏文文本分类研究[J].东北师大学报（自然科学版）,2023,55(1):52-64. 被引量：4
4于韬,张英,拥措.基于小样本学习的藏文命名实体识别[J].计算机与现代化,2023(5):13-19. 被引量：2
5孙影.云计算环境下数据库冗余信息消解研究[J].长江信息通信,2023,36(7):91-94. 被引量：1
6张宏刚.煤矿开采中的“一通三防”安全措施研究[J].冶金管理,2023(16):75-78. 被引量：2
7孙道萃,王晓杰.刑法面向人工智能的理论应答[J].学术交流,2022(12):119-134. 被引量：5
8邓萍华.数控加工技术在汽车机械模具制造中的应用[J].专用汽车,2023(10):78-81. 被引量：11
9卓玛措,桑杰端珠,才让加,羊毛卓么.面向藏文临床病历的医学实体识别研究[J].计算机仿真,2023,40(9):208-212.
10胥桂仙,张子欣,于绍娜,董玉双,田媛.基于图卷积网络的藏文新闻文本分类[J].数据分析与知识发现,2023,7(6):73-85. 被引量：5

高原科学研究

2023年第3期

浏览历史

内容加载中请稍等...

藏文合并音节纠正算法

参考文献21

二级参考文献122

共引文献191

相关作者

相关机构

相关主题

浏览历史