基于神经网络的藏文正字检错法被引量：2

Tibetan Character Error Detection Based on Neural Network

下载PDF

导出

摘要在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题:首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。 This paper puts the Tibetan character error detection task as a classification problem.First of all,the syllable confusion subset is built according to the language knowledge and each Tibetan sentence is add with noise.Then a deep bi-direction representation based BERT is applied in the classification model.Two baseline model and test sets of different domains are then constructed.The experimental results show that this method is superior to the two baseline models.The accuracy of sentence classification in the same method can reach 93.74%,and achieve 83.6%in test from different fields.In the syllable level,the performance of true negative s is 74.53%,and false negative is 2.30%.

作者色差甲慈祯嘉措才让加华果才让 SECHA Jia;CIZHEN Jiacuo;CAIRANG Jia;HUAGUO Cairang(School of Computer Science,Qinghai Normal University,Xining,Qinhai 810008,China;Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province,Xining,Qinhai 810008,China)

机构地区青海师范大学计算机学院青海省藏文信息处理与机器翻译重点实验室

出处《中文信息学报》 CSCD 北大核心 2020年第12期48-53,64,共7页 Journal of Chinese Information Processing

基金国家重点研发计划项目(2017YFB1402200) 国家自然科学基金(61063033,61662061) 国家社会科学基金(14BYY132) 青海省科技厅项目(2020-ZJ-704,2019-SF-129)。

关键词藏文正字检错加噪算法 BERT模型 character error detection pseudo noisy data BERT

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Zhuo-Ran Liu,Yang Liu.Exploiting Unlabeled Data for Neural Grammatical Error Detection[J].Journal of Computer Science & Technology,2017,32(4):758-767. 被引量：3
2郝莉,敖登巴拉,巩政,图雅.基于贝叶斯算法的蒙古文文本自动校对研究[J].内蒙古大学学报（自然科学版）,2010,41(4):440-442. 被引量：4
3骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249. 被引量：21
4张梅,印勇.英语作文计算机评分技术综述[J].外语电化教学,2010(6):44-47. 被引量：9
5杨晓琼,戴运财.基于批改网的大学英语自主写作教学模式实践研究[J].外语电化教学,2015(2):17-23. 被引量：209
6才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55. 被引量：11
7色差甲,贡保才让,才让加.藏文音节拼写检查的CNN模型[J].中文信息学报,2019,33(1):111-117. 被引量：11
8刘磊,梁茂成.英语学习者书面语法错误自动检测研究综述[J].中文信息学报,2018,32(1):1-8. 被引量：7
9珠杰,李天瑞,刘胜久.TSRM藏文拼写检查算法[J].中文信息学报,2014,28(3):92-98. 被引量：11
10张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39

二级参考文献104

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11
4史晶蕊,郑玉明,韩希.人工神经网络在文本分类中的应用[J].计算机应用研究,2005,22(10):213-216. 被引量：10
5张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
6何玉,冯剑琳,王元珍.基于最大关联规则的文本分类[J].计算机科学,2006,33(11):143-145. 被引量：6
7易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
8.知网及其说明文档..http://www.keenage.com(Hownet and its specifications. 2001. http://www.keenage.com).,2001.
9赵军,敖其尔.基于统计语言模型蒙古文词汇分析校正器的设计与实现[C] ∥民族语言文字信息技术研究--第11届全国民族语言文字信息学术研讨会论文集.西双版纳:西苑出版社,2007.
10Jurafsky Daniel,Martin James H.自然语言处理综论[M].冯志伟,孙乐,译.北京:电子工业出版社,2005.

共引文献290

1龙桃先.基于批改网的英语写作教学调查与分析[J].烟台职业学院学报,2019,0(4):65-67.
2罗莉,胡丹.在线自动评价系统在大学英语写作中的应用——以批改网为例[J].校园英语,2020(42):30-31.
3陈迎,宋阳,经昱.大数据背景下自动写作评价系统在大学英语写作教学中的应用研究[J].校园英语,2020(40):15-16. 被引量：1
4白芸.基于自动评分系统的在线作文自我修改特征研究[J].现代交际,2020(15):157-158. 被引量：1
5祝世军.基于在线自动反馈的大学英语写作教学模式[J].现代英语,2020(14):50-52.
6马凌飞.疫情背景下写作自动评价系统在英语专业写作教学中的应用研究[J].现代英语,2020(11):19-21.
7胡波.基于在线批改系统和项目式学习的大学英语写作混合式教学模式研究[J].现代英语,2020(9):5-8.
8莫秀兰.英语专业学生口语产出能力培养模式研究[J].现代英语,2020(7):112-114. 被引量：1
9华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
10才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3

同被引文献21

1才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
2史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
3刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103. 被引量：25
4孙萌,华却才让,才智杰,姜文斌,吕雅娟,刘群.基于判别式分类和重排序技术的藏文分词[J].中文信息学报,2014,28(2):61-65. 被引量：9
5张晓梅,李茹,王斌,吴迪,高俊杰.基于融合特征的微博主客观分类方法[J].中文信息学报,2014,28(4):50-57. 被引量：3
6李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：25
7洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：14
8刘培玉,荀静,费绍栋,朱振方.基于隐马尔可夫模型的主观句识别[J].中文信息学报,2016,30(4):206-212. 被引量：10
9何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：127
10闫晓东,黄涛.基于情感词典的藏语文本句子情感分类[J].中文信息学报,2018,32(2):75-80. 被引量：19

引证文献2

1孔春伟,吕学强,张乐.HRTNSC:基于混合表示的藏文新闻主客观句子分类模型[J].中文信息学报,2022,36(12):94-103.
2色差甲,桑杰端珠,才让加,慈祯嘉措.一种基于预训练模型的藏文分词方法[J].中文信息学报,2023,37(12):70-75.

1田敬杰,白捷.英汉翻译中的句法分析——以长难句、歧义句为例[J].小说月刊（下半月）,2020(21):0206-0206.
2杨泉.基于Logistic函数的《同义词词林》语义相似度计算[J].计算机与现代化,2021(1):111-119. 被引量：3
3曲塔吉,安见才让.藏文语义词典建设中语义关系抽取方法的研究[J].计算机时代,2021(2):46-48.

中文信息学报

2020年第12期

浏览历史

内容加载中请稍等...

基于神经网络的藏文正字检错法被引量：2

参考文献10

二级参考文献104

共引文献290

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于神经网络的藏文正字检错法 被引量：2

参考文献10

二级参考文献104

共引文献290

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于神经网络的藏文正字检错法被引量：2