融合词性与声调特征的越南语语法错误检测被引量：1

Incorporating Part of Speech and Tonal Features for Vietnamese Grammatical Error Detection

下载PDF

导出

摘要 BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型在对越南语分词时会去掉越南语音节的声调,导致语法错误检测模型在训练过程中会丢失部分语义信息。针对该问题,提出了一种融合越南语词性和声调特征的方法来补全输入音节的语义信息。由于越南语的标注语料稀缺,语法错误检测任务面临训练数据规模不足的问题。针对该问题,设计了一种由正确语料生成大量错误文本的数据增强算法。在越南语维基百科和新闻语料上的实验结果表明,所提方法在测试集上取得了最高的F和F分数,证明该方法可提高检测效果,并且随着生成数据规模的扩大,该方法与基线模型方法的效果都得到了逐步提升,从而证明了所提数据增强算法的有效性。 The BERT pre-trained language model removes the tones of the syllables when segmenting Vietnamese words,which leads to the loss of some semantic information during the training process of grammatical error detection model.To address this problem,an approach combining part of speech and tonal features is proposed to complete the semantic information of the input syllables.Grammatical error detection task confronts the problem of insufficient training data due to the scarcity of labeled Vietnamese data.To address this problem,a data augmentation algorithm is designed to generate a large number of error texts from the correct corpus.Experimental results on Vietnamese Wikipedia and news corpus show that the proposed method achieves the highest Fand Fscore on the test set,which proves it improves the detection performance.Both the proposed method and the baseline model method have a gradual improvement with the increasing scales of the generated data,which proves that the proposed data augmentation algorithm is effective.

作者张洲朱俊国余正涛 ZHANG Zhou;ZHUJun-guo;YU Zheng-tao(School of Information Engineering and Automation,Kunming University of Scienceand Technology,Kunming 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Scienceand Technology,Kunming 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省人工智能重点实验室

出处《计算机科学》 CSCD 北大核心 2022年第11期221-227,共7页 Computer Science

基金国家自然科学基金(62166022,61732005,61866020) 云南省重大科技专项计划(202002AD080001,202103AA080015) 云南省科技厅面上项目(202101AT070077) 云南省人培项目(KKSY201903018)。

关键词预训练语言模型越南语语法错误检测特征融合数据增强 Pre-trained language model Vietnamese grammatical error detection Feature fusion Data augmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1尹陈,吴敏.N-gram模型综述[J].计算机系统应用,2018,27(10):33-38. 被引量：21

共引文献20

1邢月晗,郑岩.语音转录后文本的中文拼写纠错模型[J].电子测量技术,2023,46(6):57-61.
2陈太波,张翠芳.多特征和SVM改进的语音关键词识别系统[J].小型微型计算机系统,2019,40(11):2291-2296. 被引量：7
3武泽权,牟永敏,张志华.面向函数的代码克隆检测[J].科学技术与工程,2019,19(35):259-264. 被引量：1
4姜涛,陆阳,张洁,洪建.无监督分词算法在新词识别中的应用[J].小型微型计算机系统,2020,41(4):888-892. 被引量：2
5曹文斌,武卓峰,杨涛,凡友荣.基于文本语料的涉恐事件实体属性抽取[J].工程科学学报,2020,42(4):500-508. 被引量：7
6徐旭东,张志祥,张献.面向私有二进制协议的报文聚类方法[J].计算机科学与探索,2020,14(6):958-965. 被引量：1
7周楠,张倍齐,覃薇,蓝毓营.数字医学技术在壮医药学研究领域的应用[J].中华中医药杂志,2020,35(6):2977-2979. 被引量：3
8陈子豪,谢从华,时敏,唐晓娜.基于fasttext模型的中文专利快速分类[J].常熟理工学院学报,2020,34(5):47-50. 被引量：1
9赵兴旺,叶剑斌.基于图像识别的电能表智能建档系统研究[J].电测与仪表,2020,57(24):139-144. 被引量：6
10许薇,姚佳奇,燕继坤,欧阳喜.基于多示例学习的语音内容分类算法[J].信息工程大学学报,2020,21(6):674-679. 被引量：2

同被引文献13

1张琳,李朝辉.文本分类中一种改进的特征项权重计算方法[J].福建师范大学学报（自然科学版）,2020,36(2):49-54. 被引量：5
2吴俊,程垚,郝瀚,艾力亚尔·艾则孜,刘菲雪,苏亦坡.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418. 被引量：57
3谢腾,杨俊安,刘辉.基于BERT-BiLSTM-CRF模型的中文实体识别[J].计算机系统应用,2020,29(7):48-55. 被引量：92
4余奎锋,段桂华,时翔.基于多特征权重模糊聚类的高考志愿推荐算法[J].中南大学学报（自然科学版）,2020,51(12):3418-3429. 被引量：11
5林丽,薛芳.基于逻辑回归函数的加权K-means聚类算法[J].集美大学学报（自然科学版）,2021,26(2):139-145. 被引量：8
6王秀红,高敏.基于BERT-LDA的关键技术识别方法及其实证研究——以农业机器人为例[J].图书情报工作,2021,65(22):114-125. 被引量：47
7赵宏,傅兆阳,赵凡.基于BERT和层次化Attention的微博情感分析研究[J].计算机工程与应用,2022,58(5):156-162. 被引量：20
8蒋延杰,李云红,苏雪平,张蕾涛,贾凯莉,陈锦妮.基于特征权重的词向量文本表示模型[J].西安工程大学学报,2022,36(1):108-114. 被引量：7
9严爱军,丁凯.基于SHO-SA算法的案例推理预测模型特征权重优化[J].北京工业大学学报,2022,48(4):355-366. 被引量：4
10刘卫华,马碧燕.基于图像全序列特征权重的多曝光图像融合方法[J].激光与光电子学进展,2022,59(8):279-289. 被引量：4

引证文献1

1李宁艳.基于机器视觉的英语自动翻译语法错误检测系统研究[J].自动化与仪器仪表,2023(3):279-283.

1梁文桐,朱艳辉,詹飞,冀相冰,张旭.基于深度学习多模型融合的医疗命名实体识别[J].计算机应用与软件,2022,39(10):162-168. 被引量：4
2伍乙杰,黄文灏,赖仕达,陈光宇,贾鹏,李家兴.基于随机森林和双向长短期记忆网络的超短期负荷预测研究[J].电气自动化,2022,44(5):35-37. 被引量：7
3韦紫君,宋玲,胡小春,陈宁江.基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别[J].农业工程学报,2022,38(15):195-203. 被引量：14
4邵慧君,梁施乐.广东粤语的入声格局及舒促对应关系[J].方言,2022,44(3):289-297.
5连尧,冯俊池,丁皓.基于对抗迁移学习的军事科技领域命名实体识别[J].电子设计工程,2022,30(20):121-127. 被引量：3
6童昭,王露笛,朱小杰,杜一.基于预训练模型的军事领域命名实体识别研究[J].数据与计算发展前沿,2022,4(5):120-128. 被引量：5
7魏晓,王晓鑫,陈永琪,张惠然.基于自然语言处理的材料领域知识图谱构建方法[J].上海大学学报（自然科学版）,2022,28(3):386-398. 被引量：3
8姜嬴,杨静,朱哲宇,林佳莹.大湾区多语种政府新闻标注语料库建设研究[J].文化创新比较研究,2022,6(9):62-66.
9Yeol Woo Sung,Dae Seung Park,Cheong Ghil Kim.A Study of BERT-Based Classification Performance of Text-Based Health Counseling Data[J].Computer Modeling in Engineering & Sciences,2023(4):795-808. 被引量：1
10崔伟琪,严馨,滕磊,陈玮,徐广义.一种通过评价类别分类提升评价对象抽取性能的方法[J].计算机工程,2022,48(11):96-103.

计算机科学

2022年第11期

浏览历史

内容加载中请稍等...

融合词性与声调特征的越南语语法错误检测被引量：1

参考文献1

共引文献20

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合词性与声调特征的越南语语法错误检测 被引量：1

参考文献1

共引文献20

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合词性与声调特征的越南语语法错误检测被引量：1