基于语法知识增强的中文语法纠错被引量：1

Chinese Grammatical Error Correction Based on Grammatical Knowledge Enhancement

下载PDF

导出

摘要语法纠错旨在判断自然语言文本中是否包含语法错误并对句子进行纠正。随着预训练语言模型的迅速发展,基于预训练语言模型的方法被广泛应用于中文语法纠错(CGEC)领域,然而现有的预训练语言模型缺乏语法纠错领域的特定语法知识,导致语法纠错效果不佳。针对该问题,提出一种基于语法知识图谱预训练模型的CGEC模型。首先进行结构化知识编码,将语法知识图谱中的结构化知识映射到词语实体嵌入中,然后通过特定的预训练掩码策略联合学习上下文和词语之间的语法知识以预测字符和词语,最后通过设置检错网络和纠错网络对预训练模型进行微调,以完成CGEC任务。通过上述过程充分提取语法知识,以帮助模型更好地捕捉句子中词语之间的语法关系。在NLPCC 2018测试数据集上的实验结果表明,语法知识增强的方法使得模型的F0.5值提升4.83个百分点,所提模型的F0.5值相比NLPCC 2018共享任务中排名第一的模型高8.85个百分点,验证了基于语法知识图谱的预训练模型在CGEC任务中的有效性。 The aim of grammatical error correction is to judge whether natural language texts contain grammatical errors,to correct them.In recent years,with the rapid development of pre-trained language models,methods based on such models have been widely used in the field of Chinese Grammatical Error Correction(CGEC).However,the existing pre-trained language models lack specific grammatical knowledge in the grammatical error correction field,resulting in poor grammar correction effect.To solve this problem,this paper proposes a CGEC model based on a pre-training model with grammatical knowledge graph.First,the model uses structured knowledge encoding to map the structured knowledge into word entity embedding.Subsequently,the context and grammatical knowledge between words are jointly learned through a specific pre-training mask strategy,to predict characters and words.Finally through error detection and correction networks,the pre-training model is fine-tuned for CGEC.Based on the serial application of these three components,grammatical knowledge can be extracted to a greater extent,thereby helping the model better capture the grammatical relationship between words in sentences.The experimental results on the NLPCC 2018 test dataset show that the method for enhancing grammatical knowledge improves F0.5 score of the model by 4.83 percentage points,and F0.5 score of the proposed model is 8.85 percentage points higher than that of the first model on the NLPCC 2018 shared task,which proves the effectiveness of using the pre-training model based on grammatical knowledge graph for CGEC.

作者邓倩陈曙叶俊民 DENG Qian;CHEN Shu;YE Junmin(School of Computer Science,Central China Normal University,Wuhan 430079,China)

机构地区华中师范大学计算机学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第11期77-84,共8页 Computer Engineering

基金国家社会科学基金后期资助项目(20FTQB020)。

关键词语法纠错预训练语言模型异构知识编码知识图谱深度学习 grammatical error correction pre-trained language model heterogeneous knowledge encoding knowledge graph deep learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1赵国红.中文语法纠错方法的研究综述[J].现代计算机,2021,27(28):65-69. 被引量：5
2韩毅,乔林波,李东升,廖湘科.知识增强型预训练语言模型综述[J].计算机科学与探索,2022,16(7):1439-1461. 被引量：3

二级参考文献8

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：29
2索传军.网络信息资源组织研究的新视角[J].图书情报工作,2013,57(7):5-12. 被引量：42
3刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：260
4刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：965
5徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：507
6李涓子,侯磊.知识图谱研究综述[J].山西大学学报（自然科学版）,2017,40(3):454-459. 被引量：113
7官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994. 被引量：171
8QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：155

共引文献6

1王子斌,张全,谢聪,余沛,余泓江,李沣庭.基于知识图谱与BERT的安全领域汉字文本纠错模型[J].计算机应用,2023,43(S01):75-80.
2尚海怡,黄继风,陈海光.基于Transformer融合词性特征的中文语法纠错模型[J].计算机应用,2022,42(S02):25-30. 被引量：2
3陈柏霖,王天极,任丽娜,黄瑞章.融合ELECTRA和文本局部信息的中文语法错误检测方法[J].计算机工程,2023,49(3):304-311.
4张志剑,倪珍妮,刘政昊,夏苏迪.面向金融知识图谱的动态关系预测方法研究[J].数据分析与知识发现,2023,7(9):39-50. 被引量：2
5崔翛龙,高志强,姬纬通,沈佳楠,张敏,邱鑫源.“艾武大模型+”:一种军事大模型系统的开发与实证[J].数据采集与处理,2024,39(3):588-597.
6邓晨曦,蒋一锄,李合军,彭姣丽,刘曜端,李凌云.基于深度学习的语义级中文自动校对方法[J].计算机科学与应用,2023,13(7):1373-1381.

同被引文献12

1汪权彬,谭营.基于数据增广和复制的中文语法错误纠正方法[J].智能系统学报,2020,15(1):99-106. 被引量：12
2邓俊锋,朱聪慧,赵铁军.基于Back-translation的语法错误纠正[J].智能计算机与应用,2020,10(6):187-190. 被引量：2
3王辉,潘俊辉,王浩畅,张强,张岩,Marius.Petrescu.基于深度学习的中文语法错误诊断方法研究[J].计算机技术与发展,2020,30(11):69-73. 被引量：4
4冯吉芳,田德红,孙海信.基于时间序列的人工智能在线翻译网络分析[J].数据采集与处理,2021,36(2):296-303. 被引量：1
5周险兵,樊小超,任鸽,杨勇.基于多层次语义特征的英文作文自动评分方法[J].计算机应用,2021,41(8):2205-2211. 被引量：12
6王蕊.基于神经机器翻译的英语语法错误纠正方法分析[J].自动化技术与应用,2021,40(8):57-60. 被引量：9
7王国隆,金大海,宫云战.基于JavaCC的抽象语法树生成错误处理技术研究[J].计算机测量与控制,2022,30(2):151-159. 被引量：2
8张明,卢庆华,黄元忠,李瑞轩.自然语言语法纠错的最新进展和挑战[J].计算机工程与应用,2022,58(6):29-41. 被引量：8
9孙晓东,杨东强.数据增广策略在英语语法纠错中的应用综述[J].计算机工程与应用,2022,58(7):43-54. 被引量：6
10孙晓东,王丕坤,杨东强.基于反向翻译的英语语法纠错应用研究[J].计算机技术与发展,2022,32(10):143-150. 被引量：3

引证文献1

1李潇.AI人工智能翻译中数据增广策略和语法错误分析技术研究[J].自动化与仪器仪表,2024(7):243-246.

1程云.浅谈生成式人工智能对德语教学的影响[J].中国科技期刊数据库科研,2023(11):100-103.
2罗松,汪春梅,袁非牛,戴维.基于差分融合句法特征的英语语法纠错模型[J].计算机系统应用,2023,32(10):293-300.
3韩子威,朱建生.动车组故障知识图谱构建方法研究[J].铁道机车车辆,2023,43(4):17-22. 被引量：1
4李璋,曹磊,段晓迪.可持续旅游视角下的遗产阐释理论与规划方法研究[J].中国文化遗产,2023(3):60-69.
5凌键军,李志鹏,陈丹阳,王翔宇,钟诚.结合句子序列与语法关系的方面级情感分类方法[J].广西大学学报（自然科学版）,2023,48(5):1156-1166.
6庞俊,徐浩,秦宏超,林晓丽,刘小琪,王国仁.联合注意力与卷积网络的知识超图链接预测[J].计算机科学与探索,2023,17(11):2734-2742.
7李珊,王斌,王伟.基于源码语义结构分析的智能合约漏洞检测方法[J].广州大学学报（自然科学版）,2023,22(4):56-65. 被引量：1
8张清华.7月旅客运输量创民航月度历史新高业内多家上市公司表现亮眼[J].投资有道,2023(9):39-40.
9吴翔宇,赵哲宇.图像的“出位之思”——《小朋友画报》的图像叙事与新民期待[J].浙江师范大学学报（社会科学版）,2023,48(5):22-33.
10王贵生,张宇豪,王志彬,王翔,王锦昌.泡沫排水采气井筒流动规律实验研究[J].西南石油大学学报（自然科学版）,2023,45(5):107-118. 被引量：1

计算机工程

2023年第11期

浏览历史

内容加载中请稍等...

基于语法知识增强的中文语法纠错被引量：1

参考文献2

二级参考文献8

共引文献6

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语法知识增强的中文语法纠错 被引量：1

参考文献2

二级参考文献8

共引文献6

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语法知识增强的中文语法纠错被引量：1