期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于深度学习的语法纠错技术研究进展
1
作者 梁椰玲 王岩 《计算机应用文摘》 2024年第13期132-134,共3页
语法纠错(GEC)旨在自动检测并纠正文本中的语法错误,从而提升文本的质量和可读性。文章首先总结了语法纠错技术的研究进展和主要研究成果;其次针对当前纠错任务存在的泛化能力差、高质量数据缺乏、语法错误复杂、运行速度慢等问题,分析... 语法纠错(GEC)旨在自动检测并纠正文本中的语法错误,从而提升文本的质量和可读性。文章首先总结了语法纠错技术的研究进展和主要研究成果;其次针对当前纠错任务存在的泛化能力差、高质量数据缺乏、语法错误复杂、运行速度慢等问题,分析了基于当前主流深度学习模型Transformer的优化改进方案;最后指出了当前语法纠错技术面临的挑战及可行的研究方向。 展开更多
关键词 语法纠错 深度学习 优化方法 问题和挑战
下载PDF
汉语学习者文本多维标注语料库建设
2
作者 王莹莹 孔存良 +3 位作者 杨麟儿 胡韧奋 杨尔弘 孙茂松 《语言文字应用》 北大核心 2023年第1期88-100,共13页
本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可... 本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度,采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本,获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题,又为学界分析学习者语言与两个参照语变体三者之间的多元互动,揭示二语习得的规律提供了参考及扩展空间。 展开更多
关键词 学习者语料库 流利度 众包 语法自动纠错
下载PDF
基于语法知识增强的中文语法纠错
3
作者 邓倩 陈曙 叶俊民 《计算机工程》 CAS CSCD 北大核心 2023年第11期77-84,共8页
语法纠错旨在判断自然语言文本中是否包含语法错误并对句子进行纠正。随着预训练语言模型的迅速发展,基于预训练语言模型的方法被广泛应用于中文语法纠错(CGEC)领域,然而现有的预训练语言模型缺乏语法纠错领域的特定语法知识,导致语法... 语法纠错旨在判断自然语言文本中是否包含语法错误并对句子进行纠正。随着预训练语言模型的迅速发展,基于预训练语言模型的方法被广泛应用于中文语法纠错(CGEC)领域,然而现有的预训练语言模型缺乏语法纠错领域的特定语法知识,导致语法纠错效果不佳。针对该问题,提出一种基于语法知识图谱预训练模型的CGEC模型。首先进行结构化知识编码,将语法知识图谱中的结构化知识映射到词语实体嵌入中,然后通过特定的预训练掩码策略联合学习上下文和词语之间的语法知识以预测字符和词语,最后通过设置检错网络和纠错网络对预训练模型进行微调,以完成CGEC任务。通过上述过程充分提取语法知识,以帮助模型更好地捕捉句子中词语之间的语法关系。在NLPCC 2018测试数据集上的实验结果表明,语法知识增强的方法使得模型的F0.5值提升4.83个百分点,所提模型的F0.5值相比NLPCC 2018共享任务中排名第一的模型高8.85个百分点,验证了基于语法知识图谱的预训练模型在CGEC任务中的有效性。 展开更多
关键词 语法纠错 预训练语言模型 异构知识编码 知识图谱 深度学习
下载PDF
基于差分融合句法特征的英语语法纠错模型
4
作者 罗松 汪春梅 +1 位作者 袁非牛 戴维 《计算机系统应用》 2023年第10期293-300,共8页
当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识,从而使得英语语法纠错模型的纠错能力受到影响.针对上述问题,提出一种基于差分融合句法特征的英语语法纠错模型.首先,本文提出的句法编码器不仅可以直接从文本中无监督... 当前的英文语法纠错模型往往忽略了有利于语法纠错的文本句法知识,从而使得英语语法纠错模型的纠错能力受到影响.针对上述问题,提出一种基于差分融合句法特征的英语语法纠错模型.首先,本文提出的句法编码器不仅可以直接从文本中无监督地生成依存关系图和成分句法树信息,而且还能将上述两种异构的句法结构进行特征融合,编码成高维的句法表征.其次,为了同时利用文本中的语义和句法信息,差分融合模块先使用差分正则化加强语义编码器捕获句法编码器未能生成的语义特征,然后采用协同注意力将句法表征和语义表征进一步融合,作为Transformer编码端的输出特征,最终输入到解码端,从而生成语法正确的文本.在CoNLL-2014英文纠错任务数据集上进行对比实验,结果表明,该方法的准确率和F0.5值优于基于Copy-Augmented Transformer的语法纠错模型,其F0.5值提升了5.2个百分点,并且句法知识避免了标注数据过少问题,具有更优的文本纠错效果. 展开更多
关键词 自然语言处理 语法纠错 句法知识 协同注意力 差分融合
下载PDF
Controllable data synthesis method for grammatical error correction 被引量:1
5
作者 Liner Yang Chengcheng Wang +2 位作者 Yun Chen Yongping Du Erhong Yang 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第4期69-78,共10页
Due to the lack of parallel data in current grammatical error correction(GEC)task,models based on sequence to sequence framework cannot be adequately trained to obtain higher performance.We propose two data synthesis ... Due to the lack of parallel data in current grammatical error correction(GEC)task,models based on sequence to sequence framework cannot be adequately trained to obtain higher performance.We propose two data synthesis methods which can control the error rate and the ratio of error types on synthetic data.The first approach is to corrupt each word in the monolingual corpus with a fixed probability,including replacement,insertion and deletion.Another approach is to train error generation models and further filtering the decoding results of the models.The experiments on different synthetic data show that the error rate is 40%and that the ratio of error types is the same can improve the model performance better.Finally,we synthesize about 100 million data and achieve comparable performance as the state of the art,which uses twice as much data as we use. 展开更多
关键词 grammatical error correction sequence to sequence data synthesis
原文传递
基于BERT-Encoder和数据增强的语法纠错模型
6
作者 黄国栋 徐久珺 马传香 《湖北大学学报(自然科学版)》 CAS 2023年第5期719-725,共7页
语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错... 语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标,F0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性. 展开更多
关键词 中文语法纠错 机器翻译 BERT-Encoder 数据增强
下载PDF
融合预训练模型和自注意力的英语语法纠错
7
作者 郝琛 《信息技术》 2023年第12期147-155,161,共10页
针对现有基于Seq2Seq框架的语法纠错模型对句子语义信息利用不充分的问题,提出一种基于预训练语言模型与自注意力机制的英语语法纠错模型。通过预训练语言模型与卷积神经网络结构进行编码,获取句子的局部语义信息;通过自注意力机制来提... 针对现有基于Seq2Seq框架的语法纠错模型对句子语义信息利用不充分的问题,提出一种基于预训练语言模型与自注意力机制的英语语法纠错模型。通过预训练语言模型与卷积神经网络结构进行编码,获取句子的局部语义信息;通过自注意力机制来提升单词语义信息表征的准确性;采用SRU网络将预测单词分布与注意力得分分布进行融合,并结合束搜索策略生成最终结果;运用集成学习进一步提升语法纠错模型性能。在CoNLL-2014和JFLEG数据集上的实验结果表明,相较于其他基线语法纠错方法,文中提出的方法能够取得更好的纠错效果。 展开更多
关键词 预训练模型 自注意力 语法纠错 束搜索 集成学习
下载PDF
基于文法推断的协议逆向工程 被引量:9
8
作者 肖明明 余顺争 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2044-2058,共15页
要深入了解网络中的各种应用过程,进而对这些应用进行自动分类、识别、跟踪和控制,首先就要获得代表这些应用会话过程的状态机.为此提出一种新的方法从采集的应用层数据中反推协议状态机.它采用基于差错纠正的文法推断方法,利用应用层... 要深入了解网络中的各种应用过程,进而对这些应用进行自动分类、识别、跟踪和控制,首先就要获得代表这些应用会话过程的状态机.为此提出一种新的方法从采集的应用层数据中反推协议状态机.它采用基于差错纠正的文法推断方法,利用应用层协议交互过程中出现的标识符状态序列,逆向工程其协议状态机.为充分挖掘和发挥差错纠正的性能,提出了最佳路径匹配标准确定纠正路径,以及基于概率统计的异常入度区分及其剪枝的方法;通过去重的状态合并和相似行为意义的协议结构化简措施解决状态膨胀问题,从而获取最精简的协议状态机.通过在包含多种应用层协议的实际网络中的实验,验证了该方法的有效性. 展开更多
关键词 协议逆向工程 协议状态机推断 协议分析 差错纠正文法推断 网络安全
下载PDF
基于LSTM和N-gram的ESL文章的语法错误自动纠正方法 被引量:8
9
作者 谭咏梅 杨一枭 +1 位作者 杨林 刘姝雯 《中文信息学报》 CSCD 北大核心 2018年第6期19-27,共9页
针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆... 针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆集为开放集合,该文提出一种基于ESL(English as Second Lauguage)和新闻语料的N-gram投票策略的GEC方法。该文方法在2013年CoNLL的GEC数据上实验的整体F1值为33.87%,超过第一名UIUC的F1值31.20%。其中,冠词错误纠正的F1值为38.05%,超过UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为28.89%,超过UIUC的介词错误纠正F1值7.22%。 展开更多
关键词 语法错误自动纠正 LSTM N-gram投票策略 ESL语料
下载PDF
英语学习者书面语法错误自动检测研究综述 被引量:7
10
作者 刘磊 梁茂成 《中文信息学报》 CSCD 北大核心 2018年第1期1-8,共8页
英语学习者书面语法错误检测和修改系统可为作文自动评分提供参数,评测作文整体质量;也可用于计算机辅助英语教学,为学生提供书面纠错反馈,促进其二语写作能力的发展。该文概述了近十年来自然语言处理技术在英语学习者语法错误自动检测... 英语学习者书面语法错误检测和修改系统可为作文自动评分提供参数,评测作文整体质量;也可用于计算机辅助英语教学,为学生提供书面纠错反馈,促进其二语写作能力的发展。该文概述了近十年来自然语言处理技术在英语学习者语法错误自动检测研究中的应用,首先介绍了基于大规模本族语和学习者语料库的三种数据驱动的系统设计方法,然后讨论了语误检测系统的评测标准,最后提出了提高现有系统准确率的一些建议。 展开更多
关键词 英语学习者书面语 语法错误自动检测 作文质量自动评测
下载PDF
印尼留学生汉语习得语法偏误试析 被引量:4
11
作者 吴建伟 《海南师范大学学报(社会科学版)》 2019年第4期124-130,共7页
语法偏误研究是对外汉语教学与研究中的重要内容。留学生在汉语习得中产生的语法偏误的国别化差异是很明显的,通过连续记录下来的印尼留学生学习汉语过程中的语法偏误句,可以归纳出印尼留学生语法偏误的五种类型:错序、遗漏、误代、误... 语法偏误研究是对外汉语教学与研究中的重要内容。留学生在汉语习得中产生的语法偏误的国别化差异是很明显的,通过连续记录下来的印尼留学生学习汉语过程中的语法偏误句,可以归纳出印尼留学生语法偏误的五种类型:错序、遗漏、误代、误加和杂糅。导致这五种语法偏误产生的原因主要有四个:母语的负迁移、目的语规则的泛化、语境诱发和教材误导。教师在实际教学中纠偏时应根据留学生学汉语所处的阶段及其实际汉语水平,尽可能地使其避免过度推理并逐步摆脱母语的负迁移的影响。 展开更多
关键词 语法偏误 印尼留学生 母语负迁移 纠偏
下载PDF
基于深度学习技术的语法纠错算法模型构建分析 被引量:8
12
作者 景艳娥 《信息技术》 2020年第9期143-147,152,共6页
为了探究基于深度学习技术的语法纠错算法模型,文中从系统需求分析入手,首先介绍了模型构建基于seq2seq的深度学习技术模型和语料库的相关理论基础,然后对基于seq2seq的语法纠错模型进行了分析,最后对语法纠错算法模型的架构设计和核心... 为了探究基于深度学习技术的语法纠错算法模型,文中从系统需求分析入手,首先介绍了模型构建基于seq2seq的深度学习技术模型和语料库的相关理论基础,然后对基于seq2seq的语法纠错模型进行了分析,最后对语法纠错算法模型的架构设计和核心模块的运行框架和主要原理进行了介绍。研究成果表明:人工智能在语法纠错中的应用也逐渐受到相关研究者的关注,该技术的成型不仅能有效减少教师批卷工作量,更有助于学生的自主学习;在基于seq2seq的深度学习技术模型的引入Attention机制,技能保证语法纠错的准确性,又能提高语法纠错模型的运算效率;在模型中引入反馈建议模块,有助于及时发现并优化系统的不足之处。 展开更多
关键词 深度学习 语法纠错 语料库 seq2seq
下载PDF
《现代汉语语法信息词典》的概率化改造及其应用
13
作者 吴林 张仰森 王璐 《北京信息科技大学学报(自然科学版)》 2011年第6期57-61,共5页
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错... 针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。 展开更多
关键词 语法信息词典 概率化 查错 纠错
下载PDF
基于Transformer增强架构的中文语法纠错方法 被引量:26
14
作者 王辰成 杨麟儿 +2 位作者 王莹莹 杜永萍 杨尔弘 《中文信息学报》 CSCD 北大核心 2020年第6期106-114,共9页
语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基... 语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。 展开更多
关键词 语法纠错 多头注意力 动态残差结构 数据增强
下载PDF
基于指针网络融入混淆集知识的中文语法纠错 被引量:2
15
作者 李嘉诚 沈嘉钰 +2 位作者 龚晨 李正华 张民 《中文信息学报》 CSCD 北大核心 2022年第4期29-38,共10页
在中文语法纠错(CGEC)任务上,虽然替换类错误在数据集中占比最多,但还没有研究者尝试过将音近和形近知识融入基于神经网络的语法纠错模型中。针对这一问题,该文做了两方面的尝试。首先,该文提出了一种基于指针网络融入混淆集知识的语法... 在中文语法纠错(CGEC)任务上,虽然替换类错误在数据集中占比最多,但还没有研究者尝试过将音近和形近知识融入基于神经网络的语法纠错模型中。针对这一问题,该文做了两方面的尝试。首先,该文提出了一种基于指针网络融入混淆集知识的语法纠错模型。具体而言,该模型在序列到编辑(Seq2Edit)语法纠错模型基础上,利用指针网络融入汉字之间的音近和形近知识。其次,在训练数据预处理阶段,即从错误-正确句对抽取编辑序列过程中,该文提出一种混淆集指导的编辑距离算法,从而更好地抽取音近和形近字的替换类编辑。实验结果表明,该文提出的两点改进均能提高模型性能,且作用互补;该文所提出的模型在NLPCC 2018评测数据集上达到了目前最优性能。实验分析表明,与基准Seq2Edit语法纠错模型相比,该文模型的性能提升大部分来自于替换类错误的纠正。 展开更多
关键词 语法纠错 混淆集 指针网络
下载PDF
面向汉语作为第二语言学习的个性化语法纠错 被引量:3
16
作者 张生盛 庞桂娜 +4 位作者 杨麟儿 王辰成 杜永萍 杨尔弘 黄雅平 《中文信息学报》 CSCD 北大核心 2021年第12期28-35,共8页
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习... 语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。 展开更多
关键词 语法纠错 个性化 汉语学习者 领域适应
下载PDF
基于数据增广和复制的中文语法错误纠正方法 被引量:11
17
作者 汪权彬 谭营 《智能系统学报》 CSCD 北大核心 2020年第1期99-106,共8页
中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入... 中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型。构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据。实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果。 展开更多
关键词 自注意力机制 复制机制 序列到序列学习 中文 语法错误纠正 神经网络 文本生成 通顺度
下载PDF
自然语言语法纠错的最新进展和挑战 被引量:4
18
作者 张明 卢庆华 +1 位作者 黄元忠 李瑞轩 《计算机工程与应用》 CSCD 北大核心 2022年第6期29-41,共13页
语法纠错(grammatical error correction,GEC)是自然语言处理领域的重要应用之一,在近几年取得了较大的进展和丰富的研究成果。对语法纠错研究进行了深入调研,旨在更好地了解当前的研究进展、面对的挑战和未来发展趋势。介绍了语法纠错... 语法纠错(grammatical error correction,GEC)是自然语言处理领域的重要应用之一,在近几年取得了较大的进展和丰富的研究成果。对语法纠错研究进行了深入调研,旨在更好地了解当前的研究进展、面对的挑战和未来发展趋势。介绍了语法纠错的基本含义和研究概况,分析了语法纠错领域的重要研究进展,对数据处理方法、算法模型和GEC评估方法等关键方法分别做了探讨,并概括了中文语法纠错的研究状况。总结了语法纠错研究的相关资源,主要包括文献资源、开源应用和公开数据,并讨论了GEC面临的问题和挑战。 展开更多
关键词 语法纠错 机器翻译 迁移学习 多语言模型
下载PDF
基于Transformer融合词性特征的中文语法纠错模型 被引量:1
19
作者 尚海怡 黄继风 陈海光 《计算机应用》 CSCD 北大核心 2022年第S02期25-30,共6页
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层... 针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。 展开更多
关键词 中文语法纠错 语言学知识 词嵌入 Transformer模型 解码器
下载PDF
基于预训练语言模型的语法错误纠正方法 被引量:1
20
作者 韩明月 王英林 《上海交通大学学报》 EI CAS CSCD 北大核心 2022年第11期1554-1560,共7页
自然语言处理中的语法错误纠正(GEC)任务存在着低资源性的问题,学习GEC模型需要耗费大量的标注成本以及训练成本.对此,采用从掩码式序列到序列的预训练语言生成模型(MASS)中的迁移学习方式,充分利用预训练模型已提取的语言特征,在GEC的... 自然语言处理中的语法错误纠正(GEC)任务存在着低资源性的问题,学习GEC模型需要耗费大量的标注成本以及训练成本.对此,采用从掩码式序列到序列的预训练语言生成模型(MASS)中的迁移学习方式,充分利用预训练模型已提取的语言特征,在GEC的标注数据上微调模型,结合特定的前处理、后处理方法改善GEC模型的表现,从而提出一种新的GEC系统(MASS-GEC).在两个公开的GEC任务中评估该系统,在有限的资源下,与当前GEC系统相比,达到了更好的效果.具体地,在CoNLL14数据集上,该系统在强调查准率的指标F上表现分数为57.9;在JFLEG数据集上,该系统在基于系统输出纠正结果与参考纠正结果n元语法重合度的评估指标GLEU上表现分数为59.1.该方法为GEC任务低资源问题的解决提供了新视角,即从自监督预训练语言模型中,利用适用于GEC任务的文本特征,辅助解决GEC问题. 展开更多
关键词 语法错误纠正 自然语言生成 序列到序列
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部