期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于BERT-Encoder和数据增强的语法纠错模型 被引量:1
1
作者 黄国栋 徐久珺 马传香 《湖北大学学报(自然科学版)》 CAS 2023年第5期719-725,共7页
语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错... 语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标,F0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性. 展开更多
关键词 中文语法纠错 机器翻译 BERT-Encoder 数据增强
下载PDF
《现代汉语语法信息词典》的概率化改造及其应用
2
作者 吴林 张仰森 王璐 《北京信息科技大学学报(自然科学版)》 2011年第6期57-61,共5页
针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错... 针对《现代汉语语法信息词典》不能准确描述真实语料的缺陷,设计了构建概率型语法信息词典名词库的存储结构,提出利用统计模型概率化词语属性的方法,建立完整的名词概率化语法信息词典,设计并实现了概率型语法词典应用于语法词典自纠错的算法,实验证明其具有自纠错能力。 展开更多
关键词 语法信息词典 概率化 查错 纠错
下载PDF
基于Transformer融合词性特征的中文语法纠错模型 被引量:2
3
作者 尚海怡 黄继风 陈海光 《计算机应用》 CSCD 北大核心 2022年第S02期25-30,共6页
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层... 针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。 展开更多
关键词 中文语法纠错 语言学知识 词嵌入 Transformer模型 解码器
下载PDF
面向汉语作为第二语言学习的个性化语法纠错 被引量:3
4
作者 张生盛 庞桂娜 +4 位作者 杨麟儿 王辰成 杜永萍 杨尔弘 黄雅平 《中文信息学报》 CSCD 北大核心 2021年第12期28-35,共8页
语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习... 语法纠错任务旨在通过自然语言处理技术自动检测并纠正文本中的语序、拼写等语法错误。当前许多针对汉语的语法纠错方法已取得较好的效果,但往往忽略了学习者的个性化特征,如二语等级、母语背景等。因此,该文面向汉语作为第二语言的学习者,提出个性化语法纠错,对不同特征的学习者所犯的错误分别进行纠正,并构建了不同领域汉语学习者的数据集进行实验。实验结果表明,将语法纠错模型适应到学习者的各个领域后,性能得到明显提升。 展开更多
关键词 语法纠错 个性化 汉语学习者 领域适应
下载PDF
基于数据增广和复制的中文语法错误纠正方法 被引量:12
5
作者 汪权彬 谭营 《智能系统学报》 CSCD 北大核心 2020年第1期99-106,共8页
中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入... 中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型。构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据。实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果。 展开更多
关键词 自注意力机制 复制机制 序列到序列学习 中文 语法错误纠正 神经网络 文本生成 通顺度
下载PDF
基于BART噪声器的中文语法纠错模型 被引量:9
6
作者 孙邱杰 梁景贵 李思 《计算机应用》 CSCD 北大核心 2022年第3期860-866,共7页
在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠... 在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化;其次,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明,所提模型的F0.5值比有道开发的中文语法纠错系统(YouDao)提高7.14个百分点,比北京语言大学开发的集成中文语法纠错系统(BLCU_ensemble)提高6.48个百分点;同时,所提模型不增加额外的训练数据量,增强了原始数据的多样性,且具有更快的收敛速度。 展开更多
关键词 数据增强 中文语法纠错 文本噪声 深度学习 序列到序列模型 BART噪声器
下载PDF
中文语法纠错方法的研究综述 被引量:5
7
作者 赵国红 《现代计算机》 2021年第28期65-69,共5页
随着中国国际影响力的日益提高和汉语国际地位的提升,使得当今世界各国各民族对汉语和中国文化的了解和掌握的需求越来越迫切。众所周知,汉语是世界上一门难以学习的语言之一,由于它的语法规则复杂多变,导致中文的语法纠错在自然语言处... 随着中国国际影响力的日益提高和汉语国际地位的提升,使得当今世界各国各民族对汉语和中国文化的了解和掌握的需求越来越迫切。众所周知,汉语是世界上一门难以学习的语言之一,由于它的语法规则复杂多变,导致中文的语法纠错在自然语言处理领域中一直极具有挑战性。本文对语法错误的纠正方法进行综述性研究与分析,介绍语法纠错的现状;对比现有的语法错误纠正方法进行分类分析,分析每类语法错误纠正方法的优缺点;以及对未来语法错误纠正的方法提出三点建议。 展开更多
关键词 语法错误 语法错误纠正 中文语法错误纠正
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部