期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
中文纠错任务为例的数据集增强质量评价方法
1
作者 宋程 谢振平 《计算机工程与应用》 CSCD 北大核心 2024年第3期331-339,共9页
数据增强被认为是一种有效提升模型效果的方案。但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性。针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法。该方法使用对比学习优化后的预训... 数据增强被认为是一种有效提升模型效果的方案。但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性。针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法。该方法使用对比学习优化后的预训练模型提取数据集的特征向量,提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标。在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据。 展开更多
关键词 数据集增强 机器学习 质量评价 中文纠错 深度学习
下载PDF
基于搜索引擎日志的中文纠错方法研究 被引量:4
2
作者 杨苏稳 张晓如 《软件导刊》 2020年第6期182-187,共6页
针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为... 针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为两大类:一类为拼音引起的错误,针对该类错误,参考并改进了基于拼音索引的中文模糊匹配算法进行纠错;另一类为多字、少字、异位及别字引起的错误,针对该类错误,设计了模糊匹配方法结合最小编辑距离方法进行纠错。经过实验验证,证明了该纠错方法的有效性,该方法能够一定程度上提升用户体验,满足实际工程需要。 展开更多
关键词 搜索引擎日志 中文纠错 模糊匹配 最小编辑距离
下载PDF
融合MacBERT和Kenlm的中文纠错方法
3
作者 王梦贤 何春辉 《现代计算机》 2022年第23期70-73,85,共5页
中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%... 中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%。尤其是F1值比基线方法提升了3.6个百分点,充分证明了所提方法的有效性。 展开更多
关键词 中文纠错 Kenlm 迁移学习 MacBERT
下载PDF
融合位置编码的中文拼写纠错方法
4
作者 赵建辉 林川 +1 位作者 任丽娜 黄瑞章 《计算机工程与设计》 北大核心 2024年第9期2844-2851,共8页
在中文拼写纠错任务中,字符在文本中的距离信息和顺序信息是重要的特征,因此位置编码至关重要。传统的位置编码无法区分字符的前后联系,此外二阶段方式的纠错方案存在错误传播问题。针对上述问题,提出一种多任务学习下融合位置编码的中... 在中文拼写纠错任务中,字符在文本中的距离信息和顺序信息是重要的特征,因此位置编码至关重要。传统的位置编码无法区分字符的前后联系,此外二阶段方式的纠错方案存在错误传播问题。针对上述问题,提出一种多任务学习下融合位置编码的中文拼写纠错方法,使用融合位置编码更好地为模型提供位置信息;使用多任务学习机制缓解错误传播问题,提升模型泛化能力。针对公开数据集进行实验,实验结果在F1值方面有稳定提升,验证了所提方法的有效性。 展开更多
关键词 中文拼写纠错 距离信息 顺序信息 位置编码 错误传播 融合位置编码 多任务学习
下载PDF
中文文本纠错软件测试用例的选择生成方法 被引量:2
5
作者 冯程皓 谢振平 丁博文 《计算机应用》 CSCD 北大核心 2024年第1期101-112,共12页
针对目前尚无有效的中文文本纠错软件测试用例生成方法的情况,为了服务于软件纠错性能的测量并为软件提供优化方向,设计了一种面向多用户的、工程化的中文文本纠错软件测试用例选择生成方法(SGMT-CCS)。定义了两种不同的可供用户选择的... 针对目前尚无有效的中文文本纠错软件测试用例生成方法的情况,为了服务于软件纠错性能的测量并为软件提供优化方向,设计了一种面向多用户的、工程化的中文文本纠错软件测试用例选择生成方法(SGMT-CCS)。定义了两种不同的可供用户选择的用例评判标准:错误数量密度和错误种类密度。设计了三个模块:测试用例自动化生成模块、测试用例选择模块以及测试用例优先级排序模块。在SGMT-CCS中,用户可以:1)在测试用例自动化生成的过程中自定义错误最小间隔和用例集大小;2)在测试用例选择的过程中自定义错误最小间隔和期望值;3)在测试用例选择和优先级排序的过程中选择不同的用例评判标准进行自定义操作,以适应不同数据集的要求。实验结果表明,SGMT-CCS能够在较短的时间内获得有效的测试用例,选择模块实验在模拟的需求情况下都能满足用户自定义目标,优先级排序模块实验验证了相较于排序前,在不同评判标准下的不同时间段内都能有效提高测试效率。 展开更多
关键词 测试用例生成 中文文本纠错 可选择生成 回归测试 自然语言处理
下载PDF
基于语境与文本结构融合的中文拼写纠错方法
6
作者 刘昌春 张凯 +2 位作者 包美凯 刘烨 刘淇 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期451-463,共13页
在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音... 在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音相似度以及微调过的预训练BERT模型,能自动提取句子语义并利用汉字的相似性.具体地,通过对预训练的中文BERT模型进行微调,使之能适应下游的中文拼写纠错任务;同时,利用表意文字描述序列获取汉字的树形结构作为视觉信息,采用汉字的拼音序列作为语音信息;最后,利用编辑距离得出汉字的视觉和语音相似度,并将这些相似度数据与微调过的BERT模型融合,以实现纠错任务.在SIGHAN标准数据集上的测试结果显示,和基准模型相比,提出的ECS方法其F1-score提升巨大,在检错层面上提升2.1%,在纠错层面上提升2.8%,也验证了将汉字的语境信息、视觉信息与语音信息融合用于中文拼写纠错任务的适用性. 展开更多
关键词 中文拼写纠错 BERT 汉字语音相似度 汉字视觉相似度 预训练模型
下载PDF
中文文本纠错软件测试用例的最小化方法
7
作者 冯程皓 谢振平 丁博文 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2345-2354,共10页
针对目前尚未存在有效的中文文本纠错软件测试用例最小化方法的情况,设计了两种中文文本纠错软件测试用例集最小化方法:基于多目标遗传算法的中文文本纠错软件测试用例集最小化方法(Minimization Method based on Multi-objective Genet... 针对目前尚未存在有效的中文文本纠错软件测试用例最小化方法的情况,设计了两种中文文本纠错软件测试用例集最小化方法:基于多目标遗传算法的中文文本纠错软件测试用例集最小化方法(Minimization Method based on Multi-objective Genetic Algorithm of Test case for Chinese text error Correction Software,MMG-CCS)和基于TextRank模型的中文文本纠错软件测试用例最小化方法(Minimization Method based on TextRank of Test case for Chinese text error Correction Software,MMT-CCS).MMG-CCS基于问题特点设计了一种中文文本纠错软件测试用例集覆盖度模型,并将测试用例集大小及覆盖度作为目标函数,为了高效求解该问题,MMG-CCS同时对遗传算子进行了改进.此外,MMT-CCS方法能将测试用例集最小化问题映射为图解问题,并根据问题特点对TextRank模型进行了针对性改进.实验结果表明,MMG-CCS和MMT-CCS对测试用例集的缩减程度高,且在不同中文文本纠错软件上对于不同中文文本纠错软件测试用例集均能保持相同的测试效果. 展开更多
关键词 测试用例最小化 中文文本纠错 覆盖度模型 回归测试 自然语言处理
下载PDF
基于知识及流利度提升的中文语法纠错模型
8
作者 王岩 梁椰玲 《信息技术与信息化》 2024年第5期107-110,共4页
语法错误纠正(grammatical error correction,GEC)旨在将包含语法错误的句子纠正为正确的句子。目前语法错误纠正研究主要基于Transformer模型,但由于模型参数规模大,中文GEC任务语料不足,Transformer无法得到充分训练来学习文本中足够... 语法错误纠正(grammatical error correction,GEC)旨在将包含语法错误的句子纠正为正确的句子。目前语法错误纠正研究主要基于Transformer模型,但由于模型参数规模大,中文GEC任务语料不足,Transformer无法得到充分训练来学习文本中足够的语义信息。提出了基于知识及流利度提升策略的中文GEC模型,将MacBERT预训练模型作为外部知识来源,并利用流利度提升策略缓解GEC模型单轮推理纠错不完全的局限。为了验证所提出的GEC模型的有效性,在NLPCC 2018中文GEC共享任务数据集上进行了大量实验,其性能优于NLPCC 2018 GEC共享任务中开发的最佳模型。 展开更多
关键词 中文语法纠错 Transformer模型 知识增强学习 流利度提升策略 预训练语言模型
下载PDF
一种面向中文拼写纠错的自监督预训练方法
9
作者 苏锦钿 余珊珊 洪晓斌 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第9期90-98,共9页
预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问... 预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问题。为了进一步提升BERT/RoBERTa/MacBERT等模型的拼写错误识别及纠正能力,提出一种面向中文拼写纠错的自监督预训练方法MASC。MASC在MLM的基础上将对被掩码字的正确值预测转换成对拼写错误字的识别和纠正。首先,MASC将MLM对字的掩码扩展为相应的全词掩码,目的是提升BERT对单词级别的语义表征学习能力;接着,利用混淆集从音调相同、音调相近和字形相近等方面对MLM中的被掩码字进行替换,并将MLM的训练目标更改为识别正确的字,从而增强了BERT的拼写错误识别及纠正能力;最后,在3个公开的CSC语料集sighan13、sighan14和sighan15上的实验结果表明,MASC可在不改变BERT/RoBERTa/MacBERT等模型结构的前提下进一步提升它们在下游CSC任务中的效果,并且消融实验也证明了全词掩码、音调和字形等信息的重要性。 展开更多
关键词 中文拼写纠错 文本纠错 自然语言处理 预训练语言模型 深度学习 自监督
下载PDF
基于ChineseBert的中文拼写纠错方法 被引量:1
10
作者 崔凡 强继朋 +1 位作者 朱毅 李云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期302-312,共11页
中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼... 中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼音和字形特征,但和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象.将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题.由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法.首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果. 展开更多
关键词 中文拼写纠错 Bert ChineseBert 多模态语言模型
下载PDF
基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法
11
作者 孙哲 禹可 吴晓非 《计算机应用研究》 CSCD 北大核心 2023年第8期2292-2297,共6页
中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间... 中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,验证了该算法的可行性。 展开更多
关键词 中文拼写纠错 错误概率 预训练 信息融合 序列到序列模型
下载PDF
DCsR:一种面向中文文本的集成式纠错框架
12
作者 曹军航 黄瑞章 +1 位作者 白瑞娜 赵建辉 《计算机工程与科学》 CSCD 北大核心 2023年第2期370-380,共11页
中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃... 中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃以往建立在已知错误类型的假设上利用单一模型进行纠错的解决方案,根据不同场景选择添加多种表现优异的纠错模型分别进行纠错再集成召回更全面的候选集,同时根据自定义特征的重要程度建立了一个多策略、可拓展的候选排序算法,以挑选更具有公信力的修正结果。DCsR框架有效地解决了模型的偏向性问题,进一步全面提升了对中文文本拼写纠错的能力。实验结果表明,在公开数据集SIGHAN15上,对比现在的主流纠错模型,使用DCsR框架进行纠错的F1值比表现最优的单模型纠错高出了3.93%,进一步提升了对中文文本的纠错能力。针对CGED2020进行的消融实验也表明了DCsR框架的有效性。 展开更多
关键词 中文文本纠错 DCsR框架 集成式纠错 特征重要程度 候选排序算法
下载PDF
基于对比优化的多输入融合拼写纠错模型
13
作者 伍瑶瑶 黄瑞章 +2 位作者 白瑞娜 曹军航 赵建辉 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期85-94,共10页
文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段... 文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能. 展开更多
关键词 中文拼写纠错 多输入语义学习 互补语义融合 对比学习优化
下载PDF
基于局部语义增强的中文拼写纠错方法
14
作者 卓奕炜 田泽佳 门豪 《电子设计工程》 2023年第3期54-57,62,共5页
针对当前主流的中文拼写纠错模型对文本局部上下文特征学习不足的问题,该文提出基于局部语义特征增强的改进思路:在自注意力计算单元中添加高斯分布的偏置矩阵,改变注意力权重分布,使得纠错模型可以强化对当前位置相邻文本特征的学习;... 针对当前主流的中文拼写纠错模型对文本局部上下文特征学习不足的问题,该文提出基于局部语义特征增强的改进思路:在自注意力计算单元中添加高斯分布的偏置矩阵,改变注意力权重分布,使得纠错模型可以强化对当前位置相邻文本特征的学习;而在计算注意力得分时减少当前位置的权重,可以进一步提升学习局部信息的效果。实验表明,该文提出的改进方法对中文拼写纠错任务的精确率、召回率和F1值均有提升,其中F1值与过往最好成果相比可提升1.74%。 展开更多
关键词 中文拼写纠错 自注意力网络 局部语义增强 高斯分布
下载PDF
搜索引擎的一种在线中文查询纠错方法 被引量:2
15
作者 胡熠 刘云峰 +4 位作者 杨海松 张小鹏 段建勇 张梅 乔建秀 《中文信息学报》 CSCD 北大核心 2016年第1期71-78,共8页
该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查... 该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。 展开更多
关键词 中文查询纠错 多特征 核函数排序
下载PDF
基于深度学习的语义级中文自动校对方法
16
作者 邓晨曦 蒋一锄 +3 位作者 李合军 彭姣丽 刘曜端 李凌云 《计算机科学与应用》 2023年第7期1373-1381,共9页
中文语法纠错任务是检查和纠正句子中的语法错误,相对于中文拼写错误纠正,中文语法错误纠正面对的错误不仅包括同音字和同形字的错误,还包括多字和少字的情况。本文通过大量的实验验证不同方法的优缺点,基于规则的方法需要消耗大量的人... 中文语法纠错任务是检查和纠正句子中的语法错误,相对于中文拼写错误纠正,中文语法错误纠正面对的错误不仅包括同音字和同形字的错误,还包括多字和少字的情况。本文通过大量的实验验证不同方法的优缺点,基于规则的方法需要消耗大量的人力来构造规则,而基于传统机器学习的方法面临特征提取能力不足的缺点,基于深度学习的方法是目前语法纠错的主要方法,因为语法纠错的文本存在不确定性,所以纠错的结果可能存在多种可能,因此Seq2Seq和预训练语言模型目前取得了较好的效果。 展开更多
关键词 深度学习 中文语法纠错 Seq2Seq 预训练语言模型
下载PDF
基于Transformer融合词性特征的中文语法纠错模型 被引量:2
17
作者 尚海怡 黄继风 陈海光 《计算机应用》 CSCD 北大核心 2022年第S02期25-30,共6页
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层... 针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。 展开更多
关键词 中文语法纠错 语言学知识 词嵌入 Transformer模型 解码器
下载PDF
基于BART噪声器的中文语法纠错模型 被引量:9
18
作者 孙邱杰 梁景贵 李思 《计算机应用》 CSCD 北大核心 2022年第3期860-866,共7页
在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠... 在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化;其次,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明,所提模型的F0.5值比有道开发的中文语法纠错系统(YouDao)提高7.14个百分点,比北京语言大学开发的集成中文语法纠错系统(BLCU_ensemble)提高6.48个百分点;同时,所提模型不增加额外的训练数据量,增强了原始数据的多样性,且具有更快的收敛速度。 展开更多
关键词 数据增强 中文语法纠错 文本噪声 深度学习 序列到序列模型 BART噪声器
下载PDF
基于BERT-Encoder和数据增强的语法纠错模型 被引量:1
19
作者 黄国栋 徐久珺 马传香 《湖北大学学报(自然科学版)》 CAS 2023年第5期719-725,共7页
语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错... 语法纠错是自然语言处理领域的重要任务之一,中文由于语法规则灵活复杂,中文语法纠错一直是一项具有挑战性的任务.本研究将中文语法纠错视为机器翻译问题,将错误的语句作为源语句翻译成正确的目标语句.使用Transformer模型作为基线纠错模型,首先,利用BERT学习到的参数初始化编码器(BERT-Encoder)使模型更好的收敛,然后,利用动态掩蔽作为数据增强方法,解决训练所需的带错误标注的平行语料不足的问题.使用MaxMatch Scorer作为评价指标,F0.5相比基线模型提升了9.94%,实验结果表明该方法对模型纠错性能的提升具有有效性. 展开更多
关键词 中文语法纠错 机器翻译 BERT-Encoder 数据增强
下载PDF
基于中文语法纠错的即时通信系统原型构建
20
作者 王殿林 《信息与电脑》 2022年第7期101-103,共3页
为解决即时通信系统中消息的语言文本错误问题,本文设计实现了一个基于中文语法纠错即时通信系统的原型系统。该原型系统使用ErrorCorrectionChat模拟即时通信系统,并将中文文本纠错工具PyCorrector服务化为可提供文本错误纠错的语言文... 为解决即时通信系统中消息的语言文本错误问题,本文设计实现了一个基于中文语法纠错即时通信系统的原型系统。该原型系统使用ErrorCorrectionChat模拟即时通信系统,并将中文文本纠错工具PyCorrector服务化为可提供文本错误纠错的语言文本纠错服务,通过在ErrorCorrectionChat产生消息时调用语言文本纠错服务实现消息的纠错功能。原型系统较好地验证了基于中文语法纠错的即时通信系统构建的可行性。同时,文章指出了在特定应用场景下即时通信系纠错能力提升的方法和移动端纠错响应具备实时性的解决方案,为下一步研究提供了思路。 展开更多
关键词 即时通信系统 语言文本纠错 中文语法纠错
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部