期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于动态文本窗口和权重动态分配的中文文本纠错方法 被引量:10
1
作者 黄改娟 王匆匆 张仰森 《郑州大学学报(理学版)》 CAS 北大核心 2020年第3期9-14,共6页
提出一种基于动态文本窗口的中文文本查错方法,依靠窗口的不断滑动来检测文本错误。当中文文本有疑似错误时,采用聚类词集平滑数据稀疏问题,然后采用权重动态分配的纠错词集进行纠错,若纠错结果仍不符合检错规则,则用缩小文本窗口法和... 提出一种基于动态文本窗口的中文文本查错方法,依靠窗口的不断滑动来检测文本错误。当中文文本有疑似错误时,采用聚类词集平滑数据稀疏问题,然后采用权重动态分配的纠错词集进行纠错,若纠错结果仍不符合检错规则,则用缩小文本窗口法和拓展窗口法来检查具体错误。构建纠错词集则采用基于最小编辑距离和权重动态分配的方法。实验结果表明,基于动态文本窗口查错方法的F值达到了77.9%;再结合权重动态分配的纠错方法,纠错准确率达到78.1%,相较黑马校对系统和基于平均权重的纠错策略,准确率分别提升了9.7%和15.8%。 展开更多
关键词 语义搭配 数据稀疏 动态文本窗口 权重动态分配
下载PDF
基于注意力机制与端到端的中文文本纠错方法 被引量:4
2
作者 王匆匆 张仰森 黄改娟 《计算机应用与软件》 北大核心 2022年第6期141-147,共7页
在中文文本纠错任务上,基于神经机器翻译的文本纠错模型已经取得最优表现。提出一种复制机制的纠错模型,它复制待纠错句子中的字词到目标生成文本中。由于中文文本纠错缺乏大量的标注数据,使用降噪自动编码器在大规模非标注中文语料库... 在中文文本纠错任务上,基于神经机器翻译的文本纠错模型已经取得最优表现。提出一种复制机制的纠错模型,它复制待纠错句子中的字词到目标生成文本中。由于中文文本纠错缺乏大量的标注数据,使用降噪自动编码器在大规模非标注中文语料库上预训练基于复制机制的模型。此外,还做了字级别和句子级别的多任务学习。实验结果显示,该方法在NLPCC2018中文文本纠错任务上取得最好成绩。 展开更多
关键词 神经机器翻译 文本纠错 降噪自动编码器 预训练
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部