-
题名引入反馈机制的中文文本校对技术研究
- 1
-
-
作者
杜晓童
李崭
付萍萍
刘彦君
-
机构
中国电子科技集团公司第十研究所第四事业部
-
出处
《计算机科学与应用》
2023年第3期390-398,共9页
-
文摘
中文文本校对技术已取得了很大进展,然而目前很多技术研究依赖于深度学习,随着语言模型越来越复杂,训练成本迅速增加,导致落地应用较为困难。针对上述问题,本文提出了一种迭代式无监督文本自动校对技术,可同时纠正多字、少字、字序颠倒以及错别字等文本错误,并设计了反馈机制,可对校对错误结果进行反馈与实时修正。模型使用交叉位置融合算法定位错词索引,针对检测到的错词位置,采用并行多通道候选词构建策略得到候选词序列,并基于得分修正算法计算最优候选词。该方法在公开数据集SIGAHN和自构建数据集上进行了测试实验,纠正准确率和精度分别提升了6.39%和5.17%,高于Transformer等深度学习模型,且训练成本低,可作为文本自动校对技术普及应用的参考方案。
-
关键词
文本校对
反馈机制
位置融合
候选词策略
多类文本错误
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-