-
题名DCsR:一种面向中文文本的集成式纠错框架
- 1
-
-
作者
曹军航
黄瑞章
白瑞娜
赵建辉
-
机构
公共大数据国家重点实验室
贵州大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2023年第2期370-380,共11页
-
文摘
中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃以往建立在已知错误类型的假设上利用单一模型进行纠错的解决方案,根据不同场景选择添加多种表现优异的纠错模型分别进行纠错再集成召回更全面的候选集,同时根据自定义特征的重要程度建立了一个多策略、可拓展的候选排序算法,以挑选更具有公信力的修正结果。DCsR框架有效地解决了模型的偏向性问题,进一步全面提升了对中文文本拼写纠错的能力。实验结果表明,在公开数据集SIGHAN15上,对比现在的主流纠错模型,使用DCsR框架进行纠错的F1值比表现最优的单模型纠错高出了3.93%,进一步提升了对中文文本的纠错能力。针对CGED2020进行的消融实验也表明了DCsR框架的有效性。
-
关键词
中文文本纠错
DCsR框架
集成式纠错
特征重要程度
候选排序算法
-
Keywords
Chinese text error correction
DCsR framework
integrated error correction
feature importance
candidate sorting algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-