期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
DCsR:一种面向中文文本的集成式纠错框架
1
作者 曹军航 黄瑞章 +1 位作者 白瑞娜 赵建辉 《计算机工程与科学》 CSCD 北大核心 2023年第2期370-380,共11页
中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃... 中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃以往建立在已知错误类型的假设上利用单一模型进行纠错的解决方案,根据不同场景选择添加多种表现优异的纠错模型分别进行纠错再集成召回更全面的候选集,同时根据自定义特征的重要程度建立了一个多策略、可拓展的候选排序算法,以挑选更具有公信力的修正结果。DCsR框架有效地解决了模型的偏向性问题,进一步全面提升了对中文文本拼写纠错的能力。实验结果表明,在公开数据集SIGHAN15上,对比现在的主流纠错模型,使用DCsR框架进行纠错的F1值比表现最优的单模型纠错高出了3.93%,进一步提升了对中文文本的纠错能力。针对CGED2020进行的消融实验也表明了DCsR框架的有效性。 展开更多
关键词 中文文本纠错 DCsR框架 集成式纠错 特征重要程度 候选排序算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部