期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于对比优化的多输入融合拼写纠错模型
1
作者 伍瑶瑶 黄瑞章 +2 位作者 白瑞娜 曹军航 赵建辉 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期85-94,共10页
文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段... 文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能. 展开更多
关键词 中文拼写纠错 多输入语义学习 互补语义融合 对比学习优化
下载PDF
DCsR:一种面向中文文本的集成式纠错框架
2
作者 曹军航 黄瑞章 +1 位作者 白瑞娜 赵建辉 《计算机工程与科学》 CSCD 北大核心 2023年第2期370-380,共11页
中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃... 中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃以往建立在已知错误类型的假设上利用单一模型进行纠错的解决方案,根据不同场景选择添加多种表现优异的纠错模型分别进行纠错再集成召回更全面的候选集,同时根据自定义特征的重要程度建立了一个多策略、可拓展的候选排序算法,以挑选更具有公信力的修正结果。DCsR框架有效地解决了模型的偏向性问题,进一步全面提升了对中文文本拼写纠错的能力。实验结果表明,在公开数据集SIGHAN15上,对比现在的主流纠错模型,使用DCsR框架进行纠错的F1值比表现最优的单模型纠错高出了3.93%,进一步提升了对中文文本的纠错能力。针对CGED2020进行的消融实验也表明了DCsR框架的有效性。 展开更多
关键词 中文文本纠错 DCsR框架 集成式纠错 特征重要程度 候选排序算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部