-
题名基于对比优化的多输入融合拼写纠错模型
- 1
-
-
作者
伍瑶瑶
黄瑞章
白瑞娜
曹军航
赵建辉
-
机构
贵州大学文本计算与认知智能教育部工程研究中心
贵州大学公共大数据国家重点实验室
贵州大学计算机科学与技术学院
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2024年第1期85-94,共10页
-
基金
国家自然科学基金项目(No.62066007)
贵州省科技支撑计划项目(No.2022277)资助。
-
文摘
文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能.
-
关键词
中文拼写纠错
多输入语义学习
互补语义融合
对比学习优化
-
Keywords
Chinese Spelling Error Correction
Multi-input Semantic Learning
Complementary Semantic Fusion
Contrastive Learning Optimization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名DCsR:一种面向中文文本的集成式纠错框架
- 2
-
-
作者
曹军航
黄瑞章
白瑞娜
赵建辉
-
机构
公共大数据国家重点实验室
贵州大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2023年第2期370-380,共11页
-
文摘
中文文本纠错技术在自然语言处理中有着非常重要的应用。针对书写灵活多变的中文文本,现有的纠错模型无法覆盖多种错误类型且存在从候选集合TOPK中挑选TOP1时出错概率极大的问题。提出了一种面向中文文本的集成式纠错框架——DCsR,摒弃以往建立在已知错误类型的假设上利用单一模型进行纠错的解决方案,根据不同场景选择添加多种表现优异的纠错模型分别进行纠错再集成召回更全面的候选集,同时根据自定义特征的重要程度建立了一个多策略、可拓展的候选排序算法,以挑选更具有公信力的修正结果。DCsR框架有效地解决了模型的偏向性问题,进一步全面提升了对中文文本拼写纠错的能力。实验结果表明,在公开数据集SIGHAN15上,对比现在的主流纠错模型,使用DCsR框架进行纠错的F1值比表现最优的单模型纠错高出了3.93%,进一步提升了对中文文本的纠错能力。针对CGED2020进行的消融实验也表明了DCsR框架的有效性。
-
关键词
中文文本纠错
DCsR框架
集成式纠错
特征重要程度
候选排序算法
-
Keywords
Chinese text error correction
DCsR framework
integrated error correction
feature importance
candidate sorting algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-