-
题名基于BERT和多特征融合嵌入的中文拼写检查
被引量:1
- 1
-
-
作者
刘哲
殷成凤
李天瑞
-
机构
西南交通大学计算机与人工智能学院
综合交通大数据应用技术国家工程实验室
-
出处
《计算机科学》
CSCD
北大核心
2023年第3期282-290,共9页
-
基金
国家自然科学基金(61773324)
四川省重点研发项目(2020YFG0035)
中央高校基本科研业务费专项资金(2682021ZTPY097)。
-
文摘
由于汉字的多样性和中文语义表达的复杂性,中文拼写检查仍是一项重要且富有挑战性的任务。现有的解决方法通常存在无法深入挖掘文本语义的问题,且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学习错误字符与正确字符之间的映射关系。文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT(BiGRU-Fusion Mask BERT)。该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识,然后使用双向GRU网络捕获文本中每个字符错误的概率,利用该概率计算汉字语义、拼音和字形特征的融合嵌入表示,最后将这种融合嵌入输入到BERT中的掩码语言模型(Mask Language Model,MLM)以预测正确字符。在SIGHAN 2015基准数据集上对BFMBERT进行了评测,取得了82.2的F1值,其性能优于其他基线模型。
-
关键词
中文拼写检查
BERT
文本校对
掩码语言模型
字词错误校对
预训练模型
-
Keywords
Chinese spelling check
BERT
Text proofreading
Masked language model
Word error proofreading
Pre-training model
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名服务于拼写检查的伪语料生成方法实现
- 2
-
-
作者
胡睿
-
机构
北方工业大学信息学院
-
出处
《数字技术与应用》
2021年第1期177-179,共3页
-
基金
2020年北京市大学生科学研究与创业行动计划项目,来源:北京市教委。
-
文摘
大多数中文拼写检查的研究通过序列标注的方法检查错误,但这些方法都受限于训练语料的来源和规模。目前中文拼写检查的语料多是来源于外国人学习中文写作时出现的错误,构造这些语料库的人工成本巨大,导致其规模小,且其中的语法错误与中文母语者进行文字录入时出现的错误分布不同,使其难以直接在面向中文出版行业的应用中使用。本文提出一种基于中文维基语料,自动生成包含错误拼写的伪语料的方法,使用伪语料进行训练,相对于直接使用训练集数据,模型获得了提升,并且基于伪语料训练的模型在现实语料中取得了较好的效果。
-
关键词
伪语料生成
中文拼写检查
编辑距离
-
Keywords
Pseudo corpus generation
Chinese spelling checking
Edit distance
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-