-
题名基于KenLM的中文文本纠错算法研究
- 1
-
-
作者
李岩
杜刚
张晨
朱艳云
-
机构
中国移动通信集团设计院有限公司
-
出处
《电信工程技术与标准化》
2022年第11期46-50,共5页
-
文摘
日常生产生活中会面临大量文本创作需求,在进行文本创作时,难免会出现错字、缺字等情况。为了避免最终呈现版本出现错字、缺字等情况,往往需要耗费大量时间在文本纠错上。为了提升纠错效率,进而提升整体的文本创作质量,本文提出了一种基于KenLM的中文文本纠错算法,可以快速地给出文本纠错建议。同时,该算法可以根据特殊场景下建立的特殊词语字典,提升在特殊场景下的纠错能力。
-
关键词
自然语言处理
文本纠错
kenlm
N-GRAM
-
Keywords
natural language processing
text error correction
kenlm
N-Gram
-
分类号
TN918
[电子电信—通信与信息系统]
-
-
题名融合MacBERT和Kenlm的中文纠错方法
- 2
-
-
作者
王梦贤
何春辉
-
机构
湖南城市学院管理学院
国防科技大学信息系统工程重点实验室
-
出处
《现代计算机》
2022年第23期70-73,85,共5页
-
基金
“一带一部”定位下湖湘文化旅游产业的发展战略研究(XSP20YBC027)。
-
文摘
中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%。尤其是F1值比基线方法提升了3.6个百分点,充分证明了所提方法的有效性。
-
关键词
中文纠错
kenlm
迁移学习
MacBERT
-
Keywords
Chinese error correction
kenlm
Transfer learning
MacBERT
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-