-
题名面向深度学习的高质量纠错语料库自动生成方法研究
- 1
-
-
作者
张梅
纪天啸
-
机构
北方工业大学信息学院
-
出处
《北方工业大学学报》
2024年第2期127-132,共6页
-
基金
教育部人文社会科学研究规划基金项目(21YJA740052)
-
文摘
基于海量数据驱动的学习模型是目前的主流算法,但通常需要大量的标注数据驱动模型才能获得精准的结果。然而,高质量标注数据获取是一个繁琐且耗时的过程,缺乏足够的标注数据会严重影响算法的性能。本文以信息检索中的查询文本串为例,探索自动数据标注方法。针对中文查询串纠错任务,本文提出了一种新颖的语料自动生成方法,该方法结合了规则筛选和循环神经网络的优点,使用了两种方式来构造音素资源库。同时结合考虑用户的输入习惯和发音等特点,用规则模拟出更多种类的输入错误,使用神经网络语言模型将拼音转换为文字。通过这种方法可以生成更广泛的错误类别,有助于提高机器学习算法的性能。实验结果表明,采用序列到序列的数据生成模型,在自动生成纠错语料库方面具有良好的效果,生成的语料能够模拟真实语料中发生的错误情况,可以有效地提高模型的训练效果。
-
关键词
语料库自动构建
查询纠错
数据标注
深度学习
-
Keywords
automatic construction of corpus
query error correction
data labeling
deep learning
-
分类号
TP393.1
[自动化与计算机技术—计算机应用技术]
-