期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向深度学习的高质量纠错语料库自动生成方法研究
1
作者 张梅 纪天啸 《北方工业大学学报》 2024年第2期127-132,共6页
基于海量数据驱动的学习模型是目前的主流算法,但通常需要大量的标注数据驱动模型才能获得精准的结果。然而,高质量标注数据获取是一个繁琐且耗时的过程,缺乏足够的标注数据会严重影响算法的性能。本文以信息检索中的查询文本串为例,探... 基于海量数据驱动的学习模型是目前的主流算法,但通常需要大量的标注数据驱动模型才能获得精准的结果。然而,高质量标注数据获取是一个繁琐且耗时的过程,缺乏足够的标注数据会严重影响算法的性能。本文以信息检索中的查询文本串为例,探索自动数据标注方法。针对中文查询串纠错任务,本文提出了一种新颖的语料自动生成方法,该方法结合了规则筛选和循环神经网络的优点,使用了两种方式来构造音素资源库。同时结合考虑用户的输入习惯和发音等特点,用规则模拟出更多种类的输入错误,使用神经网络语言模型将拼音转换为文字。通过这种方法可以生成更广泛的错误类别,有助于提高机器学习算法的性能。实验结果表明,采用序列到序列的数据生成模型,在自动生成纠错语料库方面具有良好的效果,生成的语料能够模拟真实语料中发生的错误情况,可以有效地提高模型的训练效果。 展开更多
关键词 语料库自动构建 查询纠错 数据标注 深度学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部