期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
探索中文预训练模型的混合粒度编码和IDF遮蔽
1
作者 邵云帆 孙天祥 邱锡鹏 《中文信息学报》 CSCD 北大核心 2024年第1期57-64,共8页
目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练... 目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。 展开更多
关键词 中文预训练 混合粒度编码 idf遮蔽
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部