-
题名探索中文预训练模型的混合粒度编码和IDF遮蔽
- 1
-
-
作者
邵云帆
孙天祥
邱锡鹏
-
机构
复旦大学计算机科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2024年第1期57-64,共8页
-
基金
国家自然科学基金(62022027)。
-
文摘
目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。
-
关键词
中文预训练
混合粒度编码
idf遮蔽
-
Keywords
Chinese pre-training
mixed-grained encoding
idf-masking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-