-
题名基于提示学习的中文短文本分类方法
被引量:5
- 1
-
-
作者
穆建媛
朱毅
周鑫柯
李云
强继朋
袁运浩
-
机构
扬州大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2023年第7期82-90,共9页
-
基金
国家自然科学基金(61906060,62076217)。
-
文摘
伴随着互联网的飞速发展,产生了海量以微博、推特等为代表的少于100字的短文本数据,这些文本长度极短、特征稀疏、语义不足,因此给短文本分类问题带来了巨大挑战。现有的中文短文本分类方法往往需要大量的有标签或无标签的数据,但在实际应用中,大量的训练数据往往难以获取,且成本很高。为此,该文提出了一种基于提示学习的中文短文本分类方法,适用于少样本状况下的短文本分类。实验结果表明,该方法在仅使用少样本训练数据的情况下比使用大量训练数据的其他模型表现更好。具体来说,该文手工设计了模板,将使用了模板的原始数据替换为含有mask的文本作为新的输入,最终取得了较好的分类效果。通过对4个基准数据集进行验证,基于提示学习的分类方法在仅有40个训练样本的情况下比BERT预训练语言模型使用740个样本的准确率高出近6%。
-
关键词
短文本分类
提示学习
少样本
-
Keywords
short text classification
prompt learning
few shot
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-