期刊文献+

基于提示学习的中文短文本分类方法 被引量:1

Chinese Short Text Classification Based on Prompt Learning
下载PDF
导出
摘要 伴随着互联网的飞速发展,产生了海量以微博、推特等为代表的少于100字的短文本数据,这些文本长度极短、特征稀疏、语义不足,因此给短文本分类问题带来了巨大挑战。现有的中文短文本分类方法往往需要大量的有标签或无标签的数据,但在实际应用中,大量的训练数据往往难以获取,且成本很高。为此,该文提出了一种基于提示学习的中文短文本分类方法,适用于少样本状况下的短文本分类。实验结果表明,该方法在仅使用少样本训练数据的情况下比使用大量训练数据的其他模型表现更好。具体来说,该文手工设计了模板,将使用了模板的原始数据替换为含有mask的文本作为新的输入,最终取得了较好的分类效果。通过对4个基准数据集进行验证,基于提示学习的分类方法在仅有40个训练样本的情况下比BERT预训练语言模型使用740个样本的准确率高出近6%。 With the rapid development of the Internet,a large number of short texts no more than 100 words have emerged on Weibo and Twitter in recent years.In contrast to the existing Chinese short text classification methods demanding a large amount of labeled or unlabeled training data,this paper proposes a Chinese short text classification method based on prompt learning,which achieved excellent performance in few-shot scenarios.Specifically,we manually design many templates to replace the original data with masks as new input.Experiments on four benchmark data sets show that,our proposed method with 40 training samples has nearly 6%higher accuracy than the pre-train language model(e.g.BERT)using 740 samples.
作者 穆建媛 朱毅 周鑫柯 李云 强继朋 袁运浩 MU Jianyuan;ZHU Yi;ZHOU Xinke;LI Yun;QIANG Jipeng;YUAN Yunhao(Department of Computer Science and Technology,Yangzhou University,Yangzhou,Jiangsu 225127,China)
出处 《中文信息学报》 CSCD 北大核心 2023年第7期82-90,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(61906060,62076217)。
关键词 短文本分类 提示学习 少样本 short text classification prompt learning few shot
  • 相关文献

同被引文献12

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部