期刊文献+

基于多特征融合与多语言预训练的藏文文本分类 被引量:1

Tibetan Text Classification Based on Multi-feature Fusion and Multi-language Pre-training
下载PDF
导出
摘要 针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。 This paper proposes a Tibetan text classification model based on multi-feature fusion and multi-language pre-training(MFMLP),which is based on the minority language pre-training model(CINO),TextCNN and BiLSTM.This approach inputs the segmentation of dataset into CINO,and then passes all the extracted features through the TextCNN and BiLSTM channels to extract feature at different levels.The extracted feature are combined with the[CLS]feature extracted by CINO at the fusion layer.Based on the Tibetan data set(TNCC),the experiment shows certain improvements compared with the CINO model in text classification task.
作者 胥桂仙 陈哲 马慧麟 XU Guixian;CHEN Zhe;MA Huilin(Key Laboratory of Ethnic Language Intelligent Analysis and Security Governance of MOE,Minzu University of China,Beijing 100081,China;College of Information Engineering,Minzu University of China,Beijing 100081,China)
出处 《中文信息学报》 CSCD 北大核心 2023年第12期54-61,共8页 Journal of Chinese Information Processing
基金 国家社会科学基金(19BGL241)。
关键词 多特征融合 多语言预训练 藏文文本分类 multi-feature fusion multi-language pre-training Tibetan text classification
  • 相关文献

参考文献6

二级参考文献47

共引文献24

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部