基于多特征融合与多语言预训练的藏文文本分类被引量：1

Tibetan Text Classification Based on Multi-feature Fusion and Multi-language Pre-training

下载PDF

导出

摘要针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。 This paper proposes a Tibetan text classification model based on multi-feature fusion and multi-language pre-training(MFMLP),which is based on the minority language pre-training model(CINO),TextCNN and BiLSTM.This approach inputs the segmentation of dataset into CINO,and then passes all the extracted features through the TextCNN and BiLSTM channels to extract feature at different levels.The extracted feature are combined with the[CLS]feature extracted by CINO at the fusion layer.Based on the Tibetan data set(TNCC),the experiment shows certain improvements compared with the CINO model in text classification task.

作者胥桂仙陈哲马慧麟 XU Guixian;CHEN Zhe;MA Huilin(Key Laboratory of Ethnic Language Intelligent Analysis and Security Governance of MOE,Minzu University of China,Beijing 100081,China;College of Information Engineering,Minzu University of China,Beijing 100081,China)

机构地区中央民族大学民族语言智能分析与安全治理教育部重点实验室中央民族大学信息工程学院

出处《中文信息学报》 CSCD 北大核心 2023年第12期54-61,共8页 Journal of Chinese Information Processing

基金国家社会科学基金(19BGL241)。

关键词多特征融合多语言预训练藏文文本分类 multi-feature fusion multi-language pre-training Tibetan text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报（自然科学版）,2011,32(3):24-29. 被引量：12
2胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
3群诺,贾宏云.基于Logistic回归模型的藏文文本分类研究与实现[J].信息与电脑,2018,30(5):70-73. 被引量：8
4王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报（自然科学版）,2020,40(1):102-110. 被引量：13
5苏慧婧,群诺,贾宏云.基于GaussianNB模型的藏文文本分类研究与实现[J].青海师范大学学报（自然科学版）,2019,35(4):1-4. 被引量：5
6苏慧婧,索朗拉姆,尼玛扎西,群诺.基于MLP和SepCNN神经网络模型的藏文文本分类研究[J].软件,2020,41(12):11-17. 被引量：3

二级参考文献47

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
6顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
7才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
8赵军,许洪波,黄萱菁,等.中文倾向性分析评测技术报告[R].北京:中文信息学会,2008.
9Saltoa G, Wang A, Yang C S.A vector space model far automatic indexing[J]. Conmunication d the ACM, 1975,18(11) :613 - 620.
10Yang Y. Noise reduction in a statistical approach to text categorization[J]. In: Proc of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR' 95), 1995, 256- 263.

共引文献24

1李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
2仁青诺布,苏亚超,孙亚东.基于最大熵模型的藏文不良文本识别系统的设计和实现[J].西藏科技,2014(3):77-78.
3江涛,江静,戴玉刚,李艾林.藏文舆情云分析系统平台研究[J].信息网络安全,2014(9):92-94. 被引量：1
4苏慧婧,群诺,贾宏云.基于GaussianNB模型的藏文文本分类研究与实现[J].青海师范大学学报（自然科学版）,2019,35(4):1-4. 被引量：5
5柔特,才让加.基于循环卷积神经网络的藏文句类识别[J].中文信息学报,2019,33(12):76-82. 被引量：3
6王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报（自然科学版）,2020,40(1):102-110. 被引量：13
7方侠旋.基于XGBoost模型的文本多分类研究[J].网络安全技术与应用,2020(6):50-52. 被引量：3
8李振鹏,陈碧珍,罗静宇.基于文本挖掘的网络舆情分类研究[J].系统科学与数学,2020,40(5):813-826. 被引量：8
9苏慧婧,索朗拉姆,尼玛扎西,群诺.基于MLP和SepCNN神经网络模型的藏文文本分类研究[J].软件,2020,41(12):11-17. 被引量：3
10苏慧婧,群诺.藏文文本分类技术研究综述[J].电脑知识与技术,2021,17(4):190-192. 被引量：4

同被引文献7

1赵瑞腾,李永聪,张宇.基于自然语言处理的工艺检测分类方法研究[J].网络安全与数据治理,2023,42(S01):66-70. 被引量：1
2王振东,董开坤,黄俊恒,王佰玲.SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型[J].计算机科学,2023,50(12):270-278. 被引量：1
3钟懿博,农健,杜艳华.基于LDA主题模型的农产品电商评论文本分类分析[J].甘肃农业,2023(12):64-68. 被引量：1
4杨晓奇,刘伍颖.文本特征和图结点混合增强的图卷积网络文本分类[J].新疆大学学报（自然科学版）（中英文）,2024,41(1):69-77. 被引量：1
5王宇,邵丹,赵雪莲,李媛媛.基于类别的混合式特征选择方法在文本分类中的研究[J].长江信息通信,2023,36(12):38-41. 被引量：2
6徐源音,文小爽,马璐璐,张文.基于BERT和CNN的评论文本情感分类应用研究[J].信息技术与信息化,2023(12):81-84. 被引量：1
7许梦玥,侯秀萍,王俊华.基于词性过滤和改进边权重的短文本分类算法[J].长春工业大学学报,2023,44(6):546-551. 被引量：1

引证文献1

1裴丹.轻量化人工智能翻译文本特征分类算法[J].计算机应用文摘,2024,40(17):170-172.

中文信息学报

2023年第12期

浏览历史

内容加载中请稍等...

基于多特征融合与多语言预训练的藏文文本分类被引量：1

参考文献6

二级参考文献47

共引文献24

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合与多语言预训练的藏文文本分类 被引量：1

参考文献6

二级参考文献47

共引文献24

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合与多语言预训练的藏文文本分类被引量：1