-
题名基于预训练模型和图神经网络的藏文文本分类研究
被引量:3
- 1
-
-
作者
胥桂仙
刘兰寅
张廷
董玉双
-
机构
中央民族大学信息工程学院
-
出处
《东北师大学报(自然科学版)》
CAS
北大核心
2023年第1期52-64,共13页
-
基金
国家社会科学基金资助项目(19BGL241)
国家自然科学基金资助项目(62236011).
-
文摘
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model,CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks,GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.
-
关键词
藏文文本分类
图卷积神经网络
预训练语言模型
低资源文本分类
-
Keywords
Tibetan text classification
graph convolution neural network
pre-trained language model
low-resource text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多元神经网络融合的分布式资源空间文本分类研究
被引量:8
- 2
-
-
作者
刘孝保
陆宏彪
阴艳超
陈志成
-
机构
昆明理工大学机电工程学院
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2020年第1期161-170,共10页
-
基金
国家重点研发计划资助项目(2017YFB1400301)~~
-
文摘
针对实体产业对科技资源的服务需求,以服务效应作为资源文本分类标准,提出一种基于多元神经网络融合的分布式资源空间文本分类模型。设计了包含词嵌入层、卷积层、双向门控循环单元层、注意力机制层和softmax层的多元神经网络通路;在此基础上采用基于需求—效应—资源分类策略,完成了从定性科技资源需求到定量资源服务效应求解,再到定性科技资源输出的映射变换,重点解决了分布式科技资源局部和全局语义特征形式多样、文本长距离依赖特征显著、重要资源信息难以准确识别的问题,进而从分布式科技资源空间中快速准确地获取效应知识,提升实体产业产品研发效率和创新能力;通过万方专利科技资源数据集验证了所提方法的可行性和有效性,为更加全面地挖掘资源文本特征和按需服务实体产业提供了一种新的思路和手段。
-
关键词
资源文本分类
分布式资源空间
多元神经网络融合
需求—效应—资源分类策略
按需服务
-
Keywords
resource text classification
distributed resource space
multivariate neural network fusion
demand-effect-resource classification strategy
on-demand service
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-