-
题名基于GraphSAGE网络的藏文短文本分类研究
- 1
-
-
作者
敬容
杨逸民
万福成
国旗
于洪志
马宁
-
机构
西北民族大学语言与文化计算教育部重点实验室
西北民族大学甘肃省民族语言智能处理重点实验室
大连市气象局大连市气象信息中心
-
出处
《中文信息学报》
CSCD
北大核心
2024年第9期58-65,共8页
-
基金
国家自然科学基金(62366046)。
-
文摘
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。
-
关键词
图神经网络
藏文文本分类
tncc数据集
-
Keywords
graph neural network
Tibetan text classification
tncc dataset
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-