-
题名基于DAN与FastText的藏文短文本分类研究
- 1
-
-
作者
李果
陈晨
杨进
群诺
-
机构
西藏大学信息科学技术学院
藏文信息技术教育部工程研究中心
四川大学网络空间安全学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第S01期103-107,共5页
-
基金
国家自然科学基金(61872254,62162057)。
-
文摘
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。
-
关键词
藏文短文本分类
特征融合
深度平均网络
快速文本
-
Keywords
Tibetan short text classification
Feature fusion
Deep averaging networks
Fast text
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-