-
题名融合音节和词条特征的藏文文本情感分类研究
被引量:1
- 1
-
-
作者
孟祥和
于洪志
-
机构
西北民族大学、中国民族语言文字信息技术教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第2期80-86,共7页
-
基金
西北民族大学2021年度中央高校基本科研业务费项目(31920210087)
西北民族大学2020年度中央高校基本科研业务费项目(31920200116)。
-
文摘
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。
-
关键词
藏文文本
情感分类
藏文音节
深度神经网络
-
Keywords
tibetan text
sentiment classification
tibetan syllables
deep neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的藏文舆情分析研究
- 2
-
-
作者
公保加羊
拉玛杰
官却多杰
索南多杰
-
机构
青海省海南州藏文信息技术研究中心
-
出处
《青海科技》
2023年第1期56-60,共5页
-
基金
青海省重点研发与转化计划—科技成果转化专项项目“‘云藏’高效爬虫及检索系统优化与集成”(2020-GX-164)。
-
文摘
随着自然语言处理技术的快速发展,藏文信息处理技术也取得了较大进展。其中,藏文舆情分析作为藏族地区社会舆情分析的重要技术,受到广泛关注。但是,现有的藏文文本情感分析研究由于起步较晚,还存在很大提升空间。本文提出基于深度集成学习的藏文文本情感分析算法。并通过建立藏文情感数据集进行实验,本文算法在三类情感(正向、负向、中性)中精确率平均提升1.65%,召回率提升1.63%,F1分数提升1.96%。实验结果表明,本文采用的深度集成学习有效地提高了文本情感分类的性能。
-
关键词
藏文信息处理
藏文舆情分析
文本情感分析
深度集成学习
藏文情感数据集
-
Keywords
tibetan information processing
tibetan public opinion analysis
text sentiment analysis
Deep integrated learning
tibetan sentiment dataset
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多特征的藏文微博情感倾向性分析
被引量:8
- 3
-
-
作者
江涛
袁斌
于洪志
加羊吉
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期163-169,共7页
-
基金
国家自然基金(61262054)
西北民族大学中央专项资金资助研究生项目(Yxm2014001)
+1 种基金
国家科技支撑计划项目(2014BAK10B03)
甘肃省科技重大专项项目(1203FKDA033)
-
文摘
中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。
-
关键词
藏文微博
混合文本
情感倾向
情感词
词性序列
-
Keywords
tibetan micro-blog
mixed text
sentiment orientation
emotional words
part of speech sequence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名互联网藏文信息舆情分析系统设计
被引量:5
- 4
-
-
作者
安见才让
拉毛措
孙琦龙
-
机构
青海民族大学计算机学院
西藏大学藏文信息技术研究中心
-
出处
《微处理机》
2017年第2期56-58,63,共4页
-
基金
国家民委(14QHZ003)
青海省科技厅(2016-ZJ-Y04)项目资助
-
文摘
信息传播技术的快速发展推动了藏文信息的迅速传播,舆情分析越来越受到人们的关注。介绍了研究互联网藏文信息舆情分析的必要性、重点及难点,详细介绍了藏文舆情分析的关键技术,最后,说明了藏文舆情分析系统的设计和实现框架。
-
关键词
藏文信息
舆情分析
文本分类
藏文情感倾向性
数据挖掘
主题识别
-
Keywords
tibetan information
Public opinion analysis
text classification
tibetan text sentiment
Data mining
Topic recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-