-
题名一种构建情感标签均衡语料库的主动学习算法
被引量:1
- 1
-
-
作者
时雪峰
康鑫
廖萍
任福继
-
机构
南通大学机械工程学院
德岛大学工学部
-
出处
《计算机应用与软件》
北大核心
2021年第7期265-270,349,共7页
-
基金
江苏高校优势学科建设工程项目(苏政办发[2018]192号)
江苏省重点研发计划项目(BE2018093)
日本学术振兴会基金项目(19K20345,19H04215)。
-
文摘
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡。综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本。该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的。多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果。
-
关键词
多标签情感分类
主动学习
标签平衡
-
Keywords
Multi-label emotion classification
Active learning
Label balancing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-