-
题名重采样和集成学习相结合的文本多标签分类
- 1
-
-
作者
王天昊
张沛
张昭
陈西海
王晶
张柏礼
-
机构
东南大学计算机科学工程学院
国网山东省电力公司枣庄供电公司
智能电网保护和运行控制国家重点实验室
南瑞集团
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第4期892-901,共10页
-
基金
智能电网保护和运行控制国家重点实验室项目
国家重点研发计划(2021YFC3340305)
中央高校基本科研业务费专项资金(2242018S30023,2242017S30025)。
-
文摘
医患纠纷类裁判文书的多标签分类是对其进行高效检索和管理的基础,然而,医患纠纷数据集的类别不平衡和标签共生现象直接影响到文书的多标签分类效果。为此,提出了一种重采样和集成学习相结合的文本多标签分类方案。该方案首先提出一种基于标签集合平均稀疏度的样本重采样算法,用于降低标签共生对重采样的影响,从而改善数据集的类别不平衡性;然后,提出一种基于集成学习的多标签分类算法,其基于重采样后的数据集分别训练出多个基分类器,并对各基分类器以一票否决的投票策略进行组合,从而进一步提升分类器的多标签分类效果。实验结果表明,提出的多标签分类方案不仅适用于医患纠纷类裁判文书,而且适用于其他存在类别不平衡和标签共生问题的文本数据集。
-
关键词
类别不平衡
多标签分类
集成学习
重采样算法
标签共生
-
Keywords
class imbalance
multi-label classification
ensemble learning
resampling algorithm
label co-occurrence
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-