采用平衡函数的大规模多标签文本分类被引量：1

Extreme Multi-Label Text Classification Based on Balance Function

下载PDF

导出

摘要大规模多标签文本分类是自然语言处理领域的一项挑战性任务。该任务存在标签数据长尾分布的情况,在这种情况下,模型学习尾部标签分类能力不佳,导致模型的整体分类效果不理想。为解决以上问题,提出采用平衡函数的大规模多标签文本分类方法。该方法使用BERT预训练模型对文本进行词嵌入处理,进一步使用预训练模型中多层编码器的拼接输出作为文本向量表示,获取了丰富的文本语义信息,提高了模型收敛速度。最后采用平衡函数针对预测标签的训练损失赋予不同的衰减权重,提高了方法在尾部标签分类上的学习能力。在Eurlex-4K和Wiki10-31K数据集上的实验结果表明,评价指标P@1、P@3和P@5上分别达到86.95%、74.12%、61.43%和88.57%、77.46%、67.90%。 Extreme multi-label text classification is a challenging task in the field of natural language processing.In this task,there is a long-tailed distribution situation of labeled data.In this situation,model has a poor ability to learn tail labels classification,which results the overall classification effect is not good.In order to address the above problems,an extreme multi-label text classification method based on balance function is proposed.Firstly,the BERT pre-training model is used for word embedding.Further,the concatenated output of the multi-layer encoder in the pre-trained model is used as the text vector representation to obtain richer text semantic information and improves the model convergence speed.Finally,the balance function is used to assign different attenuation weights to the training losses of different prediction labels,which improves the learning ability of the method on tail label classification.The experimental results on Eurlex-4K and Wiki10-31K datasets show that the evaluation indicators P@1,P@3 and P@5 respectively reach 86.95%,74.12%,61.43%and 88.57%,77.46%and 67.90%.

作者陈钊鸿洪智勇余文华张昕 CHEN Zhaohong;HONG Zhiyong;YU Wenhua;ZHANG Xin(Faculty of Intelligent Manufacturing,Wuyi University,Jiangmen,Guangdong 529020,China)

机构地区五邑大学智能制造学部

出处《计算机工程与应用》 CSCD 北大核心 2024年第4期163-172,共10页 Computer Engineering and Applications

基金五邑大学港澳联合研发基金(2019WGALH21) 广东省基础与应用基础研究基金(2020A1515011468) 广东省普通高校特色创新类项目(2019KTSCX189)。

关键词自然语言处理大规模多标签文本分类 BERT 平衡函数深度学习 natural language processing(NLP) extreme multi-label text classification BERT balance function deep learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘鑫,梅红岩,王嘉豪,李晓会.图神经网络推荐方法研究[J].计算机工程与应用,2022,58(10):41-49. 被引量：11
2王岳,李雅文,李昂.科技资源文本层次多标签分类方法[J].计算机工程与应用,2023,59(13):92-98. 被引量：4
3黄伟,刘贵全.MSML-BERT模型的层级多标签文本分类方法研究[J].计算机工程与应用,2022,58(15):191-201. 被引量：5

二级参考文献12

1李鹏,于晓洋,孙渤禹.基于用户群组行为分析的视频推荐方法研究[J].电子与信息学报,2014,36(6):1485-1491. 被引量：13
2吴云昌,刘柏嵩,王洋洋,费晨杰.群组推荐分析与研究综述[J].电信科学,2018,34(12):71-83. 被引量：10
3张玉洁,杜雨露,孟祥武.组推荐系统及其应用研究[J].计算机学报,2016,39(4):745-764. 被引量：66
4王海艳,董茂伟.基于动态卷积概率矩阵分解的潜在群组推荐[J].计算机研究与发展,2017,54(8):1853-1863. 被引量：18
5夏立新,杨金庆,程秀峰.移动环境下融合情境信息的群组推荐模型研究——基于用户APP行为数据的实证分析[J].情报学报,2018,37(4):384-393. 被引量：9
6宣鹏程,唐彦,王汪送.基于项目类型的群组推荐方法[J].电子测量技术,2019,42(7):54-58. 被引量：6
7史荧中,汪菊琴,许敏,王士同.正则化多任务学习的快速算法[J].计算机科学与探索,2017,11(6):988-997. 被引量：4
8王海艳,肖亦康.基于密度峰值聚类的动态群组发现方法[J].计算机研究与发展,2018,55(2):391-399. 被引量：8
9汪祥舜,郑孝遥,朱德义,章玥,孙丽萍.基于偏好融合的群组推荐研究[J].南京信息工程大学学报（自然科学版）,2019,11(5):601-608. 被引量：2
10吴国栋,查志康,涂立静,陶鸿,宋福根.图神经网络推荐研究进展[J].智能系统学报,2020,15(1):14-24. 被引量：21

共引文献17

1方健,张光达,张拥军,王璐,温家辉,王会权.图表示学习短视频智能推荐研究综述[J].智能安全,2023,2(1):1-12.
2闫云飞,孙鹏,张杰勇,马钰棠,赵亮.基于领域BERT模型的服务文本分类方法[J].空军工程大学学报,2023,24(1):103-111. 被引量：2
3杨兴耀,李想,于炯,郑捷,黄仲浩.简化且多层结合的知识图谱卷积网络推荐算法[J].计算机工程与应用,2023,59(12):106-112.
4廖冬,于海征.融合物品关系的图神经网络推荐算法[J].计算机科学,2023,50(S02):480-488.
5陈碧云,吕怡博,梁志坚,张勇军,徐旗,付天旺.考虑数据失衡的新型配电网两阶段拓扑辨识[J].电力系统保护与控制,2023,51(21):57-65. 被引量：4
6孙轩宇,史艳翠.融合项目影响力的图神经网络会话推荐模型[J].计算机应用,2023,43(12):3689-3696. 被引量：1
7贾启龙,张仰森,刘帅康,朱思文,高强.学术论文学科领域层次标签分类方法[J].北京信息科技大学学报（自然科学版）,2024,39(1):42-48.
8韦婷婷,葛晓月,熊俊涛.基于层级多标签的农业病虫害问句分类方法[J].农业机械学报,2024,55(1):263-269.
9江钰哲,成全.图嵌入式双层图卷积网络药物推荐模型[J].计算机工程与应用,2024,60(7):315-324.
10王若辰,原欣伟,段刚龙,李建勋.基于邻域抽样多图神经网络的社会化推荐算法[J].计算机仿真,2024,41(3):497-504.

同被引文献15

1王雪,马俊杰,王晟.机械设备状态的经验模式分解统计识别方法[J].中国机械工程,2008,19(6):704-708. 被引量：1
2蒲青松.基建施工项目机械设备管理的几个问题[J].建筑机械,2001,21(2):49-50. 被引量：3
3冯命康.论建筑施工管理中机械设备租赁问题[J].建筑机械,2001,21(8):39-42. 被引量：6
4徐龙,于学鑫,颜毅华.深度学习在天文大数据处理中的应用[J].科研信息化技术与应用,2018,9(3):49-58. 被引量：4
5宋文广,李振智,陈汉林,郭海敏.地层原油物性参数大数据处理方法研究[J].新疆大学学报（自然科学版）,2016,33(3):270-274. 被引量：4
6赵志茹,于雄飞.大型煤炭企业设备管理信息系统的研究与设计[J].中国煤炭,2016,42(10):63-66. 被引量：8
7王金甲,陈浩,刘青玉.大数据下的深度学习研究[J].高技术通讯,2017,27(1):27-37. 被引量：18
8张成岗.人工智能与人类未来--发展人工智能应避免“近视症”[J].人民论坛,2018(2):10-14. 被引量：6
9楚华琴,时娜,于宝证.高校大型精密仪器设备使用现状及高效管理模式探讨[J].实验室研究与探索,2022,41(11):308-312. 被引量：11
10姜文,潘洁,朱金彪,岳昔娟.基于空间与光谱注意力的光学图像和SAR图像特征融合分类方法[J].电子与信息学报,2023,45(3):987-995. 被引量：3

引证文献1

1郝俊杰,陈达.基于深度学习的煤炭企业设备状态预测算法研究[J].能源与环保,2024,46(5):235-241.

1严歆瑜.挑战性任务:创设单元复习的新样态——以四年级下册第二单元为例[J].新教师,2023(11):35-36.
2俞富根.小学体育场境教学的学理意蕴与实践操作[J].教学月刊（小学版）（综合）,2024(1):68-71.
3艾江山,高会江,艾仕文,李恒艳,石国栋,魏煜程.CT影像组学对囊腔型肺癌的诊断价值[J].山东大学学报（医学版）,2023,61(12):70-77. 被引量：1
4乔海晔,吴清辉,汪丽娟.基于节律步态的六足机器人自适应环境运动规划问题研究[J].中国设备工程,2024(3):35-38. 被引量：1
5彭涛,曾小辉,李洋,李曼,蒲冰洁,植彪,王永芹.基于深度神经网络的机会性CT骨质疏松筛查和骨密度预测研究[J].中国医疗设备,2024,39(2):57-62.
6周燕,廖俊玮,刘翔宇,周月霞,曾凡智.改进FCENet的自然场景文本检测算法[J].计算机工程与应用,2024,60(3):228-236.
7张晋轩,陈雨,曾玖贞,何廷尧.基于优化概率神经网络法船舶柴油机燃油系统故障检测[J].广西民族大学学报（自然科学版）,2023,29(4):95-99.
8王雅豪,史东阳,肖玲燕,郑以山,杨凯.影响肝功能衰竭患者短期预后的多因素分析及其与年龄的交互作用对预后影响[J].科学技术与工程,2024,24(4):1418-1424.
9张新英,李彬,吴媛媛.针对恶意软件检测的特征选择与SVM协同优化[J].计算机工程与设计,2024,45(2):467-476. 被引量：1

计算机工程与应用

2024年第4期

浏览历史

内容加载中请稍等...

采用平衡函数的大规模多标签文本分类被引量：1

参考文献3

二级参考文献12

共引文献17

同被引文献15

引证文献1

相关作者

相关机构

相关主题

浏览历史

采用平衡函数的大规模多标签文本分类 被引量：1

参考文献3

二级参考文献12

共引文献17

同被引文献15

引证文献1

相关作者

相关机构

相关主题

浏览历史

采用平衡函数的大规模多标签文本分类被引量：1