基于Albert-TextCNN模型的多标签新闻文本分类

Multi-label News Text Classification Based on AlBERT-TextCNN Model

下载PDF

导出

摘要针对智能信息推送管理者的多标签新闻文本分类任务,提出了基于ALBERT-CNN模型的解决方案。利用ALBERT预训练模型和TextCNN卷积神经网络,充分进行语义理解和特征提取。通过ALBERT模型进行语义筛选,精准把握新闻文本内容和主题,再传递给TextCNN模型进行分类和标签预测。采用Sigmoid函数输出每个标签的概率,实现精准的多标签分类。实验验证382688条来自今日头条客户端的数据,ALBERT-CNN模型的F1-Score达到92.05%,召回率达到96.8%,精确率达到90%,相比于优于传统的ALBERT和ALBERT-Denses模型的F1-Score和召回率有所提升。在精确率上略低于AlBERT-Dense。该研究为提高信息推送效率和降低误导性信息的传播提供了一个新的解决方案。 Aiming at the multi-label news text classification task of intelligent information push managers,a solution based on ALBERT-CNN model is proposed.The ALBERT pre-trained model and TextCNN Convolutional Neural Network are employed to comprehensively understand semantics and extract features.Semantic filtering is performed through the ALBERT model to accurately grasp the content and themes of news texts,which are then passed to the TextCNN model for classification and label prediction.The sigmoid function is utilized to output the probability of each label,achieving precise multi-label classification.The experiment verifies 382688 data from the Toutiao client.The F1-Score of ALBERT-CNN model reaches 92.05%,the Recall reaches 96.8%,and the Precision reaches 90%.Compared with the traditional ALBERT and ALBERT-Dense models,it has improved in F1-Score and Recall.It is slightly lower than ALBERT-Dense model in Precision.This study provides a new solution for enhancing information push efficiency and reducing the spread of misleading information.

作者麦咏欣林志豪葸娟霞 MAI Yongxin;LIN Zhihao;XI Juanxia(School of Information Management and Engineering,Neusoft Institute Guangdong,Foshan 528225,China)

机构地区广东东软学院信息管理与工程学院

出处《现代信息科技》 2024年第20期31-36,共6页 Modern Information Technology

基金广东省大学生创新创业训练项目(S202312574015)。

关键词多标签分类 ALBERT TextCNN 自然语言处理 multi-label classification ALBERT TextCNN NLP

分类号 T391.1 [一般工业技术]

引文网络
相关文献

参考文献12

1郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：28
2刘超民.生成式人工智能场景下虚假信息风险特殊性透视及应对[J].中国海洋大学学报（社会科学版）,2024(2):112-121. 被引量：4
3周慧颖,汪廷华,张代俐.多标签特征选择研究进展[J].计算机工程与应用,2022,58(15):52-67. 被引量：7
4姚佼,吴秀荣,李皓,谢贝贝,王诗璇,梁益铭.基于改进K-means算法的物流配送中心选址研究[J].物流科技,2024,47(5):10-13. 被引量：2
5刘晓明,李丞正旭,吴少聪,张宇辰,白红艳,程泽华,陈卓,李永峰,兰钰,沈超.文本分类算法及其应用场景研究综述[J].计算机学报,2024,47(6):1244-1287. 被引量：2
6高玮军,赵华洋,李磊,朱婧.基于ALBERT-HACNN-TUP模型的文本情感分析[J].计算机仿真,2023,40(5):491-496. 被引量：3
7潘兵宏,章泽龙,周乾,马朝辉,王潮.基于sigmoid换道模型的匝道连续分流间距[J].长安大学学报（自然科学版）,2023,43(6):37-48. 被引量：2
8齐悦,谢泰,沙琨.基于Grid-Search的Dropout-LSTM模型在新冠肺炎预测中的应用[J].微型电脑应用,2024,40(2):211-216. 被引量：1
9郭锐,熊风光,谢剑斌,尹宇慧,刘磊.基于改进残差池化层的纹理识别[J].计算机技术与发展,2023,33(9):37-44. 被引量：1
10钱华,祁枢杰,顾涔,陶然,吴宏杰.基于近邻卷积神经网络的油画分类方法研究[J].苏州科技大学学报（自然科学版）,2024,41(1):69-75. 被引量：1

二级参考文献109

1陈小燕,任书丽.社交媒体虚假信息的治理:基于平台社会的视角[J].新闻传播,2022(20):15-17. 被引量：6
2刘艳红.生成式人工智能的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023(4):29-43. 被引量：161
3王玎.论数据处理者的数据安全保护义务[J].当代法学,2023,37(2):40-49. 被引量：40
4毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(3):155-172. 被引量：129
5杨志刚,戚志锦,黄燕.智能车辆自由换道轨迹规划研究[J].重庆交通大学学报（自然科学版）,2013,32(3):520-524. 被引量：22
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
7张兢,候旭东,吕和胜.基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J].重庆理工大学学报（自然科学）,2010,24(1):77-80. 被引量：18
8邓万宇,郑庆华,陈琳,许学斌.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287. 被引量：162
9钟桦,杨晓鸣,焦李成.基于多分辨共生矩阵的纹理图像分类[J].计算机研究与发展,2011,48(11):1991-1999. 被引量：19
10邵欢,李国正,刘国萍,王忆勤.多标记中医问诊数据的症状选择[J].中国科学：信息科学,2011,41(11):1372-1387. 被引量：9

共引文献41

1曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
2胡绿慧,李梓菡,温川飙,廖辛.基于多标签分类的T2DM证候预测模型研究[J].世界科学技术-中医药现代化,2023,25(3):936-943.
3江洋洋,金伯,张宝昌.深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021,57(22):1-14. 被引量：22
4胡晓菁,曲春歌,冯媛.基于人工智能技术的邮政舆情监测分析研究[J].邮政研究,2021,37(6):35-40. 被引量：1
5郝超,裘杭萍,孙毅.融合BERT和图注意力网络的多标签文本分类[J].计算机系统应用,2022,31(6):167-174. 被引量：3
6彭玉芳,石进,徐浩,杨海平.基于BERT和分面分类的多标签的南海证据性数据分类研究[J].图书馆杂志,2022,41(5):102-108. 被引量：5
7李悦,汤鲲.基于TextCNN的政策文本分类[J].电子设计工程,2022,30(12):43-47. 被引量：3
8黄忠祥,李明.ALBERT结合双向网络的文本分类[J].计算机与现代化,2022(10):8-12. 被引量：1
9马雨萌,黄金霞,王昉,芮啸.融合BERT与多尺度CNN的科技政策内容多标签分类研究[J].情报杂志,2022,41(11):157-163. 被引量：9
10陈婷婷.面向机器的NMT英语翻译系统研究[J].信息技术,2022,46(12):69-72. 被引量：2

1杨森森,李海涛,杜伟升,薛珊珊.矿山知识图谱构建的实体关系抽取方法研究[J].煤炭技术,2024,43(11):259-263.
2马红月,李温静,吴文炤,张楠,王婧.基于CEEMDAN和卷积神经网络的配电网故障选线新方法[J].电测与仪表,2024,61(10):97-103.
3范羡,王天乐,朱丽,李小龙,阮席武,汪晗.侧支循环定量参数评估急性缺血性卒中患者临床预后的应用价值[J].实用放射学杂志,2024,40(10):1587-1591.
4武青青,冯海霞,徐晓亮,高超,齐蕊,王健,刘华龙.济南市高速公路机动车高精度尾气排放清单及时间分布特征研究[J].机电工程技术,2024,53(9):143-148.
5雷良发.基于改进GA-Bayes模型的办公系统网络安全检测[J].通化师范学院学报,2024,45(10):74-80.
6陈灿武.基于物联网的建筑工程施工危险行为预警方法[J].物联网技术,2024,14(11):146-148.
7鲁飞,张可可,李宾皑.基于位置误差补偿的PMSM无感控制策略[J].大电机技术,2024(5):111-116.
8顾超,李小飞,王萌,张源超,王国栋.C32连续摩擦焊机多缸液压闭环控制技术[J].液压气动与密封,2024,44(11):72-78.
9蔡梓丰,梁先樟,罗世豪,张延生.基于卷积神经网络的坑洼道路识别和检测[J].物联网技术,2024,14(11):31-35.
10李静,李晨曦,裴培,陈程,龚忠诚.穿颧骨种植上颌窦区种植体定位方案的三维有限元分析[J].口腔颌面外科杂志,2024,34(5):371-378.

现代信息科技

2024年第20期

浏览历史

内容加载中请稍等...

基于Albert-TextCNN模型的多标签新闻文本分类

参考文献12

二级参考文献109

共引文献41

相关作者

相关机构

相关主题

浏览历史