基于增强语言表示模型的网络新闻长文本分类的研究

Long Text Classification for Web News Based on Enhanced Language Representation Model

下载PDF

导出

摘要基于网络实时新闻内容数据,对一份具有时效的中文长文本数据集进行了新闻主题分类。利用年度关键词增强的分词方案提升分词精度,采用一种长文本压缩方法处理中文长文本的特殊数据,具体方法为选择关键句并利用TF-IDF算法提取长文本中关键词,再将组合的新文本进行词向量训练。最后,采用增强的语言表示模型进行新闻主题分类,并与6种机器学习和深度学习模型进行对比评估,评价指标为召回率、准确率、精度和F1分数等。实验结果表明:本文的模型可通过提取16个重要词对实时新闻长文本进行有效的分类。 Based on the real-time news content data of the Internet,the author classified the news topic of a time-limited Chinese long text data set.The segmentation scheme of annual keyword enhancement was used to improve the segmentation accuracy.In addition,the author adopted a long text compression method to process the special data of Chinese long text.The specific method was to select key sentences,and extract the keywords in long text using the TF-IDF algorithm,then carry out word vector training on the combined new text.Finally,the author used an enhanced language representation model to classify news topics and compared them with six machine learning and deep learning models,including recall rate,accuracy,precision,and F1 score.The experimental results show that the model can effectively classify long text in real-time news by extracting 16 important words.

作者许楠桸柯圆圆胡晓莉 XU Nanxi;KE Yuanyuan;HU Xiaoli(School of Artificial Intelligence,Jianghan University,Wuhan 430056,Hubei,China)

机构地区江汉大学人工智能学院

出处《江汉大学学报（自然科学版）》 2024年第4期37-44,共8页 Journal of Jianghan University：Natural Science Edition

基金江汉大学研究生科研创新基金项目(KYCXJJ202350)。

关键词 ERNIE模型预训练模型新闻分类长文本处理中文文本 ERNIE model pretraining model news classification long text processing Chinese text

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1陈翠平.基于深度信念网络的文本分类算法[J].计算机系统应用,2015,24(2):121-126. 被引量：43
2张曼,夏战国,刘兵,周勇.全卷积神经网络的字符级文本分类方法[J].计算机工程与应用,2020,56(5):166-172. 被引量：11

二级参考文献25

1叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
2陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量：3
3白莉媛,黄晖,刘素华,阎秋玲.基于自助平均的朴素贝叶斯文本分类器[J].计算机工程,2007,33(15):190-192. 被引量：5
4McCaUum A, Nigam K. A comparison of event models for naive bayes text classification. AAAI-98 Workshop on Learning for Text Categorization. Madison, Wisconsim(32).
5Joachims T. Text categorization with support vector machines: Learning with many relevant features. European Conference on Machine Learning (ECML). Chemnitz, Germany. 1998. 137-142.
6Ruiz ME, Srinivasan E Hierarchical neural networks for text categorization. Pro. of SIGIR-99, 22nd ACM International Information Retrieval. 1999(32). 281-282.
7Guo GD, Wang H, Bell D, Bi YX, Greer KR. An kNN Model-based Approach and Its Application in Text Categorization. CICLing 2004, LNCS 2945, 2004. 559--570.
8Debole F, Scbastiani E An analysis of the relative hardness of recuters-21578 subsets. Journal of the American Society for Information Science and Technology,2004,56(6): 584--596.
9Bengio Y. Learning deep architectures for A/. Foundations and Trends in Machine I_emag, 2009, 2(1): 1-127.
10Bengio Y, Delalleau O. On the expressive power of deep architectures. Proc of the 14th International Conference on Discovery Science. Berlin: Springer-Verlag, 2011: 18-36.

共引文献52

1石国庆,刘守仁,杨永林,倪健宏,皮文辉,王志杰.毛质优秀的美利奴“U”系羊新类群[J].中国草食动物,2000,2(1):24-25.
2尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
3高强,阳武,李倩.基于稀疏差异深度信念网络的绝缘子故障识别算法[J].电测与仪表,2016,53(1):19-25. 被引量：11
4高俊平,张晖,赵旭剑,杨春明,李波.基于特征词的Web领域知识分类研究[J].软件导刊,2016,15(2):9-11.
5刘广秀,宋单单.基于Adaboost框架下自动编码器提升方法的文本分类[J].电子世界,2016,0(11):195-195. 被引量：1
6周晓莉,张丰,杜震洪,曹敏杰,刘仁义.基于CRBM算法的时间序列预测模型研究[J].浙江大学学报（理学版）,2016,43(4):442-451. 被引量：9
7顾桂梅,张鑫.基于深度信念网络的风机叶片结构损伤识别研究[J].甘肃农业大学学报,2016,51(4):134-138. 被引量：3
8高双印,田生伟,禹龙,史新宇.基于深度学习的抗HIV活性QSAR预测[J].计算机工程与设计,2017,38(1):226-230. 被引量：2
9何腾鹏,张荣芬,刘超,房乐楠,刘宇红.基于机器视觉的智能导盲眼镜设计[J].电子技术应用,2017,43(4):58-61. 被引量：18
10郭东亮,刘小明,郑秋生.基于卷积神经网络的互联网短文本分类方法[J].计算机与现代化,2017(4):78-81. 被引量：14

1仲旭东.加快发展新质生产力重塑产业发展新优势凝心聚力打造高质量发展的创新之城[J].今日科技,2024(7):18-19.
2有两夏子.苏轼的年度账单[J].青年博览,2024(9):40-40.
3付俊梅.大数据时代档案管理中新媒体与传统纸媒的融合研究[J].中文科技期刊数据库（全文版）经济管理,2016(6):216-216.
4魏盼丽,王红斌.融合关键信息与专家网络的生成式文本摘要[J].吉林大学学报（理学版）,2024,62(4):951-959.
5张进,赵逢禹.基于关键特征的长文本摘要生成方法[J].计算机与数字工程,2024,52(5):1412-1417.
6王艺函.特殊性:2023年第六届《装饰》学术年会综述[J].装饰,2023(12):54-57. 被引量：1
7吁海.融媒体时代编辑记者网络新闻语言运用[J].中国报业,2024(13):236-237.
8龙思全.融媒体时代电视新闻的采编创新路径[J].卫星电视与宽带多媒体,2023(21):85-87.
9高亚琦,游子毅,杨乘,李思瑶.专家信息图结构化模型的构建研究[J].电脑编程技巧与维护,2024(8):132-134.
10年度关键词,她们的“心路标”[J].中国妇女,2023(23):18-19.

江汉大学学报（自然科学版）

2024年第4期

浏览历史

内容加载中请稍等...

基于增强语言表示模型的网络新闻长文本分类的研究

参考文献2

二级参考文献25

共引文献52

相关作者

相关机构

相关主题

浏览历史