基于深度强化学习的公共安全领域文本关键词抽取方法

A Keywords Extraction Method for Public Safety Domain Texts Based on Deep Reinforcement Learning

导出

摘要在国内政务大数据高速发展的背景下,充分利用大量无标注的公共安全领域政策公文文本数据,有效提取文本的关键信息,对提升城市安全治理能力有重要意义。因此,提出一种基于深度强化学习的公共安全领域文本关键词提取模型,通过无监督的方式快速实现文本内容的标签化,以提升用户对公共安全领域文件或事件的检索能力。文章以log-sum范数正则项作为该模型损失函数的稀疏约束,以引导策略网络学习到保留重要词汇、舍弃非重要词汇的策略。同时设计了一种mini-batch大小可变的模型训练方法,通过设置不同的mini-batch大小控制策略网络学习的难度,从而提高策略网络的泛化能力。性能对比结果显示,该模型在测试集的关键词提取任务上优于传统无监督关键词提取方法。 With the rapid development of big data in China’s government affairs,it is of great significance to fully utilize a large amount of unlabeled text data in the field of public safety,effectively extract key information from the text,and enhance urban safety governance capabilities.Therefore,a public safety domain text keyword extraction model based on deep reinforcement learning was proposed to quickly label the text content in an unsupervised manner,in order to improve the user's retrieval ability for public safety domain files or events.The paper used the log-sum norm regularization term as the sparse constraint of the loss function of the model to guide the policy network to learn strategies that retain important vocabulary and discard unimportant vocabulary.At the same time,a model training method with variable minibatch sizes was designed,which could control the difficulty of learning the policy network by setting different mini batch sizes,thereby improving the generalization capacity of the policy network.The performance comparison results showed that the model outperformed traditional unsupervised methods in the task of keyword extraction.

作者高誉轩孙丽娟丁洪鑫熊子奇 GAO Yuxuan;SUN Lijuan;DING Hongxin;XIONG Ziqi(Chengdu River and Lake Protection and Smart Water Service Center,Chengdu 610072,China;CETC Big Data Research Institute Co.,Ltd.,Guiyang 550022,China;National Engineering Research Center of Big Data Application to the Improvement of Governance Capacity,Guiyang 550022,China)

机构地区成都市河湖保护和智慧水务中心中电科大数据研究院有限公司提升政府治理能力大数据应用技术国家工程研究中心

出处《工业建筑》 2024年第2期155-160,共6页 Industrial Construction

基金国家重点研发计划项目(2023YFC3806001)。

关键词深度强化学习关键词提取 log-sum范数公共安全大数据 deep reinforcement learning keyword extraction log-sum norm public safety big data

分类号 D035 [政治法律—政治学] TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1邸小康,张辉,秦晓婧,齐世杰,王彩虹,程旭.融合新词发现和改进TextRank算法的农业领域关键词提取算法[J].农业工程,2023,13(6):21-25. 被引量：1
2兰晓芳,刘卓,许志豪,肖毅.基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例[J].软件工程,2023,26(8):6-10. 被引量：5
3夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
4王国辉.大数据技术在电子政务领域的应用[J].数字技术与应用,2023,41(10):70-72. 被引量：4

二级参考文献31

1LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
2Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
3Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
4Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
5Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.
6Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[ J]. Journal of Machine Learning Research, 2003, 3: 993- 1022.
7Page L, Brin S, Motwani R, et al. The PageRank Citation Rank- ing: Bringing Order to the Web [ R]. Stanford Digital Library Technologies Project, 1998.
8Rajaraman A, Ullman J D. Mining of Massive Datasets[ M]. Cam- bride University Press. 2012 : 171 - 173.
9石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
10夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2

共引文献82

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
3顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
4唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
5姚尧.自动关键短语抽取综述[J].现代计算机,2015,21(3):13-14. 被引量：1
6赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：5
7段准,刘功申.基于TextRank的用户模板构建方法[J].计算机技术与发展,2015,25(10):1-6. 被引量：1
8谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
9徐茂军,王红.一种基于分词距离改进的 Lucene 排序算法[J].山东师范大学学报（自然科学版）,2016,31(1):66-72.
10宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：67

1蔚梁震天.人工智能聊天机器人在“医学信息获取”课程教学中的应用探讨[J].中国医学教育技术,2024,38(2):229-234. 被引量：1
2汪珶.基于知识蒸馏改进双路BERT的经济类文本情感分析[J].山西师范大学学报（自然科学版）,2024,38(1):39-44.
3李旭晖,冯玉湄,刘柳滟.一种面向领域文本中事件的时间语义模式表示方法[J].武汉大学学报（理学版）,2023,69(6):809-818. 被引量：1
4万常选,张奕韬,刘德喜,刘喜平,廖国琼,万齐智.主题方面共享的领域主题层次模型[J].软件学报,2024,35(4):1790-1818.
5李文杰,张华,任望,叶海龙,武召祺,杨熙熙,彭清.基于降秩和稀疏联合约束的地震数据同时重建和去噪[J].物探与化探,2024,48(2):479-488.
6张文聪.大数据网络中异常数据的分类检索算法设计[J].自动化与仪器仪表,2024(2):47-50.

工业建筑

2024年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习的公共安全领域文本关键词抽取方法

参考文献4

二级参考文献31

共引文献82

相关作者

相关机构

相关主题

浏览历史