基于多特征融合的政府工作报告关键词提取研究被引量：2

Extracting Keywords from Government Work Reports with Multi-feature Fusion

导出

摘要【目的】通过融合BERT词向量、五笔特征、领域同义词表信息以及字频特征于BiLSTM-CRF模型,实现对政府工作报告语料集的关键词自动提取。【方法】利用BERT向量和五笔向量捕捉输入序列的语义特征和字形特征,通过融合针对政府工作报告所构建的领域同义词表,捕捉输入序列的类别特征,并进一步将字频特征作为权重值赋值于词向量捕捉输入序列上下文特征,使BiLSTM-CRF模型捕捉到更多的语义信息,实现对政府工作报告的关键词自动提取。【结果】基于多特征融合的关键词提取方法,在自建的政府工作报告语料库上,准确率、召回率和F1值分别达到86.14%、91.56%以及88.42%。此外,通过消融实验评估了方法中各特征的有效性。【局限】模型针对政府工作报告领域取得了较好的结果,在之后的工作中需要提高模型的泛化能力。【结论】基于多特征融合的关键词提取方法与其他关键词提取基线方法相比,具有更好的提取效果。 [Objective] This paper proposes a modified BiLSTM-CRF model to automatically extract keywords from the government work reports with the help of BERT word vector, Wubi features, domain synonyms, and word frequencies. [Methods] First, we used the BERT and Wubi vectors to capture the semantic and font features of the input sequence. Then, we captured the category features of the input sequence with the domain synonym table for the government work reports. Third, we assigned the word frequency features as weight to the word vector to capture context features of input sequence. Finally, we used the BiLSTM-CRF model to retrieve more semantic information and automatically extract keywords from government work reports. [Results] We examined the proposed model on the self-built corpus of government work reports. The precision, recall and F1 values reached 86.14%, 91.56%, and 88.42%. We also evaluated the validity of each feature in the model with the ablation experiment. [Limitations] More research is needed to utilize the model to other texts. [Conclusions] The proposed method could effectively extract keywords from Chinese texts.

作者潘慧萍李宝安张乐吕学强 Pan Huiping;Li Baoan;Zhang Le;Lv Xueqiang(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第5期54-63,共10页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目(项目编号:62171043) 国家语言文字工作委员会重点项目(项目编号:ZDI145-10)的研究成果之一。

关键词提取政府工作报告 BERT 五笔字频 Keyword Extraction Government Work Report BERT Wubi Word Frequency

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1王千弓,杨江柱,杨光汉.秘书学概论(续二)[J].江汉大学学报（社会科学版）,1984(2):55-85. 被引量：1
2牛萍,黄德根.TF-IDF与规则相结合的中文关键词自动抽取研究[J].小型微型计算机系统,2016,37(4):711-715. 被引量：35
3胡迁,黄青松,刘利军,李帅彬,冯旭鹏.基于主题与语义的对话语料关键词抽取方法[J].计算机应用与软件,2018,35(12):27-32. 被引量：2
4夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
5顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
6李航,唐超兰,杨贤,沈婉婷.融合多特征的TextRank关键词抽取方法[J].情报杂志,2017,36(8):183-187. 被引量：33
7刘奇飞,沈炜域.基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J].情报探索,2018(6):22-27. 被引量：13
8黄睿智,黄德才.词间关系的不确定图模型与关键词自动抽取方法[J].小型微型计算机系统,2019,40(2):300-304. 被引量：6
9孙福权,张静静,刘冰玉,姜玉山,多允慧.基于万有引力改进的TextRank关键词提取算法[J].计算机应用与软件,2020,37(7):216-220. 被引量：6
10杨延娇,赵国涛,袁振强,韩家臣.融合语义特征的TextRank关键词抽取方法[J].计算机工程,2021,47(10):82-88. 被引量：12

二级参考文献72

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
3LIU Chuan-han,WANG Yong-cheng,ZHENG Fei,LIU De-rong.Using LSA and text segmentation to improve automatic Chinese dialogue text summarization[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(1):79-87. 被引量：3
4刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
5Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
6Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
7Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
8Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.
9Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[ J]. Journal of Machine Learning Research, 2003, 3: 993- 1022.
10Page L, Brin S, Motwani R, et al. The PageRank Citation Rank- ing: Bringing Order to the Web [ R]. Stanford Digital Library Technologies Project, 1998.

共引文献231

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3庞良健,李晗,王庆林,徐新胜.融合多层次语义的网络评价方面抽取方法研究[J].科技通报,2021,37(10):59-65.
4黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
5翟羽佳,许佳,李晓.面向突发重大公共卫生事件的多源异构应急信息融合模型研究[J].图书与情报,2021(5):9-20. 被引量：7
6李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
7李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
8顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
9唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
10姚尧.自动关键短语抽取综述[J].现代计算机,2015,21(3):13-14. 被引量：1

同被引文献18

1章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
2孙国梓,董宇,李云.基于CP-ABE算法的云存储数据访问控制[J].通信学报,2011,32(7):146-152. 被引量：64
3赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
4常耀成,张宇翔,王红,万怀宇,肖春景.特征驱动的关键词提取算法综述[J].软件学报,2018,29(7):2046-2070. 被引量：36
5朱敏,张丹丹.基于人工智能的电信运营商智慧客服系统探讨[J].信息技术与信息化,2019(7):153-155. 被引量：11
6周晶,孙喜民,于晓昆,边新宁.知识图谱与数据应用——智能推荐[J].电信科学,2019,35(8):165-172. 被引量：14
7王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,33(9):24-30. 被引量：20
8涂文博,袁贞明,俞凯.无池化层卷积神经网络的中文分词方法[J].计算机工程与应用,2020,56(2):120-126. 被引量：12
9张佳宁,严冬梅,王勇.基于word2vec的语音识别后文本纠错[J].计算机工程与设计,2020,41(11):3235-3240. 被引量：19
10黄大吉,林海香.基于嵌入式NLP的铁路车务术语语音识别方法[J].兰州交通大学学报,2020,39(5):64-69. 被引量：6

引证文献2

1张倩,高建瓴,丁容.基于特征融合的中文分词研究[J].智能计算机与应用,2022,12(10):57-61.
2马晓亮,刘英,杜德泉,安玲玲.运营商智能客服的关键技术和发展趋势[J].电信科学,2023,39(5):76-89. 被引量：1

二级引证文献1

1马晓亮,刘英,赵汝强,杨邦兴,高洁,邓从健.绿色AI效率评价模型的构建与应用[J].电信科学,2024,40(8):130-137.

1张新,付中华.鲁棒的特定人语音分离算法[J].计算机应用研究,2022,39(6):1749-1752.
2何有世,温玉美.顾客网络购物满意度影响因素的文本挖掘与主题提取研究[J].软件导刊,2022,21(6):147-151. 被引量：2
3李思洁,王亚慧,张子豪.燃气输配突发事件应急处置的知识图谱构建[J].消防科学与技术,2022,41(6):812-817. 被引量：3
4刘浩强,陈瀚哲,杨亚茹.心理韧性改善脑外伤康复效果的系统综述[J].中国康复理论与实践,2022,28(6):670-677. 被引量：2
5李雪思,张智雄,刘欢.一种基于序列标注的概念短语抽取方法[J].图书情报工作,2022,66(11):121-128. 被引量：2
6王宁,张银凤,勾金荣.基于面向对象方法的垦区冲刷沟特征提取研究[J].测绘与空间地理信息,2022,45(S01):171-172.
7唐焕玲,卫红敏,王育林,朱辉,窦全胜.结合LDA与Word2vec的文本语义增强方法[J].计算机工程与应用,2022,58(13):135-145. 被引量：22
8刘沼辉,齐忠华.基于光学影像数据的南极冰川监测研究进展[J].测绘与空间地理信息,2022,45(S01):17-21. 被引量：1
9刘伟诚,马静.融合物候知识和多时相遥感的冬小麦种植面积提取[J].现代信息科技,2022,6(6):141-143. 被引量：1
10贾朋社,许昌斌.三亚候鸟人群休闲涉入、休闲效益、地方依恋与幸福感的影响研究[J].经济研究导刊,2022(17):34-37.

数据分析与知识发现

2022年第5期

浏览历史

内容加载中请稍等...

基于多特征融合的政府工作报告关键词提取研究被引量：2

参考文献15

二级参考文献72

共引文献231

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的政府工作报告关键词提取研究 被引量：2

参考文献15

二级参考文献72

共引文献231

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多特征融合的政府工作报告关键词提取研究被引量：2