基于句法分析及主题分布的关键词抽取模型被引量：3

Keyword extraction model based on syntactic analysis and topic distribution

下载PDF

导出

摘要针对TextRank算法在抽取篇章关键词时忽略句法信息、主题信息等问题,提出基于句法分析与主题分布的篇章关键词抽取模型(S-TAKE)。模型分为段落和篇章两阶段递进抽取篇章关键词,首先以段落为单位,结合词共现、语法及语义信息抽取段落关键词;然后根据段落主题对段落聚类,形成段落主题集;最后根据段落主题分布特征抽取篇章关键词。在公开的新闻数据集上,模型的抽取效果较原始TextRank提升了约10%。实验结果表明,S-TAKE的抽取效果有了明显提升,证明了语法信息及主题信息的重要性。 Aiming at the problem that TextRank ignored syntactic information and topic information when extracting chapter keywords,this paper proposed a chapter keyword extraction model based on syntactic analysis and topic distribution(S-TAKE).This model included two stages of chapter keyword extraction,such as paragraph and chapter.Firstly,it used paragraphs as a unit to extract paragraph keywords by combining word co-occurrence,grammatical and semantic information.Then it clustered the paragraphs according to the paragraph topics to form the paragraph topic set.Finally,it extracted chapter keywords based on the distribution characteristics of paragraph topics.On the open news dataset,the model’s extraction effect improved by about 10%compared with the original TextRank.Results show that S-TAKE model has significantly improved the extraction effect,and proves the importance of grammatical information and topic information.

作者王昊刘丹刘硕 Wang Hao;Liu Dan;Liu Shuo(Research Institute of Electronic Science&Technology,University of Electronic Science&Technology of China,Chengdu 611731,China)

机构地区电子科技大学电子科学技术研究院

出处《计算机应用研究》 CSCD 北大核心 2022年第9期2603-2607,共5页 Application Research of Computers

关键词抽取 TextRank 依存关系语义距离段落主题 keyword extraction TextRank dependency relationship semantic distance paragraph topic

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1孙福权,张静静,刘冰玉,姜玉山,多允慧.基于万有引力改进的TextRank关键词提取算法[J].计算机应用与软件,2020,37(7):216-220. 被引量：6
2夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
3孟彩霞,张琰,李楠楠.基于TextRank的关键词提取改进方法研究[J].计算机与数字工程,2020,48(12):3022-3026. 被引量：6
4艾金勇.融合多特征的TextRank藏文文本关键词抽取方法研究[J].情报探索,2020(7):1-6. 被引量：4
5牛永洁,姜宁.关键词提取算法TextRank影响因素的研究[J].电子设计工程,2020,28(12):1-5. 被引量：8
6李志强,潘苏含,戴娟,胡佳佳.一种改进的TextRank关键词提取算法[J].计算机技术与发展,2020,30(3):77-81. 被引量：9
7张兵磊.基于TextRank和LDA的中文短文本分类研究[J].信息与电脑,2021,33(6):12-14. 被引量：2
8余本功,张宏梅,曹雨蒙.基于多元特征加权改进的TextRank关键词提取方法[J].数字图书馆论坛,2020,0(3):41-50. 被引量：10
9夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60

二级参考文献76

1LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：24
2Mihalcea R, Tarau P. TextRank : Bringing Order into Texts [ C ]. In: Proceedings of Empirical Methods in Natural Language Process- ing, Barcelona, Spain. 2004:404-411.
3Frank E, Paynter G W, Witten I H, et al. Domain - Specific Key- phrase Extraction [ C ] In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. 1999 : 668 -673.
4Turney P D. Learning Algorithms for Keyphrase Extraction[ J]. In- formation Retrieval, 2000, 2 (4) :303 - 336.
5Pasquier C. Task 5 : Single Document Keyphrase Extraction Using Sentence Clustering and Latent Dirichlet Allocation [ C ]. In : Pro- ceedings of the 5th International Workshop on Semantic Evaluation. Stroudsburg, PA, USA : Association for Computational Linguistics, 2010:154 - 157.
6Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[ J]. Journal of Machine Learning Research, 2003, 3: 993- 1022.
7Page L, Brin S, Motwani R, et al. The PageRank Citation Rank- ing: Bringing Order to the Web [ R]. Stanford Digital Library Technologies Project, 1998.
8Rajaraman A, Ullman J D. Mining of Massive Datasets[ M]. Cam- bride University Press. 2012 : 171 - 173.
9施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
10张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7

共引文献139

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
3黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
6唐晓波,肖璐.基于依存句法网络的文本特征提取研究[J].现代图书情报技术,2014(11):31-37. 被引量：10
7姚尧.自动关键短语抽取综述[J].现代计算机,2015,21(3):13-14. 被引量：1
8赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：5
9段准,刘功申.基于TextRank的用户模板构建方法[J].计算机技术与发展,2015,25(10):1-6. 被引量：1
10谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21

同被引文献35

1白娅娜,张晓宁,刘旸.科技论文精准推送服务模式探索[J].编辑学报,2020,0(1):56-59. 被引量：22
2李翠娟,宣国良.知识合作剩余:合作知识创新创造企业竞争优势的机理分析[J].科学学与科学技术管理,2005,26(7):87-91. 被引量：13
3赵伟华.复杂产品技术能力增长机理研究[J].经济管理,2008,34(10):67-72. 被引量：2
4施炳展,李坤望.中国制造业国际分工地位研究——基于产业内贸易形态的跨国比较[J].世界经济研究,2008(10):3-8. 被引量：32
5丁树良,祝玉芳,林海菁,蔡艳.Tatsuoka Q矩阵理论的修正[J].心理学报,2009,41(2):175-181. 被引量：57
6孙继伟.跃上第二曲线——企业创新发展之道[J].经济管理,1998,24(6):19-21. 被引量：1
7肖然,刘娟.供应链环境下企业竞争情报合作分析[J].企业经济,2011,30(8):44-46. 被引量：4
8周磊,张玉峰.基于专利情报分析的企业合作竞争模式研究[J].情报学报,2013,32(6):593-600. 被引量：23
9严玲,李志钦,邓娇娇.公共建设项目中合同策略及其关系行为测量研究[J].科技进步与对策,2016,33(16):39-46. 被引量：4
10刘海鸥,孙晶晶,苏妍嫄,张亚明.国内外用户画像研究综述[J].情报理论与实践,2018,41(11):155-160. 被引量：154

引证文献3

1于子健,孙海春,李欣.融合位置特征的关键短语集合抽取模型[J].智能计算机与应用,2023,13(2):20-28.
2杜若鹏,张洁,寇远涛.基于共现词分析的专业科技信息平台用户画像主题标注方法改进[J].数字图书馆论坛,2023,19(9):58-63.
3张昊男,朱方伟,林原,许侃,王皓月.跨领域技术竞合的动静态分析——基于二重BERT文本分析方法[J].情报学报,2024,43(11):1322-1333.

1李晶,荀径,尹晓宏,杨艳锋,毛芳.北京市轨道交通列车运行节能控制方案研究与应用[J].铁道运输与经济,2022,44(6):136-141. 被引量：8
2张明建.协作知识建构的混合学习活动策略与模式实证研究[J].福建技术师范学院学报,2022,40(3):327-334. 被引量：1
3孙亚茹,杨莹,王永剑.基于知信图卷积神经网络的开放域知识图谱自动构建模型[J].计算机工程,2022,48(10):116-122. 被引量：6
4刘艳.我国新型职业农民精准培训研究知识图谱演化表征——基于CNKI的可视化分析[J].农业工程,2022,12(7):157-160.
5岳琳,杨风暴,王肖霞.基于HRAGS模型的混合式摘要生成方法[J].电子测量技术,2022,45(15):75-83.
6郭婷婷,马敏象,鲍亦平,邓禹,吴斌.全球生物多样性领域数字技术应用趋势与发展建议[J].湖南生态科学学报,2022,9(4):103-111. 被引量：1
7王静赟,余正涛,相艳,陈龙.基于关键词结构编码的涉案微博评价对象抽取模型[J].数据采集与处理,2022,37(5):1026-1035.
8江旭,钱雪忠,宋威.结合残差BiLSTM与句袋注意力的远程监督关系抽取[J].计算机工程,2022,48(10):110-115. 被引量：3
9冒雯,曾涛,徐可心.层级结构一致性对汉德跨语言句法启动的影响研究[J].西安外国语大学学报,2022,30(3):45-50. 被引量：1
10方义秋,刘飞,葛君伟.基于Mogrifier LSTM的序列标注关系抽取方法[J].计算机工程,2022,48(10):81-87. 被引量：3

计算机应用研究

2022年第9期

浏览历史

内容加载中请稍等...

基于句法分析及主题分布的关键词抽取模型被引量：3

参考文献9

二级参考文献76

共引文献139

同被引文献35

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于句法分析及主题分布的关键词抽取模型 被引量：3

参考文献9

二级参考文献76

共引文献139

同被引文献35

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于句法分析及主题分布的关键词抽取模型被引量：3