基于短语向量和主题加权的关键词抽取方法被引量：3

The Theme-Weighted Keyphrase Extraction Algorithm Based on Phrase Embedding

下载PDF

导出

摘要现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息. Keyword extraction is a key basic problem in the field of natural language processing.The keyphrase extraction algorithms(PhraseVecRank)is proposed based on phrase embedding.Firstly,a phrase vector construction model based on LSTM(Long Short-Term Memory)and CNN(Convolutional Neural Network)is designed to solve the semantic representation of complex phrases.Then,PhraseVecRank uses phrase embedding to calculate theme weight for each candidate phrase,and uses semantic similarity between candidate phrase embedding and co-occurrence information to calculate edge weight together,which can improve the extraction effect of keyphrases through topic weighted ranking.The experimental results verify that PhraseVecRank can effectively extract keyphrases covering the topic information of text,and the phrase embedding models we proposed can better represent the semantic information of phrases.

作者孙新盖晨申长虹张颖捷 SUN Xin;GE Chen;SHEN Chang-hong;ZHANG Ying-jie(Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China;Beijing Institute of Technology Southeast Academy of Information Technology,Putian,Fujian 351100,China)

机构地区北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心北京理工大学东南信息技术研究院

出处《电子学报》 EI CAS CSCD 北大核心 2021年第9期1682-1690,共9页 Acta Electronica Sinica

基金国家重点研发计划项目(No.2017YFB0803300)。

关键词短语向量自编码器主题加权关键词抽取 phrase embedding auto-encoder theme-weighted keyphrases extraction

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘慧婷,刘志中,王利利,吴信东.一般间隙序列模式挖掘的关键词抽取[J].电子学报,2019,47(5):1121-1128. 被引量：3
2马慧芳,刘芳,夏琴,郝占军.基于加权超图随机游走的文献关键词提取算法[J].电子学报,2018,46(6):1410-1414. 被引量：12

二级参考文献5

1王新军,闫实,彭朝晖,李庆忠.Extractor:支持查询重构的高效数据库关键词检索系统[J].电子学报,2014,42(2):209-216. 被引量：4
2刘喜平,万常选,刘德喜,廖国琼.空间关键词搜索研究综述[J].软件学报,2016,27(2):329-347. 被引量：19
3赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
4刘慧婷,刘志中,黄厚柱,吴信东.一般间隙与One-Off条件的序列模式匹配[J].软件学报,2018,29(2):363-382. 被引量：3
5马慧芳,刘芳,夏琴,郝占军.基于加权超图随机游走的文献关键词提取算法[J].电子学报,2018,46(6):1410-1414. 被引量：12

共引文献13

1刘慧婷,刘志中,王利利,吴信东.一般间隙序列模式挖掘的关键词抽取[J].电子学报,2019,47(5):1121-1128. 被引量：3
2丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6
3刘爱琴,贾一帆,冷长青.基于随机游走模型的高校图书馆知识发现系统构建[J].现代情报,2020,40(5):96-103. 被引量：4
4阮梦黎.基于关键词提取的网络舆情监管预测算法研究[J].智能计算机与应用,2020,10(6):167-170. 被引量：3
5脱婷,马慧芳,李志欣,赵卫中.熵权约束稀疏表示的短文本分类算法[J].电子学报,2020,48(11):2131-2137. 被引量：2
6马慧芳,胡东林,刘宇航,贺相春.融合作者与文献影响力的科技论文推荐方法[J].西北师范大学学报（自然科学版）,2021,57(2):55-62. 被引量：7
7李斌,陈定山,孙小兵,薄莉莉.面向缺陷知识的多特征匹配搜索算法[J].电子学报,2021,49(4):661-664. 被引量：2
8俞琰,鞠鹏,尚明杰.基于信息增益与相似度的专利关键词抽取算法评价模型[J].图书情报工作,2022,66(6):108-117. 被引量：3
9高俊,张科,胡文军,丁晓鑫.基于贡献矩阵的超网络关键节点评估方法[J].电子设计工程,2023,31(7):10-15.
10孔维梁,于晓利,韩淑云,邓敏杰.人工智能赋能的可信同伴互评模型构建与验证[J].现代远程教育研究,2023,35(3):93-101. 被引量：2

同被引文献20

1刘渝琳,司绪,宋琳璇.中等收入群体的持续期与退出风险估计——基于EM算法的收入群体划分[J].统计研究,2021,38(5):121-135. 被引量：17
2赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
3马慧芳,刘芳,夏琴,郝占军.基于加权超图随机游走的文献关键词提取算法[J].电子学报,2018,46(6):1410-1414. 被引量：12
4张焱,冯乔琦,黄庆卿,陈仁祥.非负自编码网络基于部分特征表示的变工况滚动轴承状态识别[J].仪器仪表学报,2020,41(4):77-85. 被引量：8
5赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7
6陈欣昌,冯玎,林圣.基于深度自编码网络的高压断路器操作机构机械故障诊断方法[J].高电压技术,2020,46(9):3080-3088. 被引量：32
7陈瑛,张晓强,陈昂轩,赵筱钰,董玉博.基于信息抽取的食品安全事件自动问答系统方法研究[J].农业机械学报,2020,51(S02):442-448. 被引量：10
8陈颖呈,陈宁.基于音频内容和歌词文本相似度融合的翻唱歌曲识别模型[J].华东理工大学学报（自然科学版）,2021,47(1):74-80. 被引量：7
9刘文溢,刘勤明,叶春明,李冠林.基于改进退化隐马尔可夫模型的设备健康诊断与寿命预测研究[J].计算机应用研究,2021,38(3):805-810. 被引量：13
10胡少虎,张颖怡,章成志.关键词提取研究综述[J].数据分析与知识发现,2021,5(3):45-59. 被引量：37

引证文献3

1朱小龙,邱林.机器学习下半结构化文本信息抽取仿真[J].计算机仿真,2023,40(2):540-544.
2阮群生,谢运煌,柯汉平,吴清锋.医学文献阅读增强深度学习方法[J].计算机时代,2023(10):1-7.
3周炫余,刘林,卢笑,李璇,张思敏.多模态信息增强表示的中文关键词抽取方法[J].清华大学学报（自然科学版）,2024,64(10):1785-1796.

1周志恒.中译日时中文短语语顺对翻译的影响[J].花溪,2021(24):0122-0122.
2朱涛.一类复杂短语的辨析[J].甘肃教育,1986,0(4):23-24.
3朱海东,郑虹,侯秀萍.基于EBAP模型的中文情感分类[J].长春工业大学学报,2021,42(4):326-332. 被引量：3
4王原,马瑜,江妍,梁远哲,马鼎,李霞.U-net改进的视网膜血管图像分割算法[J].计算机工程与设计,2021,42(10):2884-2893. 被引量：7
5彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
6杨威亚,余正涛,高盛祥,宋燃.基于跨语言神经主题模型的汉越新闻话题发现方法[J].计算机应用,2021,41(10):2879-2884. 被引量：6

电子学报

2021年第9期

浏览历史

内容加载中请稍等...

基于短语向量和主题加权的关键词抽取方法被引量：3

参考文献2

二级参考文献5

共引文献13

同被引文献20

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于短语向量和主题加权的关键词抽取方法 被引量：3

参考文献2

二级参考文献5

共引文献13

同被引文献20

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于短语向量和主题加权的关键词抽取方法被引量：3