中文短文本自动关键词提取的改进RAKE算法被引量：10

Improved RAKE Algorithm for Automatic Keyword Extraction in Chinese Short Text

下载PDF

导出

摘要针对RAKE(Rapid Automatic Keywords Extraction)算法在中文短文本关键词提取算法中未考虑词语语义和候选关键词过长的问题,提出一种以RAKE算法为基础的改进方法.在词语特征值计算阶段,利用词项距离、词间关系频率、共现频率构建共现矩阵,利用语境值计算公式计算每个候选关键词的特征值;按照特征值的降序输出候选关键词,若候选关键词词语个数超过n个,则利用窗口输出算法限制关键词的长度.实验表明,本文方法在中文短文本关键词提取方面相比RAKE算法及其它算法有更好的表现. In order to solve the problem that RAKE(Rapid Automatic Keywords Extraction)does not consider the word semantics and the candidate Key words are too long,an improved algorithm based on RAKE method is proposed.In the eigenvalue calculation stage,the co-occurrence matrix is constructed by using the term distance,the frequency of inter-word relation and the co-occurrence frequency,and the eigenvalue of each candidate keyword is calculated by using the contextual value calculation formula.Candidate keywords are output in descending order according to the eigenvalues.If the number of candidate keyword words exceeds n,the window output algorithm is used to limit the length of keywords.Experiments show that the proposed method has better performance in extracting Chinese short text keywords than RAKE algorithm and other algorithms.

作者陈可嘉黄思翌 CHEN Ke-jia;HUANG Si-yi(School of Economics and Management,Fuzhou University,Fuzhou 350108,China)

机构地区福州大学经济与管理学院

出处《小型微型计算机系统》 CSCD 北大核心 2021年第6期1171-1175,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(71701019)资助.

关键词 RAKE算法自动关键词提取语境窗口输出 RAKE automatic keywords extraction context Window output

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘啸剑,谢飞.结合主题分布与统计特征的关键词抽取方法[J].计算机工程,2017,34(7):217-222. 被引量：8
2黄睿智,黄德才.词间关系的不确定图模型与关键词自动抽取方法[J].小型微型计算机系统,2019,40(2):300-304. 被引量：6
3刘啸剑,谢飞,吴信东.基于图和LDA主题模型的关键词抽取算法[J].情报学报,2016,35(6):664-672. 被引量：38
4Tu Shouzhong,Huang Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications,2016,23(5):40-46. 被引量：20
5马慧芳,邢玉莹,王双,张旭鹏.融合词语共现距离和类别信息的短文本特征提取方法[J].计算机工程与科学,2018,40(9):1689-1695. 被引量：2
6严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
7王庆,陈泽亚,郭静,陈晰,王晶华.基于词共现矩阵的项目关键词词库和关键词语义网络[J].计算机应用,2015,35(6):1649-1653. 被引量：11
8石进,韩进,赵小柯,刘千里.基于语境概念核心词提取算法研究[J].情报学报,2019,38(11):1177-1186. 被引量：11

二级参考文献52

1冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：48
2谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
3许力生.语言学研究的语境理论构建[J].浙江大学学报（人文社会科学版）,2006,36(4):158-165. 被引量：60
4HE Q,HAO H-W,YIN X-C.Keyword extraction based on multi-feature fusion for Chinese Web pages[C]//Proceedings of the 2011 2nd International Congress on Computer Applications and Computational Science.Berlin:Springer,2012:119-124.
5LU Y,LI R,WEN K,et al.Automatic keyword extraction for scientific literatures using references[C]//Proceedings of the 2014 International Conference on Innovative Design and Manufacturing.Piscataway:IEEE,2014:78-81.
6PARK N H,JOO K H.Log based keyword extraction and spread based clustering for an efficient information searching[J]//International Journal of Software Engineering and Its Applications,2013,7(6):201.
7YANG S,ZHANG B,LI S,et al.Keyword extraction using multiple novel features[J].Journal of Computational Information Systems,2014,10(7):2795-2802.
8国家电网公司信息通信分公司.国家电网公司[EB/OL].[2014-12-01].http://www.sgcc.com.cn/.
9AIZAWA A.An information-theoretic perspective of tf-idf measures[J].Information Processing and Management,2003,39(1):45-65.
10DEHAK N,DEHAK R,GLASS J,et al.Cosine similarity scoring without score normalization techniques[EB/OL].[2014-12-01].http://groups.csail.mit.edu/sls/publications/2010/Dehak_Odyssey.pdf.

共引文献90

1南月慧,赵庆玲,谭秀梅.滇池流域湿地公园研究缺口探析[J].智能城市,2021(3):25-26. 被引量：2
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3尹倩.基于语义扩展度的中文分词交叉歧义处理方法[J].南昌工程学院学报,2016,35(1):56-60. 被引量：1
4刘锦文,邢凯,芮伟康,张利萍,周慧.基于信息关联拓扑的互联网社交关系挖掘[J].计算机应用,2016,36(7):1875-1880. 被引量：3
5尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3
6赵京胜,朱巧明,周国栋,张丽.自动关键词抽取研究综述[J].软件学报,2017,28(9):2431-2449. 被引量：91
7王瑞,秦永彬,闫盈盈.用于短文本关键词抽取的TTM_DMM主题翻译模型[J].计算机与数字工程,2018,46(5):945-949. 被引量：1
8蔡永明,长青.共词网络LDA模型的中文短文本主题分析[J].情报学报,2018,37(3):305-317. 被引量：44
9王瑞,秦永彬,张丽,闫盈盈.用于短文本关键词抽取的主题翻译模型[J].计算机工程与设计,2018,39(6):1633-1638. 被引量：1
10柳林青,余瀚,费宁,陈春玲.一种基于TextRank的单文本关键字提取算法[J].计算机应用研究,2018,35(3):705-710. 被引量：20

同被引文献111

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：3
3董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
4吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：4
5吴菲菲,黄鲁成,石媛嫄.基于产业专利权人的新兴技术应用领域变化研究[J].研究与发展管理,2013,25(4):96-103. 被引量：12
6夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
7覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：28
8王虹,张仰森.基于词二元接续的中文文本自动查错研究[J].贵州大学学报（自然科学版）,2001,18(1):16-21. 被引量：3
9顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
10李蓓,陈向东.基于专利引用耦合聚类的纳米领域新兴技术识别[J].情报杂志,2015,34(5):35-40. 被引量：32

引证文献10

1周好,王东波,黄水清.新时代人民日报分词语料库下关键词抽取及分析研究[J].文献与数据学报,2022,4(1):21-34. 被引量：2
2黄昕凯,罗梓汛,徐鹏.基于自然语言处理的商品评论分析系统设计[J].信息与电脑,2022,34(16):163-165.
3游新冬,袁梦龙,张乐,吕学强.CNN-SM:基于义原与多特征融合的消费品领域缺陷词识别模型[J].数据分析与知识发现,2022,6(9):77-85.
4陈梦彤,谷晓燕,刘甜甜.基于改进TextRank的关键句提取方法[J].郑州大学学报（理学版）,2023,55(1):15-20. 被引量：2
5贺婧.基于多语料库关键词搜索的英汉自动翻译方法[J].自动化与仪器仪表,2023(2):170-175. 被引量：1
6马斌,周杨,冯岭.基于CPC专利分类系统的新兴技术主题识别方法[J].中国发明与专利,2023,20(9):13-21. 被引量：2
7王鑫.基于NLP的多维数据深度挖掘分析服务在公安行业的应用[J].警察技术,2023(5):38-41.
8啜春红.基于特征项权重评估模型的英语试题关键词抽取算法研究[J].自动化技术与应用,2024,43(2):13-16.
9刘文亮,吴飞,何德明,赵维伟,潘建宏.基于相异度矩阵的碎片化回复文本聚类方法[J].计算机与现代化,2024(9):56-60.
10韦国惠,王利超,钟世文,黄绪荣,李姗珊.基于自回归预训练语言模型的语音信号关键词提取方法[J].光学与光电技术,2024,22(5):21-28.

二级引证文献7

1王龙霄,李健,沈丽民.基于增量式爬虫技术的新闻分析系统设计[J].现代计算机,2023,29(9):117-120.
2李启正,戴豪,胡崴琳,祝成炎.基于先验知识的纺织论文关键词自动抽取系统研究[J].智能计算机与应用,2024,14(1):8-15. 被引量：1
3程双双,谷晓燕,王兴芬.基于非平衡MD&A文本数据的财务欺诈识别[J].管理现代化,2024,44(1):121-127. 被引量：1
4王国隽,金宗安.面向不确定数据的关键词检索方法优化分析[J].电子技术（上海）,2024,53(1):106-107.
5曲维光.大规模精加工通用语料库建设的范例——《大规模现代汉语分词语料库构建及应用》书评[J].文献与数据学报,2024,6(1):116-120.
6尹文博.电子商务领域的专利技术分支分析及检索问题研究[J].中国电子商务,2024(11):73-76.
7谢珊珊,刘畅.电子商务支付安全领域的专利检索问题研究[J].中国电子商务,2024(12):53-56.

1张兵磊.基于TextRank和LDA的中文短文本分类研究[J].信息与电脑,2021,33(6):12-14. 被引量：2
2霍少娟,廖婷,田金徽,包海荣,刘晓菊.中国肺康复领域研究可视化分析[J].兰州大学学报（医学版）,2021,47(3):8-11. 被引量：1
3翟永杰,杨旭,赵振兵,王乾铭,赵文清.融合共现推理的Faster R-CNN输电线路金具检测[J].智能系统学报,2021,16(2):237-246. 被引量：16
4杨崇玉,刘春华,赵从英,郝大伟.我国地方政府体育产业政策注意力演变趋势[J].山东体育学院学报,2021,37(2):39-47. 被引量：3
5石隽锋,李济洪,王瑞波.一种改进的GloVe词向量表示学习方法[J].中文信息学报,2021,35(4):16-22. 被引量：6

小型微型计算机系统

2021年第6期

浏览历史

内容加载中请稍等...

中文短文本自动关键词提取的改进RAKE算法被引量：10

参考文献8

二级参考文献52

共引文献90

同被引文献111

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

中文短文本自动关键词提取的改进RAKE算法 被引量：10

参考文献8

二级参考文献52

共引文献90

同被引文献111

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

中文短文本自动关键词提取的改进RAKE算法被引量：10