基于Python的改进关键词提取算法的实现被引量：8

Implementation of improved keyword extraction algorithm based on Python

下载PDF

导出

摘要关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。 Keyword extraction is the foundation and key point in the field of natural language research and has been widely used in many fields.Based on the data of 8045 pieces of "Red China" news provided by our university library,this paper firstly cleans up the data,removes the noise data,and then analyzes the data structure of each news.On the basis of the analysis,it calculates the TFIDF weight of words,the weight of word position,the weight of part of speech,the weight of word length and the span of words. Weight,these weights are considered to calculate the comprehensive weight of words,and the first eight words with the largest comprehensive weight are used as the keywords of news.Comparing the improved algorithm,the classical TFIDF algorithm and the expert annotation from the three indexes of accuracy,recall rate and F1 value,it is found that the improved algorithm is superior to the classical TFIDF algorithm in the three indexes,and is close to the expert annotation,so it is worth popularizing and applying.

作者牛永洁 NIU Yong-jie(College of Mathematics & Computer Science,Yan'an University,Yan'an 716000,China)

机构地区延安大学数学与计算机学院

出处《电子设计工程》 2019年第13期11-15,共5页 Electronic Design Engineering

基金国家社会科学基金项目(18BTQ042) 延安大学继续教育教学改革研究专项(YDJY2016-11)

关键词 TFIDF 词性词跨度词长词位置 TFIDF part of speech word span word length word position

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1程维刚,王宁,田勇.基于关键词匹配技术的相似试题检测方法研究[J].北华航天工业学院学报,2015,25(3):24-26. 被引量：5
2夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
3胡健,董跃华,杨炳儒.基于关键词的WEB文献自动跟踪系统的实现方法[J].南昌大学学报（理科版）,2008,32(3):300-303. 被引量：2
4牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17. 被引量：36
5张宝生,王晓敏.基于关键词共现聚类的网络教育热点主题研究[J].科研管理,2018,39(S1):298-307. 被引量：14
6林丹,刘建明,谷志瑜.一种基于关键词的微博话题聚类算法[J].计算机应用与软件,2018,35(1):264-268. 被引量：7
7张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：63
8周锦章,崔晓晖.基于词向量与TextRank的关键词提取方法[J].计算机应用研究,2019,36(4):1051-1054. 被引量：23
9苏祥坤,吾守尔.斯拉木,买买提依明.哈斯木.基于词序统计组合的中文文本关键词提取技术[J].计算机工程与设计,2015,36(6):1647-1651. 被引量：10
10夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76

二级参考文献122

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4栾玉芹,柳卫杰.网络教育环境下教师的角色和作用[J].黑龙江高教研究,2006,24(4):114-115. 被引量：14
5耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
6李艳,James R.Lindner.中国高校教师对网络教育的创新-决策行为及他们对网络教育属性的认识——中国农业大学案例[J].科研管理,2006,27(3):146-152. 被引量：1
7邢红宇.试论远程教育教师的教育技术素养[J].中国远程教育,2006(08S):52-54. 被引量：5
8冯丽樱.谈对远程教育学习支持服务内涵的认识[J].远程教育杂志,2006,24(4):53-56. 被引量：9
9张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
10曹卫真.中美中小学网络教育资源整合的比较[J].电化教育研究,2007,28(4):28-32. 被引量：11

共引文献274

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
3范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
4白似雪,万晶.用时效曲线拟合改进PageRank算法[J].南昌大学学报（工科版）,2009,31(3):234-237. 被引量：1
5李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
6王珏,成玉茜,赵文栋,田畅.语义Web服务匹配方法分析[J].军事通信技术,2012,33(3):33-38. 被引量：1
7许霄峰,徐炜民.基于认知复杂度度量的文本推荐模型[J].计算机工程与设计,2012,33(10):3990-3994. 被引量：2
8刘雅正,陈受凯,唐向阳.基于简化MD5的TFIDF算法[J].科学技术与工程,2012,20(31):8447-8450. 被引量：1
9罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
10杨宏进.基于关键词检查属性指标的方法研究[J].统计研究,2013,30(8):10-16. 被引量：3

同被引文献70

1张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
2张涛,廖力.基于链接的网站搜索引擎优化策略[J].湖北工业大学学报,2010,25(5):61-63. 被引量：11
3李静月,李培峰,朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件,2011,28(5):25-27. 被引量：30
4王玲平.计算机软件反向工程[J].硅谷,2012,5(20):186-186. 被引量：1
5夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
6张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：63
7顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
8苏祥坤,吾守尔.斯拉木,买买提依明.哈斯木.基于词序统计组合的中文文本关键词提取技术[J].计算机工程与设计,2015,36(6):1647-1651. 被引量：10
9程维刚,王宁,田勇.基于关键词匹配技术的相似试题检测方法研究[J].北华航天工业学院学报,2015,25(3):24-26. 被引量：5
10高永兵,周环宇,聂知秘,胡文江.PWSWE:个人微博主题词提取算法的研究[J].计算机应用与软件,2015,32(7):86-89. 被引量：1

引证文献8

1吴阳波,董昌谨.基于Python语言的图片爬虫程序设计研究[J].新一代信息技术,2019,2(22):46-52. 被引量：1
2洛桑嘎登,仁增多杰,索南尖措,才让叁智,布加.藏文问句分类及关键词提取[J].电子技术与软件工程,2020(6):126-127. 被引量：3
3牛永洁,姜宁.关键词提取算法TextRank影响因素的研究[J].电子设计工程,2020,28(12):1-5. 被引量：8
4承春明,赵欣慧,王建军,孟世斌,赵东坡,韩源.信息管理系统自动巡检平台设计与实现[J].电力信息与通信技术,2020,18(9):105-110. 被引量：5
5黎伟健,叶天宽,彭涛,胡莉琼,朱凯亮.研究客户声音反映问题溯源分析效率提升的新方法[J].科技传播,2020,12(24):163-166.
6解仲秋.基于时空大数据挖掘的网络舆情研判方法研究[J].电子设计工程,2021,29(8):177-181. 被引量：1
7曹清清,刘艳,马萌,刘芳.基于Python网络爬虫的学校Web站群不良信息外链检测方法研究[J].科技资讯,2021,19(13):41-43. 被引量：1
8韦婷婷,江涛,郑舒玲,张建桃.融合LSTM与逻辑回归的中文专利关键词抽取[J].数据分析与知识发现,2022,6(2):308-317. 被引量：6

二级引证文献23

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2金鑫,张大伟,王之昉,牟霄寒.办公室业务数字化转型[J].办公自动化,2021,26(5):20-21. 被引量：2
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
5褚洪江.IT信息服务机制的研究与应用[J].信息记录材料,2020,21(12):47-48.
6白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
7李波,温文剑,杨梓文,颜丽,曾令森.基于透明体系架构的新一代智能录波主站系统设计[J].电气技术,2021,22(9):63-69. 被引量：3
8张伟.Python程序中计算思维应用[J].电脑编程技巧与维护,2021(9):59-60.
9谢大海,王勇,周泉,卢峰.交换机配置文件的自动采集及分析[J].电力与能源,2021,42(5):612-614.
10郭霄汉,迟远英,丁治明.基于感知特征的时空过程可视化模型构建[J].计算机与数字工程,2021,49(12):2514-2518. 被引量：1

1刘展.TFIDF算法在文章推荐系统的应用[J].电脑知识与技术,2019,15(3):17-20. 被引量：7
2张玺君,袁占亭,张红,高玮军,张恩展.交通轨迹大数据预处理方法研究[J].计算机工程,2019,45(6):26-31. 被引量：8
3高甜甜,兰继斌.一种基于专家匿名的多属性群决策方法[J].钦州学院学报,2019,34(3):30-37.
4杨勇,严道波,徐敏,万磊,李强,邱丹.基于改进TFIDF特征加权算法的95598投诉工单分类实现[J].电力与能源,2019,40(2):205-207. 被引量：4
5周蓓,于浩.临床试验逻辑核查的分类及应用[J].中国临床药理学与治疗学,2019,24(6):670-674. 被引量：2
6段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
7常天庆,孔德鹏,戴文君,王全东,孙皓泽.基于目标作战意图信息融合的威胁评估方法[J].控制与决策,2019,34(3):591-601. 被引量：7
8黎文皓,万红,张钧浩,尤晨星.面向车牌照识别数据的预处理方法研究[J].交通技术,2019,8(2):86-93.
9顾丹丹,李雅,刘梅,雷会珠,刘杨.基于知识图谱的植物功能性状与环境研究前沿态势分析[J].广西植物,2019,39(6):843-854. 被引量：5
10李珊珊,陈黎,唐裕婷,王艺霖,于中华.利用整数线性规划自动抽取多样性关键短语[J].计算机科学,2019,46(B06):56-59. 被引量：2

电子设计工程

2019年第13期

浏览历史

内容加载中请稍等...

基于Python的改进关键词提取算法的实现被引量：8

参考文献12

二级参考文献122

共引文献274

同被引文献70

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Python的改进关键词提取算法的实现 被引量：8

参考文献12

二级参考文献122

共引文献274

同被引文献70

引证文献8

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Python的改进关键词提取算法的实现被引量：8