一种基于TFIDF方法的中文关键词抽取算法被引量：65

A Chinese Keyword Extraction Algorithm Based on TFIDF Method

下载PDF

导出

摘要本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法。该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词。通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著。 On the basis of Massive Intelligent Segmentation, this paper proposes a Chinese keyword extracting algorithm based on Vector Space Model and TFIDF method. After automatic segmentation of text, this algorithm calculates the weight of every word in document space with TFIDF method and extracts the keywords of scientific and technical documents according to the calculation result. The experimental test with self-compiled software indicates the algorithm improves the efficiency of automatic keyword extraction of Chinese scientific and technical documents obviously.

作者徐文海温有奎

机构地区西安电子科技大学经济管理学院

出处《情报理论与实践》 CSSCI 北大核心 2008年第2期298-302,共5页 Information Studies:Theory & Application

关键词关键词抽取向量空间模型算法 keyword extraction VSM algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
2刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
3Tumey P D. Learning to extract keyphrases from text [ R]. National Research Council, Canada, NRC Technical Report ERB 1057, 1999
4Witten I H , Paynter G W, Frank E, et al. KEA : practical automatic key-phrase extraction [ C ] //Proceedings of the 4th ACM Conference on Digital Libraries, Berkeley, California, US, 1999:254 - 256
5Hulth an improved automatic keyword extraction given more linguistic knowledge [ C] //Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, 2003: 216- 223
6Yang Wenfeng. Chinese keyword extraction based on max-duplicated strings of the documents [ C] //Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland, 2002: 439 - 440
7李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
8王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40

二级参考文献31

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4Gilchrist, A. D. Classification and thesauri [ A ]. In: Vickery, B. (ed.). Fifty Years of Information Progress: a Journal of Documentation Review [C]. London: ASLIB. 1994. 85- 118.
5Foskett, D.J. Thesaurus [A]. In:A. Kent, H. Lancours, and J.E. Daily (Eds.) Encyclopedia of Library and Informarion Science[C], NY: Marcel Dekker. 1980. Vol.30, 416 - 462.
6张琪玉.当代中国的分类法与主题词表[A]..张琪玉情报语言学文集[c].北京:北京图书馆出版社,1999.211-229.
7Shiri, A. A.. Thesauri on the Web: current developments and trends [J], Online Information Review, 2000, 24(4):273 - 279.
8Schütze, et al. A cooccurrence - based thesaurus and two applications to information retrieval [J], Info. Processing and Management: an Int. J, 2000, 33(3):307- 318.
9Güntzer, U., et al. Automatic thesaurus construction by machine learning from retrieval sessions [J], Information Processing and Management: an International Journal, 1989, 25(3) :265 - 273.
10Park, Y.C., Han, Y.S. & Choi, K.S. Automatic thesaurus construction using Bayesian network [ A], Proceeding of the Conference on Information and Knowledge Management[C], Baltimore MD: Association for Computing Machinery 1995, pp. 212- 217.

共引文献177

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：11
2罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
3侯筱婷,苏变萍,鲁萍.建设法规政策知识库智能化查询分析与设计[J].微电子学与计算机,2006,23(6):176-177. 被引量：4
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
6马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2
7刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
8石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
9王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
10王素格,杨军玲,张武.基于最大熵模型与投票法的汉语动词与动词搭配识别[J].小型微型计算机系统,2007,28(7):1306-1310. 被引量：3

同被引文献602

1谭红叶,李宣影,刘蓓.基于外部知识和层级篇章表示的阅读理解方法[J].中文信息学报,2020(4):85-91. 被引量：6
2王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
3赵红州,唐敬年,蒋国华,郑文艺.物理定律的知识熵表示问题[J].自然辩证法研究,1991,7(8):14-22. 被引量：8
4徐如镜.开发知识资源发展知识产业服务知识经济[J].现代图书情报技术,2002(S1):4-6. 被引量：18
5李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
6严冬.计算机网络信息系统的安全问题研究[J].情报学报,1999,18(S1):21-26. 被引量：12
7杨建林.基于文献集相似度的分类方法[J].情报学报,1999,18(S1):92-94. 被引量：5
8刘怀宝.略谈竞争情报及其搜集方法[J].图书情报知识,1987,4(2):30-32. 被引量：15
9邱均平.文献计量学的理论、方法和应用[J].图书情报知识,1984,1(4):43-46. 被引量：31
10张琪玉.论情报检索语言的研究、创制与普及[J].图书情报知识,1983(4):10-15. 被引量：23

引证文献65

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
5施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
6田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
7张靖.网络个性化服务资源综合推荐研究[J].计算机仿真,2009,26(11):157-160. 被引量：5
8张瑜,苏晓路,刘世洪,李景,胡海燕.基于本体的农业科技信息用户建模系统设计与实现[J].现代图书情报技术,2009(11):34-39. 被引量：1
9刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14
10任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20

二级引证文献649

1张昱,罗年学.互联网突发事件监测信息分类方法研究[J].数字制造科学,2022(1):75-80.
2王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
3陈鑫,吴佳宇,吴雪,张敏霞,郑宇军.社区疫情排查的智能优化调度方法[J].智能科学与技术学报,2020(2):126-134. 被引量：1
4席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
5曹艳琴.基于深度学习的英语自然语言处理系统[J].系统仿真技术,2021,17(4):285-288. 被引量：1
6魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
7聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
8朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：5
9田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
10陆伟,罗卓然,李信.科技创新评价研究进展[J].情报学进展,2022(1):158-187. 被引量：2

1张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20. 被引量：37
2杨倩倩,徐栋.TFIDF方法在英语句子相似度计算中的应用初探[J].电脑知识与技术（过刊）,2012,18(6X):4127-4128. 被引量：1
3鲍建樟,王周秀.基于FAQ的自动问答技术的实现[J].唐山师范学院学报,2006,28(5):79-80.
4李志龙,黄理灿,刘飘悦.基于GPU的文本特征选择与特征加权[J].工业控制计算机,2014,27(5):106-108. 被引量：1
5张艳梅,胡文淑,曾鍚.基于神经网络的中文分词技术研究[J].软件导刊,2007,6(12):16-18. 被引量：2
6刘晓婉,胡燕祝,艾新波.开源中文分词器在web搜索引擎中的应用[J].软件,2013,34(3):80-83. 被引量：12
7张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
8林霜梅,汪更生,陈弈秋.个性化推荐系统中的用户建模及特征选择[J].计算机工程,2007,33(17):196-198. 被引量：45
9邵艳秋,刘挺,王开铸.中文科技文献题内自动抽词标引系统[J].电脑学习,1998(2):1-3.
10何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54

情报理论与实践

2008年第2期

浏览历史

内容加载中请稍等...

一种基于TFIDF方法的中文关键词抽取算法被引量：65

参考文献8

二级参考文献31

共引文献177

同被引文献602

引证文献65

二级引证文献649

相关作者

相关机构

相关主题

浏览历史

一种基于TFIDF方法的中文关键词抽取算法 被引量：65

参考文献8

二级参考文献31

共引文献177

同被引文献602

引证文献65

二级引证文献649

相关作者

相关机构

相关主题

浏览历史

一种基于TFIDF方法的中文关键词抽取算法被引量：65