基于TF-IDF算法的文本信息提取被引量：12

Text information extraction based on TF-IDF algorithm

下载PDF

导出

摘要随着大数据时代的到来,数据量呈几何倍增长。文本信息是人们接触最多的信息,关键信息作为对文本主题的高度概括,成为用户了解文本主题的快速渠道,如何快速有效的挖掘文本关键信息成为研究的关键问题。本文以本溪市政府工作报告为研究对象,将文本信息进行抽象,利用TF-IDF算法实现对文本中频繁出现的短语进行批量自动提取,统计频繁短语出现的频次,进而提取关键信息。通过对政府工作报告的提取,可以看出政府建设本溪的总体趋势,并且积极响应国家号召,总体推进本溪政府工作不断向前。 With the advent of the big data era, the volume of data has increased exponentially.Text information is the most accessible information, and the key information, as a high summary of the text theme, has become a fast channel for users to understand the theme of the text.How to quickly and effectively excavate the key information of the text has become the key issue of the research.This paper takes the Benxi municipal government ＇ s work report as the research object and abstracts the text information.TF-IDF algorithm is used to automatically extract frequent phrases in the text, and the frequent occurrences of frequent phrases are extracted, and the key information is extracted.Through the extraction of the government work report, we can see the general trend of the government ＇ s construction of benxi, and actively respond to the national call, so as to push forward the work of benxi government.

作者于韬王洪岩 YU Tao ,WANG Hong-yan(Liaoning Institute of Science and Technology Benxi,Liaoning 117004,China)

机构地区辽宁科技学院

出处《科技视界》 2018年第16期117-118,共2页 Science & Technology Vision

基金基于文献知识图谱的智能推荐系统(201811430044) 辽宁省教育厅科学技术研究青年项目(L2017lkyqn-01) 辽宁科技学院青年基金(Qn201603) 辽宁科技学院服务地方创新发展软科学项目(20162rkx-06)

关键词进行关键词提取的工作 Key in fomlation extraetion TF-IDF algorithm Frequent phrases Word frequency statistics

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：77

二级参考文献14

1ABILHOA W D, CASTRO L N D. A keyword extraction method from twitter messages represented as graphs [ J]. Applied Mathematics and Computation, 2014, 240(4) : 308 - 325.
2CHEN Y H, LU J L, MENG F T. Finding keywords in blogs: efficient keyword extraction in blog mining via user behaviors [ J]. Expert Systems with Applications, 2014, 41(2):663 -670.
3JEAN-LOUIS L, GAGNON M, CHARTON E. A knowledge-base o-riented approach for automatic keyword extraction [ J]. Computacion y Sistemas, 2013, 17(2) : 187 - 196.
4HABIBI M, POPESCU-BELIS A. Keyword extraction and clustering for document recommendation in conversations [ J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23 (4) :746 -759.
5ZIPF G K. Human behavior and the principle of least effort: an introduction to human ecology [ M]. Boston: Addison-Wesley Press, 1949: 23.
6BOOTH A D. A law of occurrences for words of low frequency [ J]. Information and Control, 1967, 10(4) : 386 -393.
7EGGHE L. A new short proof of Naranan's theorem, explaining Lotka's law and Zipt's law [ J]. Journal of the American Society for Information Science and Technology, 2010, 61(12) : 2581 -2583.
8CHAN P, HIJIKATA Y, NISHIDA S. Computing semantic relatedness using word frequency and layout information of wikipedia [ C]// Proceedings of the 28th Annual ACM Symposium on Applied Computing. New York: ACM, 2013:282-287.
9SURYASEN R, RANA M S. Content analysis and application of Zipfs law in computer science literature [ C]//Proceedings of the 2015 4th International Symposium on Emerging Trends and Technologies in Libraries and Information Services. Piseataway, NJ: IEEE, 2015:223 -227.
10ZIPF G K. Psyehol [ M]. Boston: Addison-Wesley Press, 1938: 347 - 367.

共引文献76

1巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
2夏火松,潘筱听.基于Python挖掘的大数据学术研究与人才需求的关系研究[J].信息资源管理学报,2017,7(1):4-12. 被引量：15
3方振宇.基于抑郁词典的社交网络心理障碍检测方法[J].电脑知识与技术,2017,13(3):244-247. 被引量：6
4张雷.基于word2vec和TF-IDF算法实现酒店评论的个性化推送[J].电脑与信息技术,2017,25(6):8-11. 被引量：5
5朱浩,连德富,左志宏,颜凯.余弦相似度在高校综合信息系统中的应用[J].东南大学学报（自然科学版）,2017,47(A01):123-128. 被引量：5
6李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,43(12):141-146. 被引量：2
7和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(1):144-146. 被引量：1
8余本功,李婷,杨颖.基于多属性加权的社会化问答社区关键词提取方法[J].图书情报工作,2018,62(5):132-139. 被引量：6
9支文军,何润,戴春.“解码”张轲记标准营造17年[J].时代建筑,2018,61(1):94-101. 被引量：4
10王瑞,秦永彬,闫盈盈.用于短文本关键词抽取的TTM_DMM主题翻译模型[J].计算机与数字工程,2018,46(5):945-949. 被引量：1

同被引文献156

1王梦颖,许丽媛.对网络群体自杀事件的心理分析——以共同实施自杀和组织教唆他人自杀行为为例[J].心理月刊,2018(2):3-4. 被引量：1
2郭艳英.政策网络视角下的地方政府治理创新[J].西安石油大学学报（社会科学版）,2012,21(3):51-55. 被引量：3
3耿绍宁.试析网络“树洞”应用对高校和谐稳定的影响——以“树洞”微博为例[J].思想理论教育,2013(15):76-78. 被引量：4
4苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：26
5李发鹏,李景玉,徐宗学.东北黑土区土壤退化及水土流失研究现状[J].水土保持研究,2006,13(3):50-54. 被引量：69
6魏丹,杨谦,迟凤琴.东北黑土区土壤资源现状与存在问题[J].黑龙江农业科学,2006(6):69-72. 被引量：55
7李雯.抑郁症患者情绪词识别对照研究[J].临床精神医学杂志,2007,17(4):237-238. 被引量：4
8刘宝元,阎百兴,沈波,王志强,魏欣.东北黑土区农地水土流失现状与综合治理对策[J].中国水土保持科学,2008,6(1):1-8. 被引量：179
9吴中勤,黄萱菁,吴立德.基于语义关系三元组的问答式文摘[J].计算机工程,2008,34(6):194-195. 被引量：2
10张迪,韩晓增.东北黑土区污染现状及研究进展[J].农业系统科学与综合研究,2008,24(3):319-322. 被引量：2

引证文献12

1冯与诘.词云生成系统的构建[J].通讯世界,2019,26(3):190-192. 被引量：11
2徐建国,蔺珍,张鹏,徐明磊,李恒忠.网络舆情热点获取与分析算法研究[J].软件导刊,2019,18(5):93-97. 被引量：3
3刘宝玉,杨奎,汪琳霞.互联网农业综合管理平台的设计与实现[J].计算机时代,2019,0(7):92-95. 被引量：1
4虞哲英,关贝,昝道广,吕荫润,毕丽阳,王永吉.一种不依赖用户行为数据的科研文献推送系统[J].文献与数据学报,2019,1(2):76-89. 被引量：1
5王培然,杨永春.基于文本分析的西北地区工业绿色转型政策导向研究[J].资源与产业,2020,22(1):69-79. 被引量：6
6陈盼,钱宇星,黄智生,赵超,刘忠纯,杨冰香,杨芳,张晓丽.微博“树洞”留言的负性情绪特征分析[J].中国心理卫生杂志,2020,34(5):437-444. 被引量：11
7曹文斌,武卓峰,杨涛,凡友荣.基于文本语料的涉恐事件实体属性抽取[J].工程科学学报,2020,42(4):500-508. 被引量：6
8林媛,叶幸,郭桂璇,肖莉,周燕.基于数据挖掘的慕课学习的需求特征分析[J].信息记录材料,2020,21(5):115-116.
9龚永罡,王嘉欣,廉小亲,裴晨晨.基于Siamese LSTM的中文多文档自动文摘模型[J].计算机应用与软件,2021,38(3):287-290. 被引量：3
10唐婷.基于Python的词云生成技术分析[J].科学技术创新,2021(23):77-78. 被引量：12

二级引证文献58

1徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑,2019,35(6):25-28. 被引量：20
2徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
3张宇豪,王依凡,马雪扬,孙昊琳,佟雨尧.微博情感分析可视化系统[J].现代信息科技,2019,3(11):115-116. 被引量：1
4潘亚星.基于Python的词云生成研究——以柴静的《看见》为例[J].电脑知识与技术,2019,15(8X):8-10. 被引量：13
5肖文杰,张艳芳.在线评论大数据下旅游景区网络口碑研究——以张家界国家森林公园为例[J].软件导刊,2019,18(11):121-125. 被引量：2
6宋菊芳,李星仪,张军.中国城市绿地系统2009-2018年研究综述与展望[J].华中建筑,2020,38(3):123-126. 被引量：6
7王泓砚,王俊亮.不同旅游者对室韦俄罗斯族群文化景观的情感画像差异研究[J].荆楚理工学院学报,2020,35(1):47-53.
8孙媛,张俊芳.基于网络爬虫的电商评价数据可视化[J].现代信息科技,2020,4(12):95-97. 被引量：2
9周铁华,刘轶民,董文革,王玲.基于社交网络平台的高教大数据舆情分析研究[J].无线互联科技,2020,17(18):17-18. 被引量：1
10孙中悦,顾爽,范志静.互联网推荐系统在数字期刊中的应用[J].科技与出版,2021(4):57-62. 被引量：3

1李刚伟.党政工团齐抓共管职权责利划分明确——内江市沙湾煤矿连续五年无死亡事故[J].煤矿安全,1988,0(8):49-49.
2江春泽.经济形势:1994年回顾与1995年展望[J].经济改革与发展,1995(2):55-59.
3李薇.阅文、阅人、阅情——核心素养关照下的英语文本解读[J].英语画刊（高级）,2017,0(25):26-27. 被引量：1
4陈锋.基于控制系统与主题挖掘的网络文本信息提取方案研究[J].自动化应用,2017(10):33-34.
5黄珂.从标准化到定制化:现代企业制度下的法律人才培养体系探究[J].华北电力大学学报（社会科学版）,2017(6):87-90. 被引量：1
6潘波.让低年级学生从“规范表达”到“自由表达”[J].小学语文教学（园地）,2018,0(7):46-46.
7顾问,曹阳.基于jsoup的Web页面自适应转换系统的实现[J].电子技术与软件工程,2017(18):200-202. 被引量：3
8贾君枝,曾建勋,李捷佳,付晓梅.科研机构名称归一化实现[J].图书情报工作,2018,62(13):103-110. 被引量：13
9程仕桃.大数据时代下我国政府信息公开的现状研究[J].经贸实践,2017(17):180-180. 被引量：3
10朱方圆.公路经济管理的要点及可持续发展的措施分析[J].中国经贸,2018,0(13):111-112.

科技视界

2018年第16期

浏览历史

内容加载中请稍等...

基于TF-IDF算法的文本信息提取被引量：12

参考文献1

二级参考文献14

共引文献76

同被引文献156

引证文献12

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF算法的文本信息提取 被引量：12

参考文献1

二级参考文献14

共引文献76

同被引文献156

引证文献12

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF算法的文本信息提取被引量：12