面向网络新闻的爬虫开发与热点新闻事件分析被引量：2

Online News Crawler Development and Hot News Event Analysis

下载PDF

导出

摘要 Python平台开发了网络新闻爬虫,通过实验对比常用的网页数据获取方法,本文提出一种适合新闻网页的解析方式,克服了获取动态网页时源码不完整、单一方法解析网页效率低下等弊端,满足了新闻网页抓取、解析、结构化和入库存储等需求。并将新浪新闻中心作为网络新闻数据采集的目标,分析发现新浪新闻近几年的发展情况。此外,利用词频统计等手段对十九大会议新闻进行分析,直观地反映了十九大的核心人物、关键党派、热点话题变化等重要信息。 This paper develops a web news crawler on Python platform,and presents a web page analysis method suitable for news web pages by comparing common web data acquisition methods. The crawler overcomes the disadvantages such as incomplete source code and low efficiency of web page,meets the needs of news web page grabbing,parsing,structuring and warehousing.This paper takes Sina news center as the target of network news data collection,and analyzes the development of Sina news in recent years.In addition,using the word frequency statistics and other means to analyze the news of the 19th congress,it intuitively reflects the important information such as the core figures,key parties and the change of hot topics.

作者陈思雯刘海砚 CHEN Siwen;LIU Haiyan(Institute of Geospatial Information,Information Engineering University,Zhengzhou 450001 China)

机构地区信息工程大学地理空间信息学院

出处《测绘与空间地理信息》 2019年第3期100-103,108,共5页 Geomatics & Spatial Information Technology

基金国家自然科学基金项目(41501446) 地理信息工程国家重点实验室开放基金项目(SKLGIE2015-M-4-3)资助

关键词网络爬虫网络新闻事件分析十九大 crawler online news evens analysis the 19th CPC National Congress

分类号 P208 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献6

1谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
2张宇,宋巍,刘挺,李生.基于URL主题的查询分类方法[J].计算机研究与发展,2012,49(6):1298-1305. 被引量：14
3胡萍瑞,李石君.基于URL模式集的主题爬虫[J].计算机应用研究,2018,35(3):694-699. 被引量：18
4郭俊枫,赵仁亮,郑娇龙.面向网页文本的地理要素变化发现[J].地理信息世界,2015,22(1):52-56. 被引量：4
5朱文琰,郑肖雄.基于正则表达式构建学习的网页信息抽取方法[J].计算机应用与软件,2017,34(2):14-19. 被引量：9
6任宝玉.论人民代表大会制度的运行机制及其完善[J].社会主义研究,2015(4):9-16. 被引量：9

二级参考文献37

1.《中国共产党第十六次全国代表大会文件汇编》[M].人民出版社,2002年版.第31、35-36、31页.
2.《列宁选集》第3卷[M].人民出版社,1995年版.第766页.
3Broder A, Fontoura M, Gabrilovich E, et al. Robust classification of rare queries using Web knowledge [C] //Proc of ACM SIGIR 2007. New York: ACM, 2007: 231-238.
4Bennett P N, Krysta S, Dumais S T. Classification enhanced ranking [C] //Proe of ACM WWW 2010. New York: ACM, 2010:111-120.
5Ryen W W, Peter B, Chen L. Predicting user interests from contextual information [C]//Proc of ACM SIGIR 2009. New York, ACM, 2009 : 363-370.
6Broder A. A taxonomy of web search [J]. ACM SIGIR Forum, 2002: 36(2): 3-10.
7Shen Dou, Pan Rong, Sun Jiantao, et al. Query enrichment for Web-query classification [J]. ACM Trans on Information Systems, 2006, 24(3): 320-352.
8Li Ying, Zheng Zijian, Dai Honghua. KDD CUP-2005 report, Facing a great challenge [J]. ACM SIGKDD Explorations, 2005, 7(2): 91-99.
9Beitzel S M, Jensen E C, Lewis D D, et al. Automatic classification of web queries using labeled and unlabeledtraining data[J]. ACM Trans on Information Systems, 2007, 25(2) (Article No. 9).
10Li Xiao, Wang Yeyi, Acero A. Learning query intent from regularized click graphs [C] //Proc of ACM SIGIR 2008. New York: ACM, 2008: 339-346.

共引文献98

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2刘一正,杨静,李强.基于URL的中文多语义名词在线语义标注[J].计算机工程,2014,40(10):150-154.
3陈诚,战荫伟,李鹰.基于网页链接分类的PageRank并行算法[J].计算机应用,2015,35(1):48-52. 被引量：6
4李雪伟,吕学强,董志安,刘克会.利用URL-Key进行查询分类[J].北京大学学报（自然科学版）,2015,51(2):220-226. 被引量：2
5刘峰,李煜,吕学强,李卓.查询主题分类方法研究[J].现代图书情报技术,2015(4):10-17. 被引量：4
6李煜,吕学强,李卓,徐丽萍.查询日志中查询意图的自动识别[J].计算机应用与软件,2015,32(11):27-31. 被引量：1
7陈兴华.发现在线公众地理信息变化的关键技术[J].地理空间信息,2015,13(6):38-39. 被引量：4
8溥德书.发挥人民代表大会制度在社会主义法治国家建设中的作用[J].桂海论丛,2015,31(6):106-109.
9任育伟,吕学强,李卓,徐丽萍.搜索日志中热点查询的内容抽取[J].计算机应用与软件,2015,32(12):16-21. 被引量：1
10邹非,朱庆华,王菁,徐小琴.基于模糊集的环境污染治理效果研究[J].软科学,2017,31(5):70-74. 被引量：5

同被引文献18

1殷小丽.新时代网络新闻舆论的时代特征与引导策略[J].传媒论坛,2019,2(9):74-75. 被引量：1
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3黄诒蓉.金融研究中的新闻分析框架及应用[J].证券市场导报,2013(1):37-44. 被引量：3
4张伦,钟智锦,毛湛文.基于文本挖掘的公共事件分析(2012-2014)--类别、涉事者、地理分布及演化[J].国际新闻界,2014,36(11):34-50. 被引量：8
5刘文.网络舆情监测系统设计及实现[J].指挥信息系统与技术,2015,6(5):56-61. 被引量：4
6王文贤,陈兴蜀,王海舟,吴小松.一种基于Solr的HBase海量数据二级索引方案[J].信息网络安全,2017(8):39-44. 被引量：15
7陈安,房亚楠.多舆情事件的演化机理及其公众关注度的替换/叠加效应研究[J].广州大学学报（社会科学版）,2017,16(6):24-29. 被引量：10
8龙光宇,徐云.CRF与词典相结合的疾病命名实体识别[J].微型机与应用,2017,36(21):51-53. 被引量：12
9公冶小燕,林培光,任威隆,张晨,张春云.基于改进的TF-IDF算法及共现词的主题词抽取算法[J].南京大学学报（自然科学版）,2017,53(6):1072-1080. 被引量：17
10樊红,李怀远,杜武,杨继文.基于事件分析的Web地震新闻时空信息挖掘研究[J].武汉大学学报（工学版）,2018,51(2):183-188. 被引量：1

引证文献2

1李作康,王妍妍,高菁.基于事件的地区局势分析方法[J].指挥信息系统与技术,2021,12(1):55-59.
2王龙霄,李健,沈丽民.基于增量式爬虫技术的新闻分析系统设计[J].现代计算机,2023,29(9):117-120.

1田谷丰.浅谈小学班主任班级管理中的沟通艺术[J].课程教育研究（学法教法研究）,2019,0(3):118-118. 被引量：1
2高菲.航天,给中国一个更好的未来[J].卫星应用,2018,26(12):1-1.
3杨旭.如何把会议新闻“粗粮细作”探析[J].传媒论坛,2018,1(23):34-34.
4付冰冰.新医改进行时[J].人民周刊,2018,0(18):26-27.
5王青竹.远程教育的情感支持内容探讨[J].山西广播电视大学学报,2018,23(4):2-5. 被引量：1
6宋振旺,卢芝艳.会议新闻图片拍摄技巧分析[J].北方文学,2019,0(6):152-152.
7马钦麟.以线索新机制应对新媒体基层报道的弱化[J].新闻战线,2019(1):87-89.
8杨曼虹.多级离心泵轴向测量与调整方法解析[J].山东工业技术,2019(6):42-42.
9赵子莹.乡镇电视台新闻记者报道中存在的问题及解决方法[J].农民致富之友,2018(24):227-227.
10杨菁.基层(社区)人物新闻选题的调查与挖掘[J].记者观察（下）,2018,0(10):118-118.

测绘与空间地理信息

2019年第3期

浏览历史

内容加载中请稍等...

面向网络新闻的爬虫开发与热点新闻事件分析被引量：2

参考文献6

二级参考文献37

共引文献98

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向网络新闻的爬虫开发与热点新闻事件分析 被引量：2

参考文献6

二级参考文献37

共引文献98

同被引文献18

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向网络新闻的爬虫开发与热点新闻事件分析被引量：2