BBS舆情系统爬虫模块的研究被引量：7

Research on crawler module of BBS Public Opinion System

下载PDF

导出

摘要针对重要的舆论平台BBS论坛,提出利用网络爬虫构建适合抓取论坛数据的爬虫模块。通过分析BBS论坛以及比较不同类别爬虫的特点,介绍BBS爬虫模块的工作流程以及需要选择的策略,讨论URL的处理与重定向问题的解决方法,并提出对不同论坛模块定制不同任务的抓取策略。 In this paper,a web crawler module using web crawler was proposed to acquire large collections of web pages in the BBS.Based on the characteristics of BBS and the differences between crawlers,this work described the workflow and work strategy of the crawler module.The process and redirection of the URL was discussed.Furthermore,the idea of using different strategy to collect pages from different part of the BBS was also proposed.

作者张旭张振江刘云

机构地区北京交通大学通信与信息系统北京市重点实验室

出处《铁路计算机应用》 2010年第12期18-21,共4页 Railway Computer Application

基金国家自然科学基金资助项目(60972012) 北京市自然科学基金资助项目(4102047) 科技人员服务企业项目(2009GJA00048) 教育部哲学人文社会科学研究重大课题(08WL1101)

关键词舆情系统聚焦爬虫爬虫模块定制任务 Public Opinion System focused web crawler crawler module custom tasks

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1赵颖斯,刘云.BBS舆情系统的数据采集方法[J].电信快报（网络与通信）,2008(12):22-24. 被引量：3
2许鑫,章成志.互联网舆情分析及应用研究[J].情报科学,2008,26(8):1194-1200. 被引量：62
3楼玲娣,周小斌.网络舆情的运行状态分析[J].特区实践与理论,2009(2):88-90. 被引量：11
4吴亮.搜索引擎中网络爬虫的设计[J].决策与信息（财经观察）,2008(7):139-140. 被引量：3
5A.Rungsawang,N.Angkawattanawit.Learnable topic-specific web crawler[J].Journal of Network and Computer Applications,2005(28):97-114.
6迈克·塞沃尔.链接分析:信息科学的研究方法[M].孙建军,李江,张煦,等.南京:东南大学出版社,2009:15.
7Sotiris Batsakis,Euripides G.M.Petrakis,Evangelos Milios.Improving the performance of focused web crawlers[J].Data & Knowledge Engineering,2009(68):1001-1013.
8袁浩,黄烟波.网页标题分析对主题爬虫的改进[J].计算机技术与发展,2009,19(6):22-24. 被引量：11
9周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：89

二级参考文献60

1张丽红.从网络舆情传播的角度谈文化安全[J].社科纵横,2007,22(2):129-131. 被引量：15
2余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
3赫枫龄,左万利.利用超链接信息改进网页爬行器的搜索策略[J].吉林大学学报（信息科学版）,2005,23(1):59-63. 被引量：8
4汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12
5周如俊,王天琪.网络舆情:现代思想政治教育的新领域[J].新德育．思想理论教育（综合版）,2005(6):12-15. 被引量：89
6刘毅.突发性群体事件中舆情信息的汇集与分析[J].学术交流,2005(10):131-135. 被引量：18
7秦州.新闻搜索中的舆情“峰值”——中国近年来重大矿难报道WEB页面数分析[J].新闻界,2005(5):94-96. 被引量：4
8沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
9谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006,25(3):95-100. 被引量：113
10刘毅.内容分析法在网络舆情信息分析中的应用[J].天津大学学报（社会科学版）,2006,8(4):307-310. 被引量：67

共引文献167

1王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
2曹树金,陈忆金.网络舆情信息分析与利用的功能与模型研究[J].信息资源管理学报,2011,1(3):11-19. 被引量：2
3郭晓云.建立军队政工网舆情引导机制[J].军队政工理论研究,2011,12(4):87-89.
4王芳,王月娥,陈洁,卢振波.基于图书馆学研究视角的媒体舆情信息采集[J].图书情报工作,2011,55(S2):259-261. 被引量：2
5许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J].现代图书情报技术,2009(2):62-70. 被引量：7
6何铨,曾志文.浅谈高校校园网舆情分析与预警系统的实现[J].科技创新导报,2009,6(20):175-175. 被引量：3
7曾润喜.我国网络舆情研究与发展现状分析[J].图书馆学研究,2009(8):2-6. 被引量：82
8张合斌.网络舆情分析系统功能研究[J].新闻爱好者（下半月）,2009(8):58-59. 被引量：2
9曾润喜.网络舆情管控工作机制研究[J].图书情报工作,2009,53(18):79-82. 被引量：346
10谢根亮.一种基于多智能主体技术的互联网敏感信息过滤模型[J].网络安全技术与应用,2009(10):25-28. 被引量：1

同被引文献34

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：247
3黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
4张恒,屈景辉,张亮.网页文本信息提取及结果评价[J].微计算机应用,2007,28(9):921-924. 被引量：10
5刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
6JianpingZeng,Shiyong Zhang,Chengrong Wu,Jian-fengXie.Predictive Modelfor Internet Public Opinion[].Proceedings of the Fourth International Conference onFuzzy Systems and Knowl-edge Discovery (FSKD).2007
7A.Rungsawang,N.Angkawattanawit.Learnable topic—sp’’ecificweb crawler[].Journal ofNetwork and Computer Applica—tions.2005
8赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
9高丙坤,成战刚,李倩.基于正则表达式的信息滤除算法[J].现代计算机,2008,14(2):54-55. 被引量：6
10姜胜洪.网络舆情热点的形成与发展、现状及舆论引导[J].理论月刊,2008(4):34-36. 被引量：244

引证文献7

1邓炳光,郭慧兰,张治中.移动互联网用户行为分析系统中聚焦爬虫的设计与实现[J].重庆邮电大学学报（自然科学版）,2015,27(3):359-365. 被引量：4
2吴柳,程恺,胡琪.基于文本挖掘的论坛热点问题时变分析[J].软件,2017,38(4):47-51.
3马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运（下半月）,2018,18(2):78-79.
4冯扬.一种基于RabbitMQ的论坛舆情爬取方案及实现[J].网络安全技术与应用,2018(10):47-48.
5金昌锦.特定百度贴吧热帖采集系统设计与实现[J].福建电脑,2019,35(11):96-97.
6王艳阁.面向微博爬虫系统的分析[J].河南科技,2013,32(2X):16-17.
7楼小帆,吴军,马严,林昭文.基于LDA模型的高校论坛热点提取系统[J].华中科技大学学报（自然科学版）,2016,44(S1):186-189. 被引量：4

二级引证文献8

1彭海静.中小企业大数据营销策略研究[J].江苏商论,2016(7):15-17. 被引量：6
2王金丽,冯立波.新媒体环境下高校舆情监管机理及应对策略研究[J].吉林工程技术师范学院学报,2017,33(9):17-20. 被引量：3
3蒋建洪,王珂.基于SA-LDA模型的美食热点发现研究[J].美食研究,2017,34(4):32-37. 被引量：2
4朱杰.基于改进的TF-IGM热词提取算法研究[J].信息技术,2018,42(3):101-103.
5张卫卫,胡亚琦,翟广宇,刘志鹏.基于LDA模型和Doc2vec的学术摘要聚类方法[J].计算机工程与应用,2020,56(6):180-185. 被引量：21
6黎妍,肖卓宇.引入Scrapy框架的Python网络爬虫应用研究[J].福建电脑,2021,37(10):58-60. 被引量：5
7程杰,李正民.基于能源总线的区域能源复杂互联网络建模分析[J].沈阳工业大学学报,2021,43(6):684-687. 被引量：2
8罗天.关于对互联网视频网站使用爬虫技术获取数据的研究[J].中国科技纵横,2017,0(3):30-30.

1祁峰.网络微博舆情系统技术分析[J].科学之友（下）,2013(6):145-146.
2宋连党.装瑞星后开机不再慢吞吞[J].电脑爱好者（普及版）,2007,0(6):19-19.
3宋海龄,文伟平.一个典型的Web安全评测工具的分析与改进[J].信息网络安全,2011(8):65-68.
4李瑞翔.舆情系统设计研究[J].中国科技信息,2016(22):29-31.
5万芳芳.基于网络爬虫的XSS漏洞挖掘技术[J].无线互联科技,2014,11(3):27-28.
6曾阳素,刘水强,伍雁鹏,雷军程.对高校网络舆情系统建设的几点思考[J].邵阳学院学报（自然科学版）,2012,9(4):25-28. 被引量：3
7刘磊.网络舆情分析系统研究[J].情报探索,2010(10):106-108. 被引量：8
8高慧,张涛,王付强,夏彬.面向舆情发现系统的中文语料分词研究[J].软件导刊,2015,14(11):54-56. 被引量：1
9陈艺卓.基于数据挖掘的高校网络舆情分析系统设计与实现[J].电子技术与软件工程,2016(23):189-189. 被引量：3
10陈龙飞,何利力.面向烟草行业的搜索引擎的研究与应用[J].工业控制计算机,2016,29(1):124-125.

铁路计算机应用

2010年第12期

浏览历史

内容加载中请稍等...

BBS舆情系统爬虫模块的研究被引量：7

参考文献9

二级参考文献60

共引文献167

同被引文献34

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

BBS舆情系统爬虫模块的研究 被引量：7

参考文献9

二级参考文献60

共引文献167

同被引文献34

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

BBS舆情系统爬虫模块的研究被引量：7