面向专用信息获取的用户定制主题网络爬虫技术研究被引量：18

Research on User Customized Topic Web Crawler for Specialized Information Acquiration Technology

下载PDF

导出

摘要进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 Stepping into the era of big data, the Internet has become an important battle field for every walk of life to collect intelligence. Facing the explosive growth of network information resources,how to screen out the required information quickly and efficiently is a practical problem to solve. It is very important to construct an information screening mechanism between the mass data and intelligence personnel to meet the needs of specific tasks, which can greatly improve the efficiency. In order to improve the accuracy of the information collected, this paper conducts the research on the user customized topic Web crawler technology for information acquisition. In order to solve the difficult problem of information screening in the large data age, the user＇s interest preference is integrated into the crawling process of the topic Web crawler, and the information screening is effectively improved. Experimental results show that the method can improve the precision.

作者薛丽敏吴琦李骏

机构地区海军指挥学院信息系海军

出处《信息网络安全》 CSCD 2017年第2期12-21,共10页 Netinfo Security

基金国家自然科学基金[11202239]

关键词大数据主题网络爬虫 PAGERANK算法行为分析用户定制 big data topic Web crawler Pagerank algorithm behavior analysis user customized

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
2胡雪,封化民,李明伟,丁钊.数据挖掘中一种增强的Apriori算法分析[J].信息网络安全,2015(11):77-83. 被引量：16
3李东,王虎强.基于Timed-PageRank的聚焦爬虫优化研究[J].四川兵工学报,2015,36(1):141-144. 被引量：2
4王钟斐,王彪.基于锚文本相似度的PageRank改进算法[J].计算机工程,2010,36(24):258-260. 被引量：14
5夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
6陈晓,赵晶玲.大数据处理中混合型聚类算法的研究与实现[J].信息网络安全,2015(4):45-49. 被引量：30
7Can WANG,Zi-yu GUAN,Chun CHEN,Jia-jun BU,Jun-feng WANG,Huai-zhong LIN.On-line topical importance estimation:an effective focused crawling algorithm combining link and content analysis[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2009,10(8):1114-1124. 被引量：6
8王帅,周国民,王健.主题爬虫相关度算法研究综述[J].计算机与现代化,2013(4):27-30. 被引量：6
9李卫东,陆玲.融合VSM技术的PageRank算法研究与应用[J].计算机与现代化,2011(7):96-98. 被引量：4
10周永进,马春光,苗俊峰,齐峰.基于社区层次的机会网络移动模型[J].信息网络安全,2014(8):45-49. 被引量：2

二级参考文献236

1汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
2吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
3戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量：27
4印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,31(14):54-56. 被引量：53
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
6赵焕洲,唐爱民.对两种知识组织系统——叙词表与Ontology的比较研究[J].情报理论与实践,2005,28(5):469-471. 被引量：12
7陆一鸣,胡健,马范援.一种基于源网页质量的锚文本相似度计算方法——LAAT[J].情报学报,2005,24(5):548-554. 被引量：11
8陈再良,凌力,周强.dPageRank——一种改进的分布式PageRank算法[J].计算机应用,2006,26(1):21-24. 被引量：7
9黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
10张兵.一种网络日志挖掘的高效算法[J].广西师范大学学报（自然科学版）,2006,24(1):26-29. 被引量：2

共引文献162

1张洪斌,危胜军.基于超图的并行信息采集系统任务划分方法[J].广西师范大学学报（自然科学版）,2008,26(1):212-215.
2杨仁广,孟祥增.网络多媒体主题搜索策略研究[J].中国科技资源导刊,2009,41(2):37-41.
3杨仁广,孟祥增.网络多媒体教学资源主题搜索研究[J].电化教育研究,2009,30(5):83-88. 被引量：4
4孙玲芳,黎维良.基于定题爬虫的网页分类的多级判定算法[J].科学技术与工程,2009,9(18):5534-5537. 被引量：1
5卜书庆,刘华梅,王广平.近年来国内知识组织研究热点综述[J].中国索引,2010,8(1):2-12. 被引量：9
6魏东胜,章昭辉.一种基于被动式网格资源发现机制的研究与设计[J].计算机与现代化,2010(3):45-48.
7谢志妮.一种新的基于概念树的主题网络爬虫方法[J].计算机与现代化,2010(4):103-106. 被引量：2
8杨仁广,宋宇,孟祥增.一种改进Shark-Search的多媒体主题搜索算法[J].计算机工程与应用,2010,46(14):152-154. 被引量：4
9熊霞,常春.基于叙词表的知识单元检索系统设计[J].图书情报工作,2010,54(12):50-53. 被引量：4
10杨靖韬,陈会果.对网络爬虫技术的研究[J].科技创业月刊,2010,23(10):170-171. 被引量：5

同被引文献141

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2黄伟志,汤莉,刘军,孙宏.基于主动队列管理的Linux并发服务器模型及负载均衡算法的研究[J].电子技术应用,2006,32(7):19-21. 被引量：1
3胡忠望,刘卫东.Cookie应用与个人信息安全研究[J].计算机应用与软件,2007,24(3):50-53. 被引量：38
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
5徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
6李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
7余世明,晁岳磊,缪仁将.自动售货机研究现状及展望[J].中国工程科学,2008,10(7):51-56. 被引量：42
8陈晓云,莫明辉,李廉,赵燕.基于网络日志分析的混合策略主题爬虫[J].微计算机信息,2009,25(3):200-202. 被引量：1
9梁莹,徐福缘.基于多Agent的专利资源协同获取模型研究[J].情报理论与实践,2009,32(8):118-120. 被引量：5
10陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：932

引证文献18

1项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
2邵云蛟,吴丽莎,张凯,吴屏.一种基于Python的信息安全情报收集工具[J].中国科技纵横,2018,0(13):19-19.
3蒋卓键,伍淳华,夏铭.云系统中多层次用户分类方法研究与实现[J].信息网络安全,2017(8):69-75. 被引量：3
4周振飞,方滨兴,崔翔,刘奇旭.基于相似性分析的WordPress主题恶意代码检测[J].信息网络安全,2017(12):47-53. 被引量：5
5李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：17
6阮阳,刘禹,韩港成,康晓凤.基于爬虫的定向数据检索系统[J].软件,2018,39(5):118-120. 被引量：5
7蒲文莹.面向专用信息获取的用户定制主题网络爬虫技术探究[J].电脑编程技巧与维护,2019(1):33-34. 被引量：1
8练尚斌.小微企业以互联网金融融资的风险研究——以JD为例的小微企业网络小额贷款模式[J].财会学习,2018(35):174-176. 被引量：3
9黄微,许烨婧,刘熠.大数据环境下多媒体网络舆情并发获取的数据驱动机理研究[J].情报理论与实践,2019,42(6):42-48. 被引量：7
10郑宇.基于Web的科技信息管理系统开发与管理[J].微型电脑应用,2019,35(10):142-147. 被引量：3

二级引证文献170

1刘宪权.网络黑灰产上游犯罪的刑法规制[J].国家检察官学院学报,2021(1):3-17. 被引量：43
2张忆然.滥用已公开个人信息行为的刑法规制[J].中国刑事法杂志,2023(6):87-103. 被引量：3
3夏伟.论外围犯罪的穿透性治理[J].中国刑事法杂志,2023(5):55-71. 被引量：3
4庄劲.开放的中国数据刑法体系之建构——基于本体法益与功能法益的区分[J].中国刑事法杂志,2023(2):37-53. 被引量：11
5袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
6史雯.大数据时代网络爬虫行为的刑事违法性判断[J].湘江青年法学,2021(1):10-29.
7黄微,刘熠,郭苏琳.网络舆情受众失范行为靶向引导的技术框架构建[J].知识管理论坛,2020(3):159-174. 被引量：1
8刘珏,陈禹衡.数字经济时代网络服务商刑事责任认定研究[J].国外社会科学前沿,2020(10):21-35. 被引量：4
9薛美琴.网络爬虫刑法规制的边界[J].网络法律评论,2020,20(1):227-248. 被引量：1
10阮林赟.网络爬虫刑事违法的立场、标准和限制[J].河北法学,2021,39(7):173-187. 被引量：8

1李亚丽,王敏,李静.基于半监督学习的迁移学习方法[J].河南科技,2014,33(4):211-211. 被引量：1
2谭帅.基于Linux平台的身份认证系统的设计[J].计算机光盘软件与应用,2011(14):216-216.
3王赟.逆向工程中的数据测量技术[J].现代制造技术与装备,2016,52(6):161-163. 被引量：1
4变革台北ComputeX 2014[J].微型计算机,2014(19):6-34.
5张慧如.“传感器”归类新规[J].中国海关,2012(11):44-44.
6乔昱亚.计算机实验室管理探讨[J].湖北成人教育学院学报,2011,17(2):77-78. 被引量：5
7刘彦强.虚拟传感器的应用[J].齐齐哈尔大学学报（自然科学版）,2016,32(5). 被引量：2
8郑海峰.浅析中职院校计算机课程中多媒体技术的应用[J].计算机光盘软件与应用,2013,16(24):188-189. 被引量：2
9刘旭东,陈德人,钟苏丽.使用群体兴趣偏好度的协同过滤推荐[J].计算机工程与应用,2010,46(34):129-131. 被引量：1
10许婷.物联网的RFID安全和隐私[J].电子世界,2014(12):14-14.

信息网络安全

2017年第2期

浏览历史

内容加载中请稍等...

面向专用信息获取的用户定制主题网络爬虫技术研究被引量：18

参考文献21

二级参考文献236

共引文献162

同被引文献141

引证文献18

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

面向专用信息获取的用户定制主题网络爬虫技术研究 被引量：18

参考文献21

二级参考文献236

共引文献162

同被引文献141

引证文献18

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

面向专用信息获取的用户定制主题网络爬虫技术研究被引量：18