期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于T-Graph算法的链接和内容相结合的聚焦爬虫模型
下载PDF
职称材料
导出
摘要
聚焦网络爬虫的两大重要目标就是寻找主题相关的网页,并优先下载主题相关度高的网页。首先,读取并分析网页的有效HTML元素,并根据高准确率来预测和抽取每个未被访问的网页的主题内容。然后,根据T-Graph来计算URLs的主题相关度,并按照相关度大小进行排序。本文提出的基于T-Graph的算法综合了多方面的元素,通过实验得到了较高的查准率和查全率,因此,该算法具有重要的意义。
作者
周萍
机构地区
南京航空航天大学
出处
《电子世界》
2016年第6期190-191,共2页
Electronics World
关键词
聚焦网络爬虫
T-Graph
HTML元素
信息检索
搜索引擎
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
14
参考文献
1
共引文献
7
同被引文献
0
引证文献
0
二级引证文献
0
参考文献
1
1
季春,姜琴,吴铮悦.
垂直搜索引擎关键技术研究综述[J]
.情报探索,2012(10):91-93.
被引量:8
二级参考文献
14
1
海涛,郑玲,江娟.
垂直搜索引擎中数据采集的主题相关性算法研究[J]
.中国电力教育,2007(z2):108-109.
被引量:3
2
陈新颜.
垂直搜索引擎辨析[J]
.现代情报,2004,24(9):133-134.
被引量:24
3
杨坚争,李朝平.
垂直搜索引擎及其应用[J]
.电子商务,2006,7(10):23-25.
被引量:14
4
郭兴,柯鹏,徐媛,李宗荣.
论垂直搜索引擎中的信息抽取技术的选用[J]
.医学信息(西安上半月),2006,19(12):2063-2065.
被引量:3
5
潘明,陈艺,刘海峰,刘红刚.
农业机械垂直搜索引擎的设计与实现[J]
.现代农业装备,2007,28(4):44-47.
被引量:4
6
李占波,廖继东,李华.
基于DotLucene的垂直搜索引擎的研究[J]
.微计算机信息,2007(24):194-195.
被引量:8
7
赫建营,晏海华,金茂忠,刘超.
结合本体筛选和文本挖掘的垂直搜索引擎研究[J]
.计算机科学,2008,35(2):188-190.
被引量:10
8
陈洪猛.
基于垂直搜索技术的搜索引擎解决方案[J]
.电脑应用技术,2008(1):14-18.
被引量:7
9
郑凯明,李义杰.
垂直搜索引擎及其应用价值[J]
.信息技术,2008,32(4):45-47.
被引量:11
10
高波.
一种面向主题的搜索引擎的实现[J]
.常州工学院学报,2008,21(2):54-57.
被引量:2
共引文献
7
1
赵鸿萍,蒋宏民.
面向新药研发的垂直搜索引擎研究与设计[J]
.医学信息学杂志,2013,34(10):38-42.
被引量:1
2
王旭仁,杨硕,何发镁,王彦丽,张为群.
Web页面细粒度数据抽取方法研究[J]
.计算机工程与设计,2014,35(2):700-704.
3
王春艳,李玉福.
垂直搜索引擎中信息过滤技术的研究[J]
.情报科学,2014,32(3):93-97.
被引量:3
4
赵婧宇,莫翘楚,张洋.
企业名录垂直搜索系统的设计与实现[J]
.企业技术开发(中旬刊),2014,33(3):19-21.
5
郭承坤,陈国松,阮怀军,陈英义,屠星月.
基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计[J]
.广东农业科学,2015,42(5):139-144.
6
方志民,戴洋洋,董淑珍,李渤,温芳馨,宋新航.
新闻类垂直搜索引擎系统研究与设计[J]
.黑龙江工程学院学报,2016,30(6):35-37.
7
胡亮,傅泽田.
网络诈骗信息垂直搜索引擎的设计与实现[J]
.计算机应用与软件,2017,34(11):302-309.
被引量:1
1
孙立伟,何国辉,吴礼发.
网络爬虫技术的研究[J]
.电脑知识与技术(过刊),2010,0(15):4112-4115.
被引量:134
2
IE6不能正确显示网页[J]
.电击高手,2004(6):92-92.
3
赵长林.
剖析单击劫持[J]
.网管员世界,2009(2):102-103.
4
流浪.
HTML元素点滴谈[J]
.数字化用户,2001(4):104-105.
5
杨靖韬,陈会果.
对网络爬虫技术的研究[J]
.科技创业月刊,2010,23(10):170-171.
被引量:5
6
邹海亮,孙莉.
可定制的聚焦网络爬虫[J]
.电子科技,2009,22(1):47-50.
被引量:4
7
施磊磊,施化吉,宋玉平,束长波.
基于Hadoop的分布式主题网络爬虫的设计与实现[J]
.信息技术,2015,39(7):109-112.
被引量:2
8
万文兵.
面向主题搜索的网络爬虫信息采集策略研究[J]
.软件导刊,2015,14(11):68-70.
被引量:2
9
盛雪丰.
Android开发一大神器——Jsoup[J]
.电脑知识与技术(过刊),2015,21(3X):63-65.
被引量:4
10
胡晶.
HTML5中Canvas与Flash的应用研究[J]
.宁德师范学院学报(自然科学版),2014,26(2):151-155.
被引量:4
电子世界
2016年 第6期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部