期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
Deep Web爬虫爬行策略研究 被引量:13
1
作者 郑冬冬 崔志明 《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页
如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供... 如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 展开更多
关键词 deep web deep web爬虫 查询选择 查询效能 适应性爬行算法
下载PDF
Deep Web数据源聚焦爬虫 被引量:11
2
作者 林超 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2008年第7期56-58,共3页
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考... Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对DeepWeb数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。 展开更多
关键词 deep web数据源 聚焦爬虫 贝叶斯分类器
下载PDF
主题Deep Web爬虫框架研究 被引量:3
3
作者 黄聪会 张水平 胡洋 《计算机工程与设计》 CSCD 北大核心 2010年第5期929-931,935,共4页
为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不... 为满足用户精确化和个性化获取信息的需要,通过分析Deep Web信息的特点,提出了一个可搜索不同主题Deep Web信息的爬虫框架。针对爬虫框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题,分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。实验结果表明了该框架采用的技术是可行的。 展开更多
关键词 深网 爬虫 搜索引擎 信息抽取 常用字
下载PDF
Deep Web入口探测与分类方法研究 被引量:2
4
作者 张亮 陆余良 刘金红 《计算机应用研究》 CSCD 北大核心 2009年第12期4697-4700,4703,共5页
传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计... 传统的使用语料库对入口标签字符串进行匹配的方法受限于语料库的完整性和匹配算法的灵活性。为突破这种局限,引入了基于表单元件统计特征的Deep Web入口探测方法和使用文本分类方法对其进行分类的双层分类模型,并提出了两种特征权重计算方法用于特征选取。在TEL-8 Query Interfaces数据集上,测试结果体现了双层分类模型的优越性和特征向量维归约的必要性。 展开更多
关键词 deepweb 网络爬虫 结构特征 维归约 双层分类模型
下载PDF
一种Deep Web聚焦爬虫爬行策略 被引量:2
5
作者 蔡欣宝 陈洪平 +1 位作者 赵朋朋 崔志明 《微电子学与计算机》 CSCD 北大核心 2009年第8期117-120,共4页
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性... 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的. 展开更多
关键词 结构化deep web数据源 聚焦爬虫 决策树分类器
下载PDF
Deep Web爬虫的一种增量式更新策略 被引量:1
6
作者 卓林 杨舟 +2 位作者 岳亮 赵朋朋 崔志明 《苏州大学学报(工科版)》 CAS 2011年第4期6-10,共5页
为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最... 为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最大限地的提高资源利用率。经实验验证,该方法取得了比较优异的结果。 展开更多
关键词 deep web 数据爬虫 增量更新
下载PDF
Deep Web数据采集查询构造方法研究 被引量:2
7
作者 林海伦 杨晓刚 +3 位作者 熊锦华 王元卓 贾岩涛 程学旗 《计算机科学与探索》 CSCD 北大核心 2015年第9期1025-1033,共9页
网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到... 网络大数据的大规模、多源异构、动态更新、高噪声给知识的获取带来了很大的挑战。特别地,很多网站隐藏在HTML表单后端的Web数据库中的Deep Web数据,只能通过提交表单查询的方式进行动态访问,网络爬虫难以通过页面之间的链接关系采集到这些数据,影响了获取到的知识资源的覆盖率,如何高效地采集这些数据并加以利用非常具有挑战性。为此对现有的Deep Web数据采集的查询构造方法进行了详细分析,分别介绍了针对不同类型的表单对应的Deep Web数据采集查询构造方法;总结了现有表层化方式的Deep Web数据采集查询构造方法的优缺点,并对Deep Web数据采集查询构造方法的未来工作进行了展望,以推动Deep Web数据采集技术的进一步发展。 展开更多
关键词 deep web 查询接口 查询构造 网络爬虫
下载PDF
基于主题的Deep Web聚焦爬虫研究与设计 被引量:2
8
作者 姚双良 《西北师范大学学报(自然科学版)》 CAS 北大核心 2013年第2期40-43,48,共5页
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率... 研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率,可以很好地适应特定主题的结构化Deep Web信息采集. 展开更多
关键词 deep web 聚焦爬虫 主题
下载PDF
一种Deep Web爬虫爬行策略 被引量:4
9
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 deep web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
下载PDF
基于本体的Deep Web数据源聚焦搜索系统研究 被引量:1
10
作者 张素智 李丽娜 《微计算机信息》 2010年第6期27-29,共3页
Deep Web中包含内容丰富、主题专一的高质量信息,为了自动地采集和集成这些数据,数据源的发现是关键。本文设计了一种基于本体的DeepWeb数据源聚焦搜索系统,给出了核心搜索算法。并通过实验,表明该方法是可行有效的。
关键词 本体 deep web数据源 聚焦搜索
下载PDF
DeepWeb可配置聚焦爬虫设计与实现 被引量:3
11
作者 罗成 程耀东 +1 位作者 胡庆宝 李海波 《核电子学与探测技术》 CAS CSCD 北大核心 2014年第3期353-358,共6页
大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单... 大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。 展开更多
关键词 聚焦爬虫 deep web 大数据
下载PDF
基于最优查询的多领域deep Web爬虫 被引量:3
12
作者 冯明远 林怀忠 《计算机应用研究》 CSCD 北大核心 2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明... Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。 展开更多
关键词 deep web deep web爬虫 最优查询 页面聚类
下载PDF
一种Deep Web爬虫的设计与实现 被引量:5
13
作者 荣光 张化祥 《计算机与现代化》 2009年第3期31-34,共4页
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向D... 随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息。实验结果表明此方法是有效的。 展开更多
关键词 deep web web爬虫 表单
下载PDF
一种Deep Web聚焦爬虫
14
作者 黄昊晶 《电脑与电信》 2011年第3期30-31,37,共3页
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep ... 聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。 展开更多
关键词 聚焦爬虫 deep web PAGERANK 网站结构图剪枝 页面判断
下载PDF
面向Deep Web的Ajax查询接口技术研究
15
作者 郭若飞 蔡欣宝 +1 位作者 赵朋朋 崔志明 《苏州大学学报(工科版)》 CAS 2010年第3期1-4,共4页
Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。... Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。实验结果证实,该方法是有效的。 展开更多
关键词 爬虫 AJAX 查询接口 deep web爬虫
下载PDF
支持Ajax的Deep Web爬虫研究与设计 被引量:1
16
作者 周杨 《计算机系统应用》 2012年第2期167-171,共5页
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的... 随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。 展开更多
关键词 deep web 爬虫 AJAX 搜索引擎
下载PDF
一种安全验证模式下Deep Web爬虫的研究
17
作者 徐和祥 张永忠 胡运发 《计算机应用与软件》 CSCD 2010年第5期9-11,26,共4页
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep We... Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。 展开更多
关键词 deep web 安全模式 爬虫 信息抽取
下载PDF
基于深层网络爬虫的Web地图服务发现方法 被引量:11
18
作者 侯东阳 武昊 +1 位作者 王军锋 王明山 《地理与地理信息科学》 CSCD 北大核心 2015年第5期10-13,19,共5页
传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,... 传统Web地图服务(Web Map Service,WMS)发现方法只能检索表层网络中的地图服务,无法发现深层网络中日益增加的地图服务。针对这一现象,该文提出了一种利用深层网络爬虫的WMS发现方法。首先,从WMS的应用角度出发,总结了两条WMS应用规则,并利用正则表达式对它们进行了形式化描述;然后,针对每条应用规则制定了相应的使用流程;最后以传统地图服务爬虫为基础,通过新增脚本解析引擎和应用规则构建了深层网络爬虫。实验表明,该方法可以同时发现位于表层网络和深层网络中的Web地图服务。 展开更多
关键词 web地图服务 服务发现 爬虫 深层网络
下载PDF
深度Web资源探测系统的研究与实现 被引量:7
19
作者 李涛 陈鹏 李哲 《微计算机信息》 北大核心 2007年第33期185-187,共3页
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。
关键词 crawler deep SEARCH deepweb 基于站点爬行
下载PDF
基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用
20
作者 于平 《科技资讯》 2024年第16期55-57,共3页
旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并... 旨在利用大数据和深度学习技术优化网络爬虫算法,以更好地满足信息搜集与处理的需求。首先,使用大数据技术进行数据收集;其次,引入词频反转文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)权重作为输入特征的初始权重,并利用传播激活算法来优化爬虫算法;最后,对多模态信息进行整合。为了测试基于大数据的深度学习网络爬虫算法在信息搜集与处理中的应用效果,将其与传统方法进行了比较。通过实验发现,在统一资源定位器(Uniform Resource Locator,URL)数量为10000时,提出的方法的覆盖率可达92.9%,而传统方法的覆盖率仅为73.7%。研究表明:所提出的基于大数据的深度学习网络爬虫算法在信息收集方面具有更高的覆盖率和更好的准确性。 展开更多
关键词 网络爬虫算法 深度学习 信息收集和处理 大数据
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部