期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
分布式Web Crawler的研究:结构、算法和策略 被引量:23
1
作者 叶允明 于水 +2 位作者 马范援 宋晖 张岭 《电子学报》 EI CAS CSCD 北大核心 2002年第12A期2008-2011,共4页
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR... 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页. 展开更多
关键词 web爬虫 爬行策略 分布式系统 计算机网络 网页
下载PDF
Clustering-based topical Web crawling using CFu-tree guided by link-context 被引量:2
2
作者 Lu LIU 《Frontiers of Computer Science》 SCIE EI CSCD 2014年第4期581-595,共15页
Topical Web crawling is an established technique for domain-specific information retrieval. However, almost all the conventional topical Web crawlers focus on building crawlers using different classifiers, which needs... Topical Web crawling is an established technique for domain-specific information retrieval. However, almost all the conventional topical Web crawlers focus on building crawlers using different classifiers, which needs a lot of labeled training data that is very difficult to label manually. This paper presents a novel approach called clustering-based topical Web crawling which is utilized to retrieve information on a specific domain based on link-context and does not require any labeled training data. In order to collect domain-specific content units, a novel hierarchical clustering method called bottom-up approach is used to illustrate the process of clustering where a new data structure, a linked list in combination with CFu-tree, is implemented to store cluster label, feature vector and content unit. During clustering, four metrics are presented. First, comparison variation (CV) is defined to judge whether the closest pair of clusters can be merged. Second, cluster impurity (CIP) evaluates the cluster error. Then, the precision and recall of clustering are also presented to evaluate the accuracy and comprehensive degree of the whole clustering process. Link-context extraction technique is used to expand the feature vector of anchor text which improves the clustering accuracy greatly. Experimental results show that the performance of our proposed method overcomes conventional focused Web crawlers both in Harvest rate and Target recall. 展开更多
关键词 topical web crawling comparison variation (CV) cluster impurity (CIP) CFu-tree link-context CLUSTERING
原文传递
Web信息采集研究进展 被引量:25
3
作者 李盛韬 余智华 +1 位作者 程学旗 白硕 《计算机科学》 CSCD 北大核心 2003年第2期151-157,171,共8页
As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents a... As a basic component of search engine and a series of other services on Web,Web crawler is playing an important role. Roughly,a Web crawler is a program which automatically traverses the Web by downloading documents and following links from page to page. This article detailedly explains the principles and difficulties on the Web crawler,comprehensively argues several hot directions of Web crawler,and at last views the new direction of Web crawler. 展开更多
关键词 web 信息采集 信息发布 INTERNET INTRANET 计算机网络
下载PDF
一个个性化的Web信息采集模型 被引量:17
4
作者 吴丽辉 王斌 张刚 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期86-88,共3页
介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息... 介绍了个性化技术和个性化Web信息的采集技术,重点分析了个性化的Web信息采集模型,包括系统总体结构、用户兴趣的获取、个性化Web信息采集流程、个性化推荐的实现。最后对个性化Web信息采集与搜索引擎作了一个比较,分析了个性化Web信息采集的应用。 展开更多
关键词 个性化 个性化的web信息采集 搜索引擎
下载PDF
Web信息采集中的哈希函数比较 被引量:8
5
作者 吴丽辉 白硕 +1 位作者 张刚 张凯 《小型微型计算机系统》 CSCD 北大核心 2006年第4期673-676,共4页
在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突... 在Web信息采集的过程中,需要判断待采页面是否在已采页面集合中.为了实现快速采集,采用哈希函数来实现.基于一个含有2000多万个URL的序列,通过大规模的实验性评测,比较了函数Tianlhash、ELFhash、HfIp、hf和Strhash的一阶和二阶哈希冲突率.实验结果表明,Strhash和Tianlhash的性能较佳,值得推荐.并且,ELFhash的测试性能要优于HfIp和hf采用二阶哈希后的天罗Web信息采集系统,占用几兆的内存空间,大大提高了采集速度,并降低了数据库的负荷. 展开更多
关键词 web信息采集 哈希函数 URL
下载PDF
广域网分布式Web爬虫 被引量:25
6
作者 许笑 张伟哲 +1 位作者 张宏莉 方滨兴 《软件学报》 EI CSCD 北大核心 2010年第5期1067-1082,共16页
分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到... 分析了广域网分布式Web爬虫相对于局域网爬虫的诸多优势,提出了广域网分布式Web爬虫的3个核心问题:Web划分、Agent协同和Agent部署.围绕这3个问题,对目前学术界和商业界出现的多种实现方案和策略进行了全面的综述,深入讨论了研究中遇到的问题与挑战,并论述了广域网分布式Web爬虫的评价模型.最后,对未来的研究方向进行了总结. 展开更多
关键词 搜索引擎 广域网分布式爬虫 web划分 AGENT协同 Agent部署
下载PDF
基于Hash算法实现搜索引擎中重复WEB页面的消除 被引量:6
7
作者 杨海东 叶小岭 张颖超 《微计算机信息》 北大核心 2006年第09X期299-301,共3页
搜索引擎已经成为互联网用户进入网络的一个重要入口。但目前搜索引擎的结果还存在着许多有待改进的地方。本文从搜索引擎返回结果中存在的重复页面入手,解决如何消除重复页面,并对其将来的发展进行了进一步探讨。
关键词 网络蜘蛛 搜索引擎 散列函数 web
下载PDF
Inherit/Feedback:一种新的Web主题挖掘方法 被引量:4
8
作者 杨沛 郑启伦 彭宏 《计算机研究与发展》 EI CSCD 北大核心 2004年第5期807-811,共5页
经典链接分析方法 (如PageRank和HITS)更多地关注的是网页的权威度 ,而不是其主题相关度 ,所以在引导主题搜索的过程中 ,很快就发生主题漂移 为此 ,在构建主题关联拓扑模型的基础上 ,提出了Inherit/Feedback方法 ,以用于Web主题挖掘 ... 经典链接分析方法 (如PageRank和HITS)更多地关注的是网页的权威度 ,而不是其主题相关度 ,所以在引导主题搜索的过程中 ,很快就发生主题漂移 为此 ,在构建主题关联拓扑模型的基础上 ,提出了Inherit/Feedback方法 ,以用于Web主题挖掘 基本思想是 :在搜索路径上 ,一个结点继承其父辈结点的主题相关度 ,并且将其主题相关度反馈给父辈结点 同时 ,提出了基于Inherit/Feedback的主题搜索算法 (IFC) 实验结果表明 ,这种方法能有效地引导主题搜索 。 展开更多
关键词 链接分析 主题搜索 web挖掘
下载PDF
深度Web资源探测系统的研究与实现 被引量:7
9
作者 李涛 陈鹏 李哲 《微计算机信息》 北大核心 2007年第33期185-187,共3页
本文介绍了深度Web的资源重要性和传统爬虫工作的原理。为了能够更好的利用传统爬虫获取深度Web资源和解决传统爬虫在工作中的不足,提出了一种任务可定制化的爬虫框架,并基于可定制化的任务,实现探测网络深度资源的功能。
关键词 crawlER DEEP SEARCH DEEPweb 基于站点爬行
下载PDF
基于Nutch的Web网站定向采集系统 被引量:10
10
作者 徐健 张智雄 《现代图书情报技术》 CSSCI 北大核心 2009年第4期1-6,共6页
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
关键词 网站定向采集系统 NUTCH 网站抓取 网页去噪
下载PDF
基于元搜索引擎的个性化Web信息采集 被引量:12
11
作者 王忠 程磊 《计算机工程与设计》 CSCD 北大核心 2009年第13期3117-3119,共3页
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标We... 为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容。在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量。重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合。 展开更多
关键词 元搜索引擎 个性化 web信息采集 兴趣向量 体系结构
下载PDF
基于链接路径预测的聚焦Web实体搜索 被引量:1
12
作者 黄健斌 孙鹤立 《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2059-2066,共8页
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法... 实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值。在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法. 展开更多
关键词 实体搜索 聚焦爬行 链接路径预测 条件随机场 增强学习
下载PDF
一种Deep Web爬虫爬行策略 被引量:4
13
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 DEEP web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
下载PDF
使用联合链接相似度评估爬取Web资源 被引量:6
14
作者 张乃洲 李石君 +1 位作者 余伟 张卓 《计算机学报》 EI CSCD 北大核心 2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接... 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 展开更多
关键词 聚焦爬行 主题相似度 链接评估 web链接图 Q学习
下载PDF
基于Android的大型Web交互网络平台设计与实现 被引量:2
15
作者 徐玉莲 朱昌洪 《现代电子技术》 北大核心 2017年第10期46-49,共4页
为了提高的Web交互网络环境下的信息获取和引擎搜索能力,提出基于Android的大型Web交互网络平台设计方法。通过Web服务器建立Cloud-P2P信息融合模型,在Hadoop,MongoDB,Storm三种开源的底层计算框架下进行大型Web交互网络平台的服务系统... 为了提高的Web交互网络环境下的信息获取和引擎搜索能力,提出基于Android的大型Web交互网络平台设计方法。通过Web服务器建立Cloud-P2P信息融合模型,在Hadoop,MongoDB,Storm三种开源的底层计算框架下进行大型Web交互网络平台的服务系统设计,基于Android操作系统进行Web交互网络平台软件开发。采用种子URL信息爬取方法进行互联网上的信息搜索和网页信息处理,并设计垃圾信息过滤模块,提高信息识别的效率。测试结果表明,该平台具有较好的Web信息爬取能力,信息召回率等测试指标表现较好。 展开更多
关键词 ANDROID web交互网络平台 信息爬取 引擎搜索
下载PDF
基于IOCC的定题Web信息发现机制研究 被引量:1
16
作者 杨艺 代春艳 《计算机工程与设计》 CSCD 北大核心 2008年第22期5906-5909,共4页
针对目前Web信息庞杂无序和半结构化特征所带来的信息搜索的难题,提出了一种信息对象特征码(IOCC)方法,将之结合定题信息搜索应用于机构对目标信息的发现和采集,能大大提高信息发现的能力和效率。其次从所采用的关键技术、策略和系统功... 针对目前Web信息庞杂无序和半结构化特征所带来的信息搜索的难题,提出了一种信息对象特征码(IOCC)方法,将之结合定题信息搜索应用于机构对目标信息的发现和采集,能大大提高信息发现的能力和效率。其次从所采用的关键技术、策略和系统功能模块等方面对基于该方法的定题Web信息发现机制进行了分析和研究,并举例说明该机制是如何最大限度提高Web信息发现能力的。最后比较分析了该机制相对于传统信息搜索引擎的优势并提出了进一步研究的方向。 展开更多
关键词 IOCC 定题 web信息 发现机制 信息采集
下载PDF
网络爬虫行为版权侵权的行政规制
17
作者 莫张勤 卢易 《北京邮电大学学报(社会科学版)》 2024年第1期59-65,75,共8页
网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视... 网络爬虫是一项能够根据指令自动搜索并抓取指定网络信息内容的新兴互联网技术,存在被滥用之风险。作为爬取网络版权数据信息的工具,网络爬虫行为版权侵权现象时有发生。目前,对于网络爬虫行为版权侵权的规制多见于民法与刑法领域,忽视了行政规制。目前存在的网络爬虫行为侵权规制过于依赖司法手段、缺乏针对网络爬虫行为的必要规范以及行政机关针对网络爬虫行为的互联网监管缺失等问题,阻碍了网络爬虫行为版权侵权行政规制的应用与发展。对此,可以从构建网络爬虫行为版权侵权的全覆盖预警系统、完善网络爬虫行为版权规范内容和设置网络爬虫使用者自律管理义务等方面着手,充分利用行政手段遏制网络爬虫行为版权侵权,保护版权权利人的合法权益。 展开更多
关键词 网络爬虫 网络爬虫行为 版权侵权 行政规制
下载PDF
Web主题关联知识自学习算法
18
作者 杨沛 郑启伦 彭宏 《计算机科学》 CSCD 北大核心 2003年第10期49-51,共3页
1概述 面向主题的Web信息搜索和挖掘是当前的一个研究热点,它在一定的应用背景下取得了很大的成功,如Cora[1]和CiteSeer,但与此同时也存在很多尚待解决的问题,其中包括:第一,网页搜索没有能够充分利用搜索过程中网页与网页、网页与链接... 1概述 面向主题的Web信息搜索和挖掘是当前的一个研究热点,它在一定的应用背景下取得了很大的成功,如Cora[1]和CiteSeer,但与此同时也存在很多尚待解决的问题,其中包括:第一,网页搜索没有能够充分利用搜索过程中网页与网页、网页与链接,以及链接与链接之间相互关联与约束的有关知识,因而无法更有效地提高搜索的效率和搜索的准确性. 展开更多
关键词 关联规则 数据挖掘 web 主题关联知识 自学习算法 网页特征集 网站
下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
19
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 URL相似度 web语料爬取 URL过滤 语料分类
下载PDF
网络爬虫技术在继续教育平台系统中的应用研究
20
作者 刘沛鹏 《科技资讯》 2024年第4期198-201,共4页
旨在探讨、研究网络爬虫技术在继续教育平台系统中的应用。通过对继续教育平台系统的特点和需求进行分析,结合网络爬虫技术的基本原理和应用特点,探讨了网络爬虫技术在继续教育平台系统中的潜在应用价值。通过阐述网络爬虫技术在继续教... 旨在探讨、研究网络爬虫技术在继续教育平台系统中的应用。通过对继续教育平台系统的特点和需求进行分析,结合网络爬虫技术的基本原理和应用特点,探讨了网络爬虫技术在继续教育平台系统中的潜在应用价值。通过阐述网络爬虫技术在继续教育平台中的应用,分析其对继续教育平台系统的影响。旨在为继续教育平台系统的信息管理和更新提供新的思路和方法,为相关领域的研究与实践提供参考。 展开更多
关键词 网络爬虫 继续教育平台 数据爬取模块 数据存储模块
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部