期刊文献+
共找到233篇文章
< 1 2 12 >
每页显示 20 50 100
基于Java的网络爬虫算法的实现
1
作者 李晖 《电脑与信息技术》 2024年第3期1-4,共4页
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
关键词 网络爬虫 搜索引擎 JSP
下载PDF
基于神经网络的增量式crawler重访频率研究 被引量:1
2
作者 周英飚 王军 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第12期32-33,45,共3页
crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有... crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有较好的自适应性 . 展开更多
关键词 搜索引擎 crawler 增量式crawler 神经网络
下载PDF
基于Shark-Search和Hits算法的主题爬虫研究 被引量:18
3
作者 罗林波 陈绮 吴清秀 《计算机技术与发展》 2010年第11期76-79,共4页
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于... 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。 展开更多
关键词 主题爬虫 爬行策略 垂直搜索引擎
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
4
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 Web信息搜集 链接价值 主题漂移
下载PDF
面向主题Crawler的设计与实现 被引量:1
5
作者 苗长芬 冯伟华 《平原大学学报》 2005年第3期110-112,共3页
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础.
关键词 crawler 主题搜索引擎 相关度
下载PDF
词向量聚类加权Shark-Search的主题爬虫策略研究 被引量:7
6
作者 程元堃 廖闻剑 程光 《计算机与数字工程》 2018年第1期144-148,共5页
针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在... 针对Shark-Search算法在主题爬虫中对于链接与主题相关性判断不够全面的问题,采取对待访问链接内容进行词向量聚类的方式,利用余弦距离表示与扩充主题词的相关性,改进了算法中对邻近链接评分的机制。实验结果表明,利用改进后的新算法在限定时间内能够发现更多主题相关的链接,有效提高了主题爬虫的效率。 展开更多
关键词 主题爬虫 Shark-search 词向量聚类
下载PDF
一种改进Shark-Search的主题爬虫算法 被引量:2
7
作者 仇磊 娄渊胜 常民 《微型电脑应用》 2017年第2期19-21,共3页
针对Shark-Search算法在主题爬虫中对网页全局性的考虑不足,利用PageRank算法计算待下栽URL的权威值来弥补这种不足,提出了Shark-PageRank算法,依据锚文本、锚文本邻近的文本和网页的权威值来权衡URL的价值。实验结果显示,在单位时间里... 针对Shark-Search算法在主题爬虫中对网页全局性的考虑不足,利用PageRank算法计算待下栽URL的权威值来弥补这种不足,提出了Shark-PageRank算法,依据锚文本、锚文本邻近的文本和网页的权威值来权衡URL的价值。实验结果显示,在单位时间里,该算法提高了主题爬虫的速度,并且随着网页数量的增加,该算法具有良好的准确率和稳定性。 展开更多
关键词 主题爬虫 Shark-search算法 PAGERANK算法 垂直搜索
下载PDF
基于Elasticsearch的京津冀水环境搜索引擎的设计与实现 被引量:5
8
作者 张会清 张乐 《自动化技术与应用》 2020年第11期29-36,共8页
针对京津冀水环境信息资源出口不一、范围不同,且不能得到精确检索的问题,本文采用Elasticsearch分布式索引检索技术,将京津冀水环境数据资源进行融合共享,构建了京津冀水环境搜索引擎系统。该系统包括数据采集、数据索引、数据检索、... 针对京津冀水环境信息资源出口不一、范围不同,且不能得到精确检索的问题,本文采用Elasticsearch分布式索引检索技术,将京津冀水环境数据资源进行融合共享,构建了京津冀水环境搜索引擎系统。该系统包括数据采集、数据索引、数据检索、界面展示四个模块。重点对搜索的评分机制做了改进并对检索内容进行重排序。通过实验表明,与通用搜索引擎以及传统数据库相比,所实现的搜索引擎系统可以更加准确、快速地实现用户的检索需求。 展开更多
关键词 搜索引擎 Elasticsearch 排序算法 网络爬虫
下载PDF
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现 被引量:2
9
作者 吐尔洪.吾司曼 维尼拉.木沙江 《新疆大学学报(自然科学版)》 CAS 2009年第1期103-106,共4页
搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.
关键词 网页爬行器 搜索引擎 网页相似度比较
下载PDF
WebCollector和ElasticSearch在高校网站群敏感词检测中的应用研究 被引量:2
10
作者 钱红兵 李艳丽 张蕊 《电子设计工程》 2019年第24期11-14,19,共5页
在高校信息化建设过程中,建设了大量的网站,这些网站发布的信息和展示的内容很可能含有国家法律禁止或者学校规定禁止的敏感词汇,针对从海量的网站信息中定位到敏感词汇的目的,本文采用了文献研究法、个案研究法及实证研究法,通过研究... 在高校信息化建设过程中,建设了大量的网站,这些网站发布的信息和展示的内容很可能含有国家法律禁止或者学校规定禁止的敏感词汇,针对从海量的网站信息中定位到敏感词汇的目的,本文采用了文献研究法、个案研究法及实证研究法,通过研究相关材料文献和技术文档,研究相关系统设计案例,结合实际情况设计和实现一个能运行的系统,得出基于Webcollector爬虫框架和ElasticSearch搜索引擎设计和实现网站群敏感词检测系统的可行性。 展开更多
关键词 WebCollector Elasticsearch 敏感词检测 爬虫 搜索引擎
下载PDF
Website Search Engine Optimization: Geographical and Cultural Point of View
11
作者 Osama Rababah Muhannad Al-Shboul +1 位作者 Fawaz Al-Zaghoul Rawan Ghnemat 《Journal of Software Engineering and Applications》 2014年第13期1087-1095,共9页
The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on... The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on search engines, preferably on the first page of the results page. The purpose of this research study is to analyze the influence of local geographical area, in terms of cultural values, and the effect of local society keywords in increasing Website visibility. Websites were analyzed by accessing the source code of their homepages through Google Chrome browser. Statistical analysis methods were selected to assess and analyze the results of the SEO and search engine visibility (SEV). The results obtained suggest that the development of Web indicators to be included should consider a local idea of visibility, and consider a certain geographical context. The geographical region that the researchers are considering in this research is the Hashemite kingdom of Jordan (HKJ). The results obtained also suggest that the use of social culture keywords leads to increase the Website visibility in search engines as well as localizes the search area such as google.jo, which localizes the search for HKJ. 展开更多
关键词 search ENGINE OPTIMIZATION Web crawlers search ENGINE Algorithms search ENGINE VISIBILITY JORDAN
下载PDF
基于Python的聚焦网络爬虫的设计与实现 被引量:3
12
作者 唐文军 隆承志 《计算机与数字工程》 2023年第4期845-849,共5页
针对如何快速、精准地检索门户网站信息的问题,设计和实现基于Python语言的聚焦网络爬虫。首先分析聚焦网络爬虫的爬取数据流程,明确爬虫的基本原理;在爬取数据流程的基础上,设计聚焦网络爬虫的通用结构模型;最后,利用Python语言库实现... 针对如何快速、精准地检索门户网站信息的问题,设计和实现基于Python语言的聚焦网络爬虫。首先分析聚焦网络爬虫的爬取数据流程,明确爬虫的基本原理;在爬取数据流程的基础上,设计聚焦网络爬虫的通用结构模型;最后,利用Python语言库实现聚焦网络爬虫,并以广东省政府采购网的招标信息的爬取为实例验证该聚焦网络爬虫的可用性。 展开更多
关键词 聚焦网络爬虫 PYTHON语言 门户 广度爬行策略
下载PDF
基于Python技术的校园网搜索引擎设计 被引量:2
13
作者 闫丽丽 《信息与电脑》 2023年第17期183-185,共3页
传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)... 传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)去重策略优化校园信息查询流程,最后分析Scrapy爬虫框架爬虫防禁止策略。 展开更多
关键词 校园网搜索引擎 Python技术 Scrapy爬虫框架
下载PDF
领域相关的Web网站抓取方法 被引量:5
14
作者 李刚 周立柱 +1 位作者 郭奇 林玲 《计算机科学》 CSCD 北大核心 2007年第2期137-140,148,共5页
本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方... 本文提出了一种抓取领域相关的Web站点的方法,可以在较小的代价下准确地收集用户所关心领域内的网站。这种方法主要改进了传统的聚焦爬虫(Focused Crawler)技术,首先利用Meta-Search技术来改进传统Crawler的通过链接分析来抓取网页的方法,而后利用启发式搜索大大降低了搜索代价,通过引入一种评价领域相关性的打分方法,达到了较好的准确率。本文详细地描述了上述算法并通过详细的实验验证了算法的效率和效果。 展开更多
关键词 META-search 聚焦爬虫(Focused crawler) 启发式搜索
下载PDF
面向主题的垂直搜索引擎系统的研究与实现 被引量:10
15
作者 施佺 王恒山 +1 位作者 肖仰华 丁卫平 《微电子学与计算机》 CSCD 北大核心 2011年第7期1-4,8,共5页
针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过... 针对通用搜索引擎的信息量大、查询不准确、深度不够等问题,给出了面向主题的垂直搜索引擎的体系结构,设计了垂直搜索引擎系统的爬行策略,对系统核心信息采集模块运用了多线程技术及基于VSM的主题相关度判断算法进行主题网页爬行,并通过Lucene.Net的索引与检索技术建立系统的检索算法,实现了一个面向特定主题的垂直搜索引擎应用系统.实验测试结果表明,该系统具有较高的提取效率,其检索的准确率、召回率均大大高于通用搜索引擎,具有较好的实用价值和商业应用前景. 展开更多
关键词 垂直搜索 网络爬虫 LUCENE .Net 正则表达式
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
16
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
农业信息资源整合系统研究与应用 被引量:3
17
作者 孙素芬 罗长寿 +2 位作者 张峻峰 于峰 张树亮 《安徽农业科学》 CAS 北大核心 2007年第22期6993-6994,6997,共3页
应用中间件、元搜索及网络爬虫等技术与思想构建农业信息资源整合系统,以期对已有的农业信息资源进行整合,从而为用户提供方便服务。
关键词 农业信息资源 整合 中间件 元搜索 爬虫
下载PDF
面向P2P搜索的可定制聚焦网络爬虫 被引量:5
18
作者 方启明 杨广文 +2 位作者 武永卫 朱安平 郑纬民 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第S2期148-152,共5页
提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性... 提出了一种可定制聚焦网络爬虫技术.该技术采用简单的主题描述方法提高网络爬虫的可定制性,利用基于站点页面链接结构的链接导航技术实现对主题信息的高效抓取,通过配置文件实施定制,从而构建一个资源消耗小、数据采集准确性高、可控性强的轻量级聚焦网络爬虫,以满足P2P搜索的需求.文中进一步提出一种增量更新和批量更新相结合的网络爬虫数据更新机制,这种混合更新机制降低了增量更新的实现复杂性,相比批量更新具有更小的资源消耗,实验表明采用这种机制能达到较高的数据新鲜度和召回率. 展开更多
关键词 P2P搜索 聚焦网络爬虫 链接导航 增量更新 批量更新
下载PDF
主题网络爬虫研究综述 被引量:103
19
作者 于娟 刘强 《计算机工程与科学》 CSCD 北大核心 2015年第2期231-237,共7页
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎... 网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。 展开更多
关键词 网络爬虫 主题爬虫 搜索引擎
下载PDF
化学主题网络爬虫的设计和实现 被引量:6
20
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部