期刊文献+
共找到257篇文章
< 1 2 13 >
每页显示 20 50 100
基于神经网络的增量式crawler重访频率研究 被引量:1
1
作者 周英飚 王军 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第12期32-33,45,共3页
crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有... crawler是搜索引擎必备的核心组件 ,以何种频率对变化的Web页面进行重访是增量式crawler要解决的主要问题 .结合人工神经网络建立页面变化模型 ,由模型确定增量式crawler重访时间 ,同时分析模型在实践中的应用 ,提出一种应用方案 ,具有较好的自适应性 . 展开更多
关键词 搜索引擎 crawler 增量式crawler 神经网络
下载PDF
面向主题Crawler的设计与实现 被引量:1
2
作者 苗长芬 冯伟华 《平原大学学报》 2005年第3期110-112,共3页
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础.
关键词 crawler 主题搜索引擎 相关度
下载PDF
维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现 被引量:2
3
作者 吐尔洪.吾司曼 维尼拉.木沙江 《新疆大学学报(自然科学版)》 CAS 2009年第1期103-106,共4页
搜索引擎网页爬行器的任务是收集网页,而收集能力的好坏直接影响搜索结果.本文提出了维、哈、柯多文种搜索引擎中网页爬行器的结构及其设计方案.
关键词 网页爬行器 搜索引擎 网页相似度比较
下载PDF
Weighted PageRank Algorithm Search Engine Ranking Model for Web Pages 被引量:1
4
作者 S.Samsudeen Shaffi I.Muthulakshmi 《Intelligent Automation & Soft Computing》 SCIE 2023年第4期183-192,共10页
As data grows in size,search engines face new challenges in extracting more relevant content for users’searches.As a result,a number of retrieval and ranking algorithms have been employed to ensure that the results a... As data grows in size,search engines face new challenges in extracting more relevant content for users’searches.As a result,a number of retrieval and ranking algorithms have been employed to ensure that the results are relevant to the user’s requirements.Unfortunately,most existing indexes and ranking algo-rithms crawl documents and web pages based on a limited set of criteria designed to meet user expectations,making it impossible to deliver exceptionally accurate results.As a result,this study investigates and analyses how search engines work,as well as the elements that contribute to higher ranks.This paper addresses the issue of bias by proposing a new ranking algorithm based on the PageRank(PR)algorithm,which is one of the most widely used page ranking algorithms We pro-pose weighted PageRank(WPR)algorithms to test the relationship between these various measures.The Weighted Page Rank(WPR)model was used in three dis-tinct trials to compare the rankings of documents and pages based on one or more user preferences criteria.Thefindings of utilizing the Weighted Page Rank model showed that using multiple criteria to rankfinal pages is better than using only one,and that some criteria had a greater impact on ranking results than others. 展开更多
关键词 Weighted pagerank algorithms search engines web pages web crawlers World Wide Web
下载PDF
Website Search Engine Optimization: Geographical and Cultural Point of View
5
作者 Osama Rababah Muhannad Al-Shboul +1 位作者 Fawaz Al-Zaghoul Rawan Ghnemat 《Journal of Software Engineering and Applications》 2014年第13期1087-1095,共9页
The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on... The concept of Webpage visibility is usually linked to search engine optimization (SEO), and it is based on global in-link metric [1]. SEO is the process of designing Webpages to optimize its potential to rank high on search engines, preferably on the first page of the results page. The purpose of this research study is to analyze the influence of local geographical area, in terms of cultural values, and the effect of local society keywords in increasing Website visibility. Websites were analyzed by accessing the source code of their homepages through Google Chrome browser. Statistical analysis methods were selected to assess and analyze the results of the SEO and search engine visibility (SEV). The results obtained suggest that the development of Web indicators to be included should consider a local idea of visibility, and consider a certain geographical context. The geographical region that the researchers are considering in this research is the Hashemite kingdom of Jordan (HKJ). The results obtained also suggest that the use of social culture keywords leads to increase the Website visibility in search engines as well as localizes the search area such as google.jo, which localizes the search for HKJ. 展开更多
关键词 search engine OPTIMIZATION Web crawlers search engine Algorithms search engine VISIBILITY JORDAN
下载PDF
基于Java的网络爬虫算法的实现
6
作者 李晖 《电脑与信息技术》 2024年第3期1-4,共4页
该设计在实现多个抓取线程管理和利用线程池发送抓取网页的同时,采用非递归爬行算法,利用Java多线程技术和基于内存的作业队列来增加、分配和处理运行过程中的URL。搜索引擎简易客户端的设计最终采用JSP(Java Server Pages)技术完成。
关键词 网络爬虫 搜索引擎 JSP
下载PDF
基于Shark-Search和Hits算法的主题爬虫研究 被引量:18
7
作者 罗林波 陈绮 吴清秀 《计算机技术与发展》 2010年第11期76-79,共4页
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于... 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。 展开更多
关键词 主题爬虫 爬行策略 垂直搜索引擎
下载PDF
基于VSM与HITS融合的扩展主题型爬虫
8
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
9
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 Web信息搜集 链接价值 主题漂移
下载PDF
基于Elasticsearch的京津冀水环境搜索引擎的设计与实现 被引量:5
10
作者 张会清 张乐 《自动化技术与应用》 2020年第11期29-36,共8页
针对京津冀水环境信息资源出口不一、范围不同,且不能得到精确检索的问题,本文采用Elasticsearch分布式索引检索技术,将京津冀水环境数据资源进行融合共享,构建了京津冀水环境搜索引擎系统。该系统包括数据采集、数据索引、数据检索、... 针对京津冀水环境信息资源出口不一、范围不同,且不能得到精确检索的问题,本文采用Elasticsearch分布式索引检索技术,将京津冀水环境数据资源进行融合共享,构建了京津冀水环境搜索引擎系统。该系统包括数据采集、数据索引、数据检索、界面展示四个模块。重点对搜索的评分机制做了改进并对检索内容进行重排序。通过实验表明,与通用搜索引擎以及传统数据库相比,所实现的搜索引擎系统可以更加准确、快速地实现用户的检索需求。 展开更多
关键词 搜索引擎 Elasticsearch 排序算法 网络爬虫
下载PDF
WebCollector和ElasticSearch在高校网站群敏感词检测中的应用研究 被引量:2
11
作者 钱红兵 李艳丽 张蕊 《电子设计工程》 2019年第24期11-14,19,共5页
在高校信息化建设过程中,建设了大量的网站,这些网站发布的信息和展示的内容很可能含有国家法律禁止或者学校规定禁止的敏感词汇,针对从海量的网站信息中定位到敏感词汇的目的,本文采用了文献研究法、个案研究法及实证研究法,通过研究... 在高校信息化建设过程中,建设了大量的网站,这些网站发布的信息和展示的内容很可能含有国家法律禁止或者学校规定禁止的敏感词汇,针对从海量的网站信息中定位到敏感词汇的目的,本文采用了文献研究法、个案研究法及实证研究法,通过研究相关材料文献和技术文档,研究相关系统设计案例,结合实际情况设计和实现一个能运行的系统,得出基于Webcollector爬虫框架和ElasticSearch搜索引擎设计和实现网站群敏感词检测系统的可行性。 展开更多
关键词 WebCollector Elasticsearch 敏感词检测 爬虫 搜索引擎
下载PDF
基于Python技术的校园网搜索引擎设计 被引量:2
12
作者 闫丽丽 《信息与电脑》 2023年第17期183-185,共3页
传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)... 传统搜索引擎模式存在新消息获取不及时、无法搜索通用引擎等问题,为此设计基于Python技术的校园网搜索引擎。首先分析搜索引擎的建立流程,其次分析Scrapy爬虫框架的工作原理,再次借助统一资源定位系统(Uniform Resource Locator,URL)去重策略优化校园信息查询流程,最后分析Scrapy爬虫框架爬虫防禁止策略。 展开更多
关键词 校园网搜索引擎 Python技术 Scrapy爬虫框架
下载PDF
主题Web信息采集技术 被引量:1
13
作者 杜欢 《四川理工学院学报(自然科学版)》 CAS 2007年第5期10-13,共4页
在互联网高速发展的今天,搜索引擎逐渐成为用户在Web上获取信息的主要工具。传统的通用搜索引擎利用一个Crawler程序面向整个Web进行信息采集,它的缺点是采集无针对性、页面失效率高、不能满足特定专业人群的需要。针对这种情况,需要一... 在互联网高速发展的今天,搜索引擎逐渐成为用户在Web上获取信息的主要工具。传统的通用搜索引擎利用一个Crawler程序面向整个Web进行信息采集,它的缺点是采集无针对性、页面失效率高、不能满足特定专业人群的需要。针对这种情况,需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。 展开更多
关键词 搜索引擎 WEB crawler 主题搜索引擎
下载PDF
基于Node.JS的轻量级定向爬虫算法的设计与应用 被引量:1
14
作者 刘书影 《哈尔滨师范大学自然科学学报》 CAS 2016年第6期26-29,共4页
首先介绍了网络爬虫的定义,给出其分类及工作原理,最后在介绍垂直爬虫Web magic框架的基础上,设计并实现了基于Node.JS的轻量级网络爬虫,并应用于交通应急网站新闻抓取模块,效果较好.
关键词 网络爬虫 Web MAGIC 搜索引擎 LIGHT crawler
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
15
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
一种通用Web信息采集系统的设计与实现 被引量:11
16
作者 吴丽辉 王斌 余智华 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期123-124,194,共3页
介绍了一种通用的Web信息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。
关键词 WEB信息 通用性 采集系统 服务器 信息发布 信息采集 设计 证明 实际 系统总体结构
下载PDF
爬行虫算法设计与程序实现 被引量:14
17
作者 杜亚军 严兵 宋亮 《计算机应用》 CSCD 北大核心 2004年第1期33-35,共3页
爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 18... 爬行虫算法是搜索引擎探讨的热点。通过分析现有爬行虫算法设计和程序实现的主要方式 ,权衡其利弊 ,总结出一个适合于中小型网站网页下载的爬行虫算法。并使用jBuider8.0工具实现了该算法。通过实验分析 ,该程序下载的网页数的速度为 1882 4 2个网页 /分和 4 1.92 74 .5 9KB/秒。 展开更多
关键词 爬行虫算法 爬行虫程序 搜索引擎
下载PDF
面向主题的网页搜索系统 被引量:12
18
作者 宋聚平 王永成 +1 位作者 尹中航 滕伟 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第3期401-403,共3页
论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判... 论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判断 .SATWP采用在客户端的智能代理记录用户的浏览行为 ,并把有关信息反馈给服务器 ,服务器根据这些信息随时调整数据库中相关网页的重要性顺序 ,增加了自身的学习功能 .试验结果表明 。 展开更多
关键词 定题搜索 搜索引擎 网页重要性 超链分析
下载PDF
专业搜索引擎搜索策略综述 被引量:34
19
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《计算机工程》 CAS CSCD 北大核心 2004年第13期32-33,46,共3页
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
化学主题网络爬虫的设计和实现 被引量:6
20
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部