期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于Lucene的Web搜索引擎的研究和实现 被引量:7
1
作者 周凤丽 林晓丽 《计算机技术与发展》 2012年第1期140-142,160,共4页
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站... 互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。 展开更多
关键词 网络爬虫 应用系统 搜索引擎 多线程
下载PDF
RL_Spider:一种自主垂直搜索引擎网络爬虫 被引量:2
2
作者 黄蔚 刘忠 刘全 《计算机应用与软件》 CSCD 2011年第12期183-187,共5页
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制"经验信息",根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大... 在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制"经验信息",根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。 展开更多
关键词 可控强化学习 垂直搜索引擎 网络爬虫
下载PDF
搜索引擎的Web Robot技术与优化 被引量:6
3
作者 崔泽永 常晓燕 《微机发展》 2004年第4期99-101,112,共4页
针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的WebRobot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的WebRobot的方法,改进后的WebRobot能... 针对目前如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求,文中对搜索引擎作了概述,重点阐述了搜索引擎的WebRobot搜索器的搜索策略、文档提取以及搜索优化措施,提出了改进搜索引擎的WebRobot的方法,改进后的WebRobot能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的WebRobot保证了为用户提供的网上信息的全面性和实时性。 展开更多
关键词 INTERNET 搜索引擎 web ROBOT 网页数据 WWW 优化
下载PDF
Web搜索引擎技术综述 被引量:5
4
作者 宋春阳 金可音 《现代计算机》 2008年第5期82-85,共4页
在现代网络飞速发展的带动下,搜索引擎技术引起了广泛的研究。从Web搜索引擎的背景、定义、分类、工作原理、网页信息采集技术,以及发展趋势方面来做一个简要的综述,来介绍国内外主要的搜索引擎。
关键词 web 搜索引擎 网络蜘蛛
下载PDF
基于WebLech的内容搜索引擎设计
5
作者 戴明星 杜彦辉 《计算机工程》 CAS CSCD 北大核心 2008年第9期278-280,共3页
网络蜘蛛WebLech是一种优秀的Web站点下载开源工具。该文分析WebLech的特点和工作流程,完善WebLech的起始地址设置,并丰富其链接和所获取的网页类型。使用改进后的WebLech设计了一款能在用户设置的IP范围内进行搜索的基于内容的搜索引擎。
关键词 webLech开源软件 网络蜘蛛 搜索引擎
下载PDF
非贪婪策略在WEB搜索中的应用
6
作者 李学勇 欧阳柳波 李国徽 《中央民族大学学报(自然科学版)》 2004年第3期235-239,257,共6页
 传统专业搜索引擎采用贪婪的链接选择策略,导致整体回报率较低.本文提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法.针对国外四所著名大学计算机系网站中论文资源的搜索实验表明,新的算法可以有效提...  传统专业搜索引擎采用贪婪的链接选择策略,导致整体回报率较低.本文提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法.针对国外四所著名大学计算机系网站中论文资源的搜索实验表明,新的算法可以有效提高搜索效率. 展开更多
关键词 非贪婪策略 web搜索 网络蜘蛛 专业搜索引擎 启发式搜索策略
下载PDF
面向计算机领域的垂直搜索引擎设计 被引量:1
7
作者 姜华 《软件》 2023年第9期113-115,共3页
本文以互联网计算领域的网站内容为采集对象,基于开源全文搜索软件Lucene设计并实现了具有专门搜索功能的搜索引擎。本文在采用FishSearch算法主题相关性搜索策略基础上提出正则规则的搜索策略,采用域名地址搜索策略和广度优先搜索策略... 本文以互联网计算领域的网站内容为采集对象,基于开源全文搜索软件Lucene设计并实现了具有专门搜索功能的搜索引擎。本文在采用FishSearch算法主题相关性搜索策略基础上提出正则规则的搜索策略,采用域名地址搜索策略和广度优先搜索策略,增加更深度的人工分析,提高了垂直搜索引擎的有效性。 展开更多
关键词 搜索引擎 垂直搜索引擎 网络蜘蛛 LUCENE
下载PDF
专业搜索引擎搜索策略综述 被引量:34
8
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《计算机工程》 CAS CSCD 北大核心 2004年第13期32-33,46,共3页
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
生活服务领域垂直搜索引擎的设计与实现 被引量:8
9
作者 汲业 陈燕 +1 位作者 杨健 慕蓉 《计算机工程》 CAS CSCD 北大核心 2010年第24期24-26,共3页
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户... 根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。 展开更多
关键词 垂直搜索 网络蜘蛛 信息抽取 搜索引擎
下载PDF
网络蜘蛛搜索策略进展研究 被引量:8
10
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《小型微型计算机系统》 CSCD 北大核心 2005年第4期703-706,共4页
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研... 网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研究的问题. 展开更多
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
搜索引擎中页面更新策略的分析与改进 被引量:6
11
作者 文坤梅 卢正鼎 +1 位作者 叶卫国 金莉 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第12期3-5,共3页
网上信息资源不断变化 ,搜索引擎需要不断更新它所访问过的网页 ,提高更新效率是搜索引擎的关键技术所在 .在总结搜索引擎现有页面更新技术的基础上 ,对两种不同的页面更新策略 (统一更新策略和个体更新策略 )进行了比较 ,指出了两种方... 网上信息资源不断变化 ,搜索引擎需要不断更新它所访问过的网页 ,提高更新效率是搜索引擎的关键技术所在 .在总结搜索引擎现有页面更新技术的基础上 ,对两种不同的页面更新策略 (统一更新策略和个体更新策略 )进行了比较 ,指出了两种方案的优劣所在 ,进而提出了一种改进的折衷方案即分类更新策略 ,并从理论上论证了其优越性 ,在实际应用中评价了其有效性 。 展开更多
关键词 搜索引擎 更新度 网页 更新策略
下载PDF
主题搜索引擎中网络爬虫的搜索策略研究 被引量:37
12
作者 李勇 韩亮 《计算机工程与科学》 CSCD 2008年第3期4-6,56,共4页
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核... 本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法—EPR算法。 展开更多
关键词 搜索引擎 网络蜘蛛 搜索策略 主题提取
下载PDF
主题搜索引擎中爬虫搜索策略的研究 被引量:15
13
作者 史宝明 贺元香 吴崇正 《计算机工程与应用》 CSCD 2014年第2期116-119,128,共5页
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL... 为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。 展开更多
关键词 网络爬虫 主题搜索引擎 搜索策略 向量空间模型
下载PDF
主题搜索ROBOT综合爬行策略的研究 被引量:6
14
作者 吴安清 张颖江 涂军 《武汉理工大学学报》 EI CAS CSCD 北大核心 2006年第2期74-76,共3页
在分析、评价常用主题搜索ROBOT爬行策略的基础上,将三重过滤技术与改进的Shark启发式搜索算法相结合,设计了自动主题搜索引擎ROBOT的综合爬行策略。由于综合爬行策略在爬行中兼顾了网页的相关性、主题精度和网页质量,因此应用综合爬行... 在分析、评价常用主题搜索ROBOT爬行策略的基础上,将三重过滤技术与改进的Shark启发式搜索算法相结合,设计了自动主题搜索引擎ROBOT的综合爬行策略。由于综合爬行策略在爬行中兼顾了网页的相关性、主题精度和网页质量,因此应用综合爬行策略在Web上下载主题相关网页时,既可利用链接分析扩大某个主题的资源覆盖度,又可保证搜索结果与主题高度相关。 展开更多
关键词 主题搜索引擎 网络爬虫 综合爬行策略
下载PDF
基于Lucene的搜索引擎的研究与应用 被引量:12
15
作者 张俊 李鲁群 周熔 《计算机技术与发展》 2013年第6期230-232,共3页
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和... 互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。 展开更多
关键词 LUCENE 网络爬虫 索引 搜索 新闻搜索引擎
下载PDF
基于语义分析的垂直搜索网络蜘蛛 被引量:8
16
作者 罗立宏 陈志 《计算机工程与设计》 CSCD 北大核心 2008年第18期4662-4665,4812,共5页
通用搜索引擎数据量庞大,但查询结果不够准确。分类目录正好相反。为了综合两者优势,对垂直搜索引擎进行了研究和分析。着重研究了垂直搜索引擎的核心模块——智能网络搜索蜘蛛。提出了搜索分析的新概念——规则。研究了蜘蛛中定义支持... 通用搜索引擎数据量庞大,但查询结果不够准确。分类目录正好相反。为了综合两者优势,对垂直搜索引擎进行了研究和分析。着重研究了垂直搜索引擎的核心模块——智能网络搜索蜘蛛。提出了搜索分析的新概念——规则。研究了蜘蛛中定义支持同义词的语义词典的方法,给出了按照规则分析和检索的实现方法和流程。程序需要定义多种规则,让蜘蛛依照规则进行网页爬行和信息采集。最后给出一个项目实例,证明了上述方法的可行性。 展开更多
关键词 计算机应用 互联网 搜索引擎 垂直搜索 网络蜘蛛 语义分析
下载PDF
基于Lucene.Net校园网搜索引擎的设计与实现 被引量:14
17
作者 蔡建超 郭一平 王亮 《计算机技术与发展》 2006年第11期73-75,80,共4页
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利... 在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。 展开更多
关键词 搜索引擎 爬虫 索引
下载PDF
基于Lucene的校园网智能搜索引擎的设计与实现 被引量:4
18
作者 董李鹏 高东怀 +2 位作者 张迎 靳豪杰 孟颖翔 《现代电子技术》 2013年第6期83-86,共4页
为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网... 为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网智能搜索引擎,搜索引擎在搜索功能、信息监管、系统安全、智能交互方面都有所提升。搜索引擎可为校内用户提供决策性的搜索帮助,且搜索结果的期望值较高。 展开更多
关键词 网络爬虫 LUCENE 校园网 智能搜索引擎 索引系统
下载PDF
基于搜索引擎调用的主题搜索设计与实现 被引量:1
19
作者 陈财森 王韬 +1 位作者 郑伟 陈建泗 《计算机工程与设计》 CSCD 北大核心 2008年第21期5627-5629,共3页
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术。通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限... 网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术。通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度、多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息。 展开更多
关键词 主题搜索 搜索引擎 网络蜘蛛 多线程 正则表达式
下载PDF
基于TF-IDF改进算法的聚焦主题网络爬虫 被引量:16
20
作者 王景中 邱铜相 《计算机应用》 CSCD 北大核心 2015年第10期2901-2904,2919,共5页
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进... 针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。 展开更多
关键词 网络爬虫 语义分析 搜索引擎 TF-IDF 主题爬虫 文档相似度
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部