期刊文献+
共找到202篇文章
< 1 2 11 >
每页显示 20 50 100
节点对等Web Spider设计与实现
1
作者 张林才 张燕 王红霞 《计算机技术与发展》 2010年第3期195-198,202,共5页
由于互联网具有海量信息并且快速增长,提高搜索引擎的信息采集器Web Spider的数据采集和更新速度有重要意义。受计算资源限制,单机多线程Web Spider的采集速率不高。带中心节点的分布式并行Web Spider又容易产生中心节点瓶颈问题。利用P... 由于互联网具有海量信息并且快速增长,提高搜索引擎的信息采集器Web Spider的数据采集和更新速度有重要意义。受计算资源限制,单机多线程Web Spider的采集速率不高。带中心节点的分布式并行Web Spider又容易产生中心节点瓶颈问题。利用ProActive网格网络并行分布计算中间件提供的主动对象技术、网络并行计算技术、自动部署机制等设计和实现了一个名为P-Spider2.0的节点对等的分布式并行Web Spider,并设计了一个基于Raibin算法的URL去重算法。实验表明该Web Spider方便管理和部署,并且比单机多线程Web Spider具有更高的采集速率。 展开更多
关键词 网络爬虫 PROACTIVE 并行 分布式 节点对等
下载PDF
Web Page Forensics:A Web Spider Based Approach
2
作者 Ya-Dong Li Dong-Hui Hu +1 位作者 Yu-Qi Fan Xin-Dong Wu 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2014年第6期46-50,共5页
Cyber-crimes are growing rapidly,so it is important to obtain the digital evidence on the web page.Usually,people can examine the browser history on the client side and data files on the server side,but both of them h... Cyber-crimes are growing rapidly,so it is important to obtain the digital evidence on the web page.Usually,people can examine the browser history on the client side and data files on the server side,but both of them have shortcomings in real criminal investigation.To overcome the weakness,this paper designs a web page forensic scheme to snapshot the pages from web servers with the help of web spider.Also,it designs several steps to improve the trustworthiness of these pages.All the pages will be dumped in local database which can be presented as reliable evidence on the court. 展开更多
关键词 web page digital forensics web spider
下载PDF
基于ProActive的分布式并行WebSpider设计
3
作者 张林才 梁正友 《计算机工程》 CAS CSCD 北大核心 2008年第19期47-48,52,共3页
单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-S... 单机Web Spider的数据采集速度较慢,采用MPI技术或直接用Java开发分布式Web Spider代价较高。该文利用ProActive中间件提供的主动对象技术、网络并行计算技术、自动部署机制设计实现了P-Spider分布式并行Web Spider。实验结果表明,该P-Spider采集速率是单机多线程Web Spider的2.2倍。 展开更多
关键词 web spider程序 ProActive中间件 并行 分布式
下载PDF
Economic analysis of spider web airline networks
4
作者 Wen-dong Yang, Jin-fu Zhu, Qiang Gao,Wen-fang Wang College of Civil Aviation, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China. 《Journal of Pharmaceutical Analysis》 SCIE CAS 2009年第1期49-53,共5页
The distinct network organization, management, service and operating characteristics of US Southwest Airlines are key elements of its success compared with other airlines. As a network organization type, the spider we... The distinct network organization, management, service and operating characteristics of US Southwest Airlines are key elements of its success compared with other airlines. As a network organization type, the spider web airline network has received more attention. In this paper, we analyzed the relation between the spider web airline network and spider web, and the structure of spider web airline network, built the assignment model of the spider web airline network,and investigated the economics concerned. 展开更多
关键词 spider web spider web airline network economic analysis
下载PDF
面向Web论坛的网络信息获取技术及系统实现 被引量:7
5
作者 彭冬 蔡皖东 《计算机工程与科学》 CSCD 北大核心 2011年第1期157-160,共4页
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,... 网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。 展开更多
关键词 网络爬虫 web论坛 正文提取 主题相关度
下载PDF
基于Lucene的Web搜索引擎的研究和实现 被引量:7
6
作者 周凤丽 林晓丽 《计算机技术与发展》 2012年第1期140-142,160,共4页
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站... 互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。 展开更多
关键词 网络爬虫 应用系统 搜索引擎 多线程
下载PDF
RL_Spider:一种自主垂直搜索引擎网络爬虫 被引量:2
7
作者 黄蔚 刘忠 刘全 《计算机应用与软件》 CSCD 2011年第12期183-187,共5页
在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制"经验信息",根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大... 在分析相关spider技术的基础上,提出了将强化学习技术应用到垂直搜索引擎的可控网络爬虫方法。该方法通过强化学习技术得到一些控制"经验信息",根据这些信息来预测较远的回报,按照某一主题进行搜索,以使累积返回的回报值最大。将得到的网页存储、索引,用户通过搜索引擎的搜索接口,就可以得到最佳的搜索结果。对多个网站进行主题爬虫搜索,实验结果表明,该方法对于网络的查全率和查准率都具有较大的提高。 展开更多
关键词 可控强化学习 垂直搜索引擎 网络爬虫
下载PDF
基于ProActive的P-Spider1.0改进
8
作者 张林才 梁正友 王红霞 《计算机工程》 CAS CSCD 北大核心 2010年第17期288-290,共3页
针对带中心节点结构的分布式并行Web Spider的中心节点负担过重、通信负载不均衡、可扩展性差的问题,提出基于Rabin指纹算法的URL去重改进算法和节点对等结构的改进方案,利用ProActive中间件设计开发改进的分布式并行Web Spider。对比... 针对带中心节点结构的分布式并行Web Spider的中心节点负担过重、通信负载不均衡、可扩展性差的问题,提出基于Rabin指纹算法的URL去重改进算法和节点对等结构的改进方案,利用ProActive中间件设计开发改进的分布式并行Web Spider。对比实验表明,改进后的Web Spider采集效率更高,通信负载均衡,无节点瓶颈问题,具有良好的可扩展性。 展开更多
关键词 网络蜘蛛 ProActive中间件 节点对等 分布式 中心节点
下载PDF
Web搜索引擎技术综述 被引量:5
9
作者 宋春阳 金可音 《现代计算机》 2008年第5期82-85,共4页
在现代网络飞速发展的带动下,搜索引擎技术引起了广泛的研究。从Web搜索引擎的背景、定义、分类、工作原理、网页信息采集技术,以及发展趋势方面来做一个简要的综述,来介绍国内外主要的搜索引擎。
关键词 web 搜索引擎 网络蜘蛛
下载PDF
基于WebLech的内容搜索引擎设计
10
作者 戴明星 杜彦辉 《计算机工程》 CAS CSCD 北大核心 2008年第9期278-280,共3页
网络蜘蛛WebLech是一种优秀的Web站点下载开源工具。该文分析WebLech的特点和工作流程,完善WebLech的起始地址设置,并丰富其链接和所获取的网页类型。使用改进后的WebLech设计了一款能在用户设置的IP范围内进行搜索的基于内容的搜索引擎。
关键词 webLech开源软件 网络蜘蛛 搜索引擎
下载PDF
中文WEB文档自动分类系统的设计与实现
11
作者 张小刚 杨凯 冉天保 《微计算机信息》 北大核心 2008年第30期244-246,共3页
中文WEB文档自动分类是中文自动信息检索的核心技术之一。中文WEB文档的分类涉及到文档的自动抓取、信息加工和提取、自动分类等,本文实现一个开放式的中文WEB文档自动分类系统,并在系统模块中应用了几个改进算法,主要解决目前信息检索... 中文WEB文档自动分类是中文自动信息检索的核心技术之一。中文WEB文档的分类涉及到文档的自动抓取、信息加工和提取、自动分类等,本文实现一个开放式的中文WEB文档自动分类系统,并在系统模块中应用了几个改进算法,主要解决目前信息检索中涉及中文分词搜索时所遇到的一些问题。 展开更多
关键词 网络蜘蛛 中文分词 文档频度 NAIVE 贝叶斯分类器
下载PDF
基于Web的专用爬虫的研究
12
作者 夏道勋 谢晓尧 《贵州师范大学学报(自然科学版)》 CAS 2009年第3期92-95,共4页
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分... 网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。 展开更多
关键词 专用爬虫 web内容挖掘 超文本分类器 提取器
下载PDF
遗传算法在主题Web信息采集中的应用研究 被引量:5
13
作者 唐志 王成良 《计算机科学》 CSCD 北大核心 2006年第7期71-74,共4页
传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,... 传统的基于本地搜索算法的信息采集系统存在诸如主题漂移和采集结果局部最优等问题。在深入研究Web拓扑结构基础上,利用网络蜘蛛的在线状态,提出了基于全局信息的、动态综合了链接的立即回报价值和未来回报价值的遗传算法。通过此算法,利用元搜索技术可进一步提高网络蜘蛛的性能,具有更高的查全率和查准率,能够较好地解决现存问题。 展开更多
关键词 网络蜘蛛 遗传算法 web社区 信息采集
下载PDF
一种改进的T-Spider分布式爬虫 被引量:3
14
作者 金凡 顾进广 《微电子学与计算机》 CSCD 北大核心 2011年第8期102-104,共3页
为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型.该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性.通过实验结果分析,验证了该方法的有效性.
关键词 网络爬虫 T-spider 页面切割 链接优先权计算
下载PDF
云环境下Web应用扫描中的网络爬虫技术探究 被引量:5
15
作者 周大 《信息网络安全》 2012年第5期20-23,共4页
在云计算的大环境下,保护服务器端的Web应用安全变得更加重要。Web应用扫描作为预先发现安全问题的重要手段,现已获得广泛的重视。文章提出,对Web应用扫描的研究离不开对网络爬虫技术的研究,网络爬虫能力直接决定了Web应用漏洞扫描的检... 在云计算的大环境下,保护服务器端的Web应用安全变得更加重要。Web应用扫描作为预先发现安全问题的重要手段,现已获得广泛的重视。文章提出,对Web应用扫描的研究离不开对网络爬虫技术的研究,网络爬虫能力直接决定了Web应用漏洞扫描的检测覆盖面,文章主要从URL的关系出发来介绍Web应用扫描中使用的网络爬虫技术。 展开更多
关键词 云计算 web应用扫描 网络爬虫 DOM URL
下载PDF
一种基于WatiJ的Deep Web蜘蛛研究
16
作者 刘邵斌 张祖平 龙军 《计算机工程》 CAS CSCD 北大核心 2011年第4期264-266,共3页
Deep Web中相当一部分内容因为动态网页存在而不能进行有效抓取。为此,设计并实现一种基于Web自动化测试工具——WatiJ的Deep Web网络蜘蛛。阐述利用WatiJ实现用户提交查询表单、循环点击翻页按钮等拟人交互方式的原理,通过实例给出动... Deep Web中相当一部分内容因为动态网页存在而不能进行有效抓取。为此,设计并实现一种基于Web自动化测试工具——WatiJ的Deep Web网络蜘蛛。阐述利用WatiJ实现用户提交查询表单、循环点击翻页按钮等拟人交互方式的原理,通过实例给出动态网页抓取的关键步骤。实验结果表明,该蜘蛛是针对授权数据源进行动态网页抓取的一种有效解决方案。 展开更多
关键词 动态网页 自动化测试 网络蜘蛛
下载PDF
一个典型的Web安全评测工具的分析与改进
17
作者 宋海龄 文伟平 《信息网络安全》 2011年第8期65-68,共4页
文章较全面地分析和总结了现有的Web漏洞挖掘技术及工具,以开源的Web漏洞扫描工具Paros Proxy为研究对象,对Paros Proxy的爬虫模块及检测模块进行深入研究和分析,进而对其进行改进。经测试,改进后的Paros爬虫模块支持JavaScript URLs的... 文章较全面地分析和总结了现有的Web漏洞挖掘技术及工具,以开源的Web漏洞扫描工具Paros Proxy为研究对象,对Paros Proxy的爬虫模块及检测模块进行深入研究和分析,进而对其进行改进。经测试,改进后的Paros爬虫模块支持JavaScript URLs的解析及爬行,可以提取到更多的网页链接,而改进后的检测模块,在漏洞检测性能及效率上也有明显提高。 展开更多
关键词 网络爬虫 漏洞检测 线程池 web应用
下载PDF
非贪婪策略在WEB搜索中的应用
18
作者 李学勇 欧阳柳波 李国徽 《中央民族大学学报(自然科学版)》 2004年第3期235-239,257,共6页
 传统专业搜索引擎采用贪婪的链接选择策略,导致整体回报率较低.本文提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法.针对国外四所著名大学计算机系网站中论文资源的搜索实验表明,新的算法可以有效提...  传统专业搜索引擎采用贪婪的链接选择策略,导致整体回报率较低.本文提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法.针对国外四所著名大学计算机系网站中论文资源的搜索实验表明,新的算法可以有效提高搜索效率. 展开更多
关键词 非贪婪策略 web搜索 网络蜘蛛 专业搜索引擎 启发式搜索策略
下载PDF
基于语义的Web招聘信息抽取关键技术的研究 被引量:2
19
作者 张晓孪 王西锋 《微型电脑应用》 2019年第6期69-70,77,共3页
随着互联网技术的应用,大量求职者期望能从招聘网站中快速、精准获取有用信息,因此分析并抽取这些网站中的招聘信息具有实际应用的价值.针对Web信息抽取技术在招聘信息系统中的应用,提出了一种基于语义的Web招聘信息抽取的方法,首先是... 随着互联网技术的应用,大量求职者期望能从招聘网站中快速、精准获取有用信息,因此分析并抽取这些网站中的招聘信息具有实际应用的价值.针对Web信息抽取技术在招聘信息系统中的应用,提出了一种基于语义的Web招聘信息抽取的方法,首先是构建主题蜘蛛程序抓取网页,然后对预处理过的网页中的命名实体进行识别.经测试采用本文提出的方法进行信息抽取是可行的,命名实体识别的准确率和召回率能达到71%以上. 展开更多
关键词 语义 web招聘信息抽取 蜘蛛程序 命名实体识别
下载PDF
蜘蛛网流道冷板冷却液对向流锂离子电池散热分析
20
作者 刘显茜 曹军磊 +1 位作者 李文辉 曾朴 《材料导报》 EI CAS CSCD 北大核心 2024年第4期10-15,共6页
锂离子电池工作温度过高或温差过大将导致其容量降低和寿命缩短。为了降低其工作温度及温差,设计了一款蜘蛛网流道冷板,采用数值方法对其冷却液对向流锂离子电池散热进行了计算。比较了蜘蛛网流道冷板冷却液对向流与同向流锂离子电池的... 锂离子电池工作温度过高或温差过大将导致其容量降低和寿命缩短。为了降低其工作温度及温差,设计了一款蜘蛛网流道冷板,采用数值方法对其冷却液对向流锂离子电池散热进行了计算。比较了蜘蛛网流道冷板冷却液对向流与同向流锂离子电池的散热情况,分析了冷却液流量以及冷板内流道夹角、槽深、壁厚对电池散热的影响。结果表明:与冷却液同向流电池相比,冷却液对向流电池最高温度、温差都降低,电池温度分布更加均匀。在0.02~0.06 kg/s区间,随着冷却液流量增大,电池最高温度和温差快速降低,而冷却液压降缓慢增大;当冷却液流量大于0.06 kg/s时,随着冷却液流量增大,电池最高温度和温差缓慢降低,而冷却液压降快速增大。增大流道夹角可使流道在冷板内分布更加均匀,提高冷板散热能力。当冷却液质量流量恒定时,增大流道槽深可使冷却液压降显著减小,但会引起电池最高温度和温差略微升高。随着流道壁厚增大,电池最高温度和温差均呈下降趋势。蜘蛛网流道冷板在流道夹角80°、槽深1 mm、壁厚2 mm、冷却液流量0.06 kg/s对向流冷却条件下,可使锂离子电池3C放电最高温度和温差降至31.02℃和4.54℃。 展开更多
关键词 蜘蛛网流道 对向流 散热 锂离子电池
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部