期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
主题蜘蛛的设计与实现 被引量:3
1
作者 宋宇 孟祥增 《郑州大学学报(理学版)》 CAS 2007年第2期42-45,49,共5页
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜... 针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率. 展开更多
关键词 主题蜘蛛 链接过滤 内容过滤
下载PDF
面向主题的网络蜘蛛技术研究及系统实现 被引量:13
2
作者 张博 蔡皖东 《微电子学与计算机》 CSCD 北大核心 2009年第5期52-55,共4页
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索... 首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度. 展开更多
关键词 信息收集 主题蜘蛛 相关度计算 搜索策略
下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
3
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
下载PDF
主题网络蜘蛛搜索策略贪婪性解决方法 被引量:4
4
作者 林海霞 原福永 陈金森 《微电子学与计算机》 CSCD 北大核心 2006年第z1期278-280,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best-First算法 召回率
下载PDF
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 被引量:5
5
作者 陈小海 周娅 《计算机工程与科学》 CSCD 北大核心 2009年第10期126-128,共3页
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出... 隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。 展开更多
关键词 主题网络蜘蛛 隧道穿越 主题相似度
下载PDF
面向教育主题的垂直搜索引擎的设计与实现 被引量:1
6
作者 王树文 郑阔实 陈竟博 《长春师范学院学报(自然科学版)》 2013年第2期40-44,共5页
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒... 由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。实现了教育资源的共享,具有较高的应用价值。 展开更多
关键词 垂直搜索引擎 主题网络蜘蛛 主题相关度
下载PDF
一个基础教育网站搜索引擎的设计与实现 被引量:2
7
作者 陈权 曹卓文 杨晓江 《现代图书情报技术》 CSSCI 北大核心 2007年第6期70-73,共4页
在研究网站元数据的基础上,介绍一个以基础教育网站为检索对象的搜索引擎系统。结合基础教育网站的特点,分析该系统的关键技术,如主题蜘蛛搜索、网站分类、网站信息提取等,并对系统的整体架构、功能模块进行详细描述。
关键词 主题蜘蛛 网站分类 信息提取 搜索引擎
下载PDF
一种基于本体的语义检索系统的研究 被引量:1
8
作者 宋艳娟 陈振标 张文德 《计算机与数字工程》 2009年第7期77-80,共4页
面向语义是提高检索效率的有效途径。基于本体技术,提出了一个面向特定领域的信息检索模型,重点研究了结合本体的信息收集、信息抽取以及语义推理技术,并分析了模型在手机本体领域的应用。通过本体的语义推理,提高了检索系统的查全率和... 面向语义是提高检索效率的有效途径。基于本体技术,提出了一个面向特定领域的信息检索模型,重点研究了结合本体的信息收集、信息抽取以及语义推理技术,并分析了模型在手机本体领域的应用。通过本体的语义推理,提高了检索系统的查全率和查准率。 展开更多
关键词 领域本体 语义检索 主题蜘蛛 信息抽取 LUCENE
下载PDF
Flash资源智能搜索系统架构与关键技术研究
9
作者 谭金波 《山东师范大学学报(自然科学版)》 CAS 2010年第1期79-81,共3页
通过对Flash资源网站页面特征的分析,本文提出Flash资源智能搜索系统的架构,定义了Flash资源的“元数据结构”,阐述了该系统的总体设计思想,着重分析了系统的一些关键技术及实现方法,如特征提取、主题式蜘蛛、Flash资源分类等,并... 通过对Flash资源网站页面特征的分析,本文提出Flash资源智能搜索系统的架构,定义了Flash资源的“元数据结构”,阐述了该系统的总体设计思想,着重分析了系统的一些关键技术及实现方法,如特征提取、主题式蜘蛛、Flash资源分类等,并对系统模块详细描述. 展开更多
关键词 Flash资源 智能搜索 主题蜘蛛 自动分类
下载PDF
开放存取期刊网站结构和页面分类研究 被引量:4
10
作者 钱建立 刘军兰 张薇 《情报杂志》 CSSCI 北大核心 2009年第7期137-140,117,共5页
通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘... 通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案。 展开更多
关键词 开放存取 网站结构 页面分类 主题蜘蛛
下载PDF
BERSE:一个基于机器学习的专业化搜索引擎 被引量:2
11
作者 谭金波 李艺 杨晓江 《中国远程教育》 CSSCI 北大核心 2008年第5期65-67,共3页
随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我们在搜索引擎中引进机器学习机制,针对基础教... 随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我们在搜索引擎中引进机器学习机制,针对基础教育设计并实现了一个基于机器学习的专业化搜索引擎BERSE,其关键技术是只追踪基础教育信息的主题蜘蛛和文本分类器,从而加快信息的检索与更新,并且具有很高的查全率和查准率。 展开更多
关键词 专业化搜索引擎 机器学习 主题蜘蛛 文本分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部