-
题名主题蜘蛛的设计与实现
被引量:3
- 1
-
-
作者
宋宇
孟祥增
-
机构
山东师范大学教育技术系
-
出处
《郑州大学学报(理学版)》
CAS
2007年第2期42-45,49,共5页
-
基金
山东省自然科学基金资助项目
编号y2005G21
-
文摘
针对多媒体资源在网上的分布特点,采用链接类型过滤、网页内容过滤、链接内容过滤三层过滤和临时页面存储、目标页面存储、中间链接存储、更新存储四层存储机制,设计并实现了一个对包含多媒体资源(音频、视频和Flash动画)的网页进行搜集的主题蜘蛛.实验结果显示,该主题蜘蛛能有效提高查准率.
-
关键词
主题蜘蛛
链接过滤
内容过滤
-
Keywords
focused-spider
link filter
content filter
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向主题的网络蜘蛛技术研究及系统实现
被引量:13
- 2
-
-
作者
张博
蔡皖东
-
机构
西北工业大学计算机学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2009年第5期52-55,共4页
-
文摘
首先研究了面向主题的网络蜘蛛的关键技术:抓取目标描述、网页分析算法和网页搜索策略等,在此基础上,设计并实现了一个面向主题的网络蜘蛛系统(简称主题蜘蛛),采用向量空间模型来计算网页的主题相关度,使用改进的Shark-Search网页搜索策略来决定待抓取链接的访问次序,从种子网页开始,只爬行具有较高预测相关度的链接,仅采集与主题相关的网页,多线程对网页进行下载和分析,提高了主题网页采集的精度.
-
关键词
信息收集
主题蜘蛛
相关度计算
搜索策略
-
Keywords
information gathering
topic spider
relevance calculation
search strategy
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的主题网络蜘蛛搜索算法
被引量:18
- 3
-
-
作者
林海霞
原福永
陈金森
刘俊峰
-
机构
燕山大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第10期174-176,共3页
-
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
-
关键词
主题网络蜘蛛
Best—First算法
召回率
-
Keywords
topic web crawler
Best-First algorithm
recall ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名主题网络蜘蛛搜索策略贪婪性解决方法
被引量:4
- 4
-
-
作者
林海霞
原福永
陈金森
-
机构
燕山大学信息科学与工程学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2006年第z1期278-280,共3页
-
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
-
关键词
主题网络蜘蛛
Best-First算法
召回率
-
Keywords
Topic web crawler, Best-first algorithm, Recall ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
被引量:5
- 5
-
-
作者
陈小海
周娅
-
机构
桂林电子科技大学计算机与控制学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2009年第10期126-128,共3页
-
基金
广西自然科学基金资助项目(桂科青0832101)
-
文摘
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
-
关键词
主题网络蜘蛛
隧道穿越
主题相似度
-
Keywords
topical web crawler
tunneling
topical similarity
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名面向教育主题的垂直搜索引擎的设计与实现
被引量:1
- 6
-
-
作者
王树文
郑阔实
陈竟博
-
机构
吉林省计算中心
中共吉林省委党校(吉林省行政学院)
吉林大学计算机科学与技术学院
-
出处
《长春师范学院学报(自然科学版)》
2013年第2期40-44,共5页
-
基金
吉林省科技发展计划项目(20100709)
-
文摘
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制、基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。实现了教育资源的共享,具有较高的应用价值。
-
关键词
垂直搜索引擎
主题网络蜘蛛
主题相关度
-
Keywords
vertical search engine
topic web spider
subject relativity
-
分类号
TG156
[金属学及工艺—热处理]
-
-
题名一个基础教育网站搜索引擎的设计与实现
被引量:2
- 7
-
-
作者
陈权
曹卓文
杨晓江
-
机构
南京师范大学教育技术系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第6期70-73,共4页
-
文摘
在研究网站元数据的基础上,介绍一个以基础教育网站为检索对象的搜索引擎系统。结合基础教育网站的特点,分析该系统的关键技术,如主题蜘蛛搜索、网站分类、网站信息提取等,并对系统的整体架构、功能模块进行详细描述。
-
关键词
主题蜘蛛
网站分类
信息提取
搜索引擎
-
Keywords
Topic spider Website classification Information extraction Search engine
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于本体的语义检索系统的研究
被引量:1
- 8
-
-
作者
宋艳娟
陈振标
张文德
-
机构
福建农林大学计算机与信息学院
福州大学图书馆
-
出处
《计算机与数字工程》
2009年第7期77-80,共4页
-
文摘
面向语义是提高检索效率的有效途径。基于本体技术,提出了一个面向特定领域的信息检索模型,重点研究了结合本体的信息收集、信息抽取以及语义推理技术,并分析了模型在手机本体领域的应用。通过本体的语义推理,提高了检索系统的查全率和查准率。
-
关键词
领域本体
语义检索
主题蜘蛛
信息抽取
LUCENE
-
Keywords
domain ontology, semantic retrieve, subject spider, information extraction, Lucene
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Flash资源智能搜索系统架构与关键技术研究
- 9
-
-
作者
谭金波
-
机构
山东师范大学传播学院
-
出处
《山东师范大学学报(自然科学版)》
CAS
2010年第1期79-81,共3页
-
基金
山东省高等学校科技计划基金资助项目(J09LG33)
山东省科技发展计划基金资助项目(2008GG30001007).
-
文摘
通过对Flash资源网站页面特征的分析,本文提出Flash资源智能搜索系统的架构,定义了Flash资源的“元数据结构”,阐述了该系统的总体设计思想,着重分析了系统的一些关键技术及实现方法,如特征提取、主题式蜘蛛、Flash资源分类等,并对系统模块详细描述.
-
关键词
Flash资源
智能搜索
主题式蜘蛛
自动分类
-
Keywords
Flash resource
intelligent search
topic spider
automatic classification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名开放存取期刊网站结构和页面分类研究
被引量:4
- 10
-
-
作者
钱建立
刘军兰
张薇
-
机构
空军工程大学电讯工程学院
陕西省科技信息研究所
-
出处
《情报杂志》
CSSCI
北大核心
2009年第7期137-140,117,共5页
-
基金
陕西省科学技术研究发展计划项目"科技论文开放获取搜索引擎研究"(编号:2007K04-11)
-
文摘
通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案。
-
关键词
开放存取
网站结构
页面分类
主题蜘蛛
-
分类号
G352.1
[文化科学—情报学]
-
-
题名BERSE:一个基于机器学习的专业化搜索引擎
被引量:2
- 11
-
-
作者
谭金波
李艺
杨晓江
-
机构
山东师范大学传播学院
南京师范大学教育技术系
-
出处
《中国远程教育》
CSSCI
北大核心
2008年第5期65-67,共3页
-
文摘
随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我们在搜索引擎中引进机器学习机制,针对基础教育设计并实现了一个基于机器学习的专业化搜索引擎BERSE,其关键技术是只追踪基础教育信息的主题蜘蛛和文本分类器,从而加快信息的检索与更新,并且具有很高的查全率和查准率。
-
关键词
专业化搜索引擎
机器学习
主题蜘蛛
文本分类
-
分类号
G40-057
[文化科学—教育学原理]
-