期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种主题型Web爬行器的设计和实现 被引量:1
1
作者 张秋惠 谢延华 《漯河职业技术学院学报》 2006年第3期21-22,共2页
随着WWW的迅猛发展,对获取和分析与特定主题相关的网页变得越来越来困难了。本文在对主题型Web搜索的关键技术及其实现要点进行研究和分析后,设计和实现了一个主题搜索引擎核心部分———主题型Web爬行器的原型。
关键词 WEB信息搜索 主题爬行 实现
下载PDF
MatchLink:一种主题爬行方法
2
作者 蒋宗礼 鲁国相 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第11期1227-1232,共6页
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先... 为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。 展开更多
关键词 主题爬行器 文档向量模型 朴素贝叶斯
下载PDF
基于OSS的主题搜索引擎设计与实现 被引量:1
3
作者 李春旺 《现代图书情报技术》 CSSCI 北大核心 2007年第1期49-52,共4页
在分析主题搜索引擎体系结构之后,提出基于OSS的系统实现策略,重点讨论主题建模方法、主题相关度算法以及基于相同代码规范、基于Web Service接口规范、基于JNI接口规范的开源系统集成实现技术。
关键词 主题爬行器 搜索引擎 开放源码软件 系统设计与实现
下载PDF
基于多分类器组合择优方法的主题爬行分类策略
4
作者 乔建忠 《图书情报工作》 CSSCI 北大核心 2013年第14期114-120,共7页
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个... 针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。 展开更多
关键词 主题爬行技术 主题爬行器 网页分类 分类算法 多分类组合 分类准确率 分类效率
原文传递
需求驱动的主题爬行技术研究 被引量:2
5
作者 乔建忠 《图书情报工作》 CSSCI 北大核心 2011年第13期108-111,146,共5页
主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的... 主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。 展开更多
关键词 主题爬行技术 需求驱动 主题爬行器 组合爬行技术
原文传递
一种基于统计特征面向“类型”主题抓取的网页相关性判断策略研究 被引量:3
6
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2012年第6期9-16,共8页
为满足主题爬行器在线分类的轻量化设计要求,提出一种基于多项表示网络文档类型的统计特征实现网页按类型进行主题相关性判断的策略;借助WEKA提供的API,为该主题相关性判断策略设计相应的训练算法和分类算法。通过分类准确率、效率和特... 为满足主题爬行器在线分类的轻量化设计要求,提出一种基于多项表示网络文档类型的统计特征实现网页按类型进行主题相关性判断的策略;借助WEKA提供的API,为该主题相关性判断策略设计相应的训练算法和分类算法。通过分类准确率、效率和特征选择实验,证明该主题相关性判断策略的有效性以及5项对类型识别起关键作用的统计特征。 展开更多
关键词 相关性判断策略 主题爬行器 主题搜索 数字图书馆
原文传递
一种基于改进BFS算法的主题搜索技术研究 被引量:1
7
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2013年第7期28-35,共8页
通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表... 通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。 展开更多
关键词 主题搜索 搜索算法 最好优先搜索算法 主题爬行器 特征因子
原文传递
面向主题搜索的特征因子研究综述
8
作者 乔建忠 《图书情报工作》 CSSCI 北大核心 2012年第17期143-147,121,共6页
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用... 通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用、综合运用各类特征的通用化链接优先级计算公式以及特征选取原则。 展开更多
关键词 主题爬行技术 主题爬行器 特征因子 搜索算法
原文传递
基于锚与链接文本扩展的KBES算法隧道策略 被引量:1
9
作者 乔建忠 《现代图书情报技术》 CSSCI 北大核心 2011年第3期45-50,共6页
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。
关键词 主题搜索 隧道技术 搜索算法 主题爬行器
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部