期刊文献+
共找到70篇文章
< 1 2 4 >
每页显示 20 50 100
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
1
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息Web服务 服务检索 爬虫 主题相关度
下载PDF
一种基于主题相关度的网页排序算法 被引量:3
2
作者 吴炜 梁昆 +2 位作者 李瑞轩 辜希武 卢正鼎 《微电子学与计算机》 CSCD 北大核心 2008年第9期221-224,共4页
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上... 针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率. 展开更多
关键词 网页排序 主题相关度 链接分析 向量空间模型
下载PDF
基于网页标题的主题相关度算法的研究
3
作者 赵德平 蔡立静 +1 位作者 李鹏 刘阳 《计算机光盘软件与应用》 2010年第16期36-38,共3页
首先,给出了主题爬虫的概念;然后介绍了主题相关度计算的两种模型:布尔模型和空间向量模型;通过对两种模型进行分析,提出了一种基于网页标题的空间向量模型主题相关度计算方法Relative。经过试验分析,该算法具有很好的实用性,基... 首先,给出了主题爬虫的概念;然后介绍了主题相关度计算的两种模型:布尔模型和空间向量模型;通过对两种模型进行分析,提出了一种基于网页标题的空间向量模型主题相关度计算方法Relative。经过试验分析,该算法具有很好的实用性,基于该算法的主题爬虫系统能够在Web上爬取高度主题相关的网页,极大的提高了网络爬虫的效率。 展开更多
关键词 空间向量模型 网页标题 主题相关度 布尔模型 主题爬虫
下载PDF
基于改进的Page Rank算法的网页主题相关度分析研究
4
作者 普措才仁 齐爱琴 《电子技术与软件工程》 2018年第9期254-255,共2页
基于链接分析的经典算法Page Rank,其页面转移概率被平均分配到链出页面,新页面链接较少,所以PR值较低,出现在最后反馈结果中的排序靠后,影响用户信息获取效率和准确度,而冗余信息对用户的干扰使用是信息检索领域探究的焦点。文章分析... 基于链接分析的经典算法Page Rank,其页面转移概率被平均分配到链出页面,新页面链接较少,所以PR值较低,出现在最后反馈结果中的排序靠后,影响用户信息获取效率和准确度,而冗余信息对用户的干扰使用是信息检索领域探究的焦点。文章分析经典算法Page Rank的优缺点,并提出基于主题相关性的Page Rank算法改进策略,实施重新排序,结果证明改进后的算法提高查询效率和质量,具有良好的稳定性,具备可拓展性。 展开更多
关键词 改进PageRank算法 网页主题相关度 主题漂移
下载PDF
基于改进PageRank的情报主题相关度预测策略 被引量:1
5
作者 韩宇 黄青松 《微型电脑应用》 2010年第3期48-50,71,共3页
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的Pag... 选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的PageRank算法—Focused PageRank算法来计算网页URL优先级。该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率。从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集。 展开更多
关键词 情报采集 主题相关度 重要度 PAGERANK
下载PDF
基于动态匹配的主题相关度判定算法 被引量:1
6
作者 郑敏 《微电子学与计算机》 CSCD 北大核心 2012年第1期105-108,共4页
本文在基于元数据的判定方法和基于网页内容的语义判定方法的基础上,借鉴哈弗曼编码的思想,提出了一种基于动态匹配的主题相关度算法.该算法通过分析输入数据的类型来采用相适应的判定方法.实验结果表明,从准确率和速度相统一的角度看,... 本文在基于元数据的判定方法和基于网页内容的语义判定方法的基础上,借鉴哈弗曼编码的思想,提出了一种基于动态匹配的主题相关度算法.该算法通过分析输入数据的类型来采用相适应的判定方法.实验结果表明,从准确率和速度相统一的角度看,本文提出的主题相关度算法要优于现有算法. 展开更多
关键词 主题相关度 主题型搜索引擎 okapi公式
下载PDF
主题爬虫的主题相关度算法研究
7
作者 徐杨 王未央 《现代计算机(中旬刊)》 2016年第5期48-51,63,共5页
主题爬虫核心问题是主题的相关性判别问题。如何在爬取过程中,快速、准确地判别爬取页面的主题相关度,是决定主题爬虫搜索策略好坏的关键所在。提出利用两步向量空间模型计算的方法进行主题识别,并将基于两步向量空间模型的主题爬虫与... 主题爬虫核心问题是主题的相关性判别问题。如何在爬取过程中,快速、准确地判别爬取页面的主题相关度,是决定主题爬虫搜索策略好坏的关键所在。提出利用两步向量空间模型计算的方法进行主题识别,并将基于两步向量空间模型的主题爬虫与传统基于一步向量空间模型的主题爬虫进行比较,实验表明基于两步向量空间的主题爬虫在主题相关度判别和执行效率方面都有较好的表现,同时对"隧道现象"也有一定的改善。 展开更多
关键词 搜索引擎 网络爬虫 主题相关度 向量空间模型
下载PDF
基于本体的主题相关度算法研究 被引量:3
8
作者 徐德智 郭渭莉 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第S1期51-54,共4页
互联网上信息是海量的,并且还在快速的发展.面向主题的Web信息检索已成为当前研究的热点之一.将语义网技术同传统的信息检索技术相结合,给出一个利用本体判断主题相关度的判断算法,通过实验验证了算法的有效性.
关键词 信息采集 本体 语义网 主题相关度
原文传递
用户反馈式主题相关度算法研究
9
作者 谢明山 邓艳芳 《网络安全技术与应用》 2014年第8期94-94,96,共2页
主题相关度算法是搜索引擎的重要组成部分,影响搜索引擎的用户体验.本文将语义网技术同传统的信息检索技术相结合,并参考知识本体,给出一个利用用户反馈的判断主题相关度的判断算法,通过实验验证了算法能有效提高用户搜索的准确率和召... 主题相关度算法是搜索引擎的重要组成部分,影响搜索引擎的用户体验.本文将语义网技术同传统的信息检索技术相结合,并参考知识本体,给出一个利用用户反馈的判断主题相关度的判断算法,通过实验验证了算法能有效提高用户搜索的准确率和召回率。 展开更多
关键词 信息采集 知识本体 语义网 主题相关度
原文传递
基于语义相关度主题爬虫的语料采集方法 被引量:5
10
作者 周昆 王钊 于碧辉 《计算机系统应用》 2019年第5期190-195,共6页
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容... 针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%. 展开更多
关键词 生语料采集 语义相关度主题爬虫 页面信息相关度 URL结构信息
下载PDF
基于用户兴趣与主题相关的PageRank算法改进研究 被引量:14
11
作者 王冲 纪仙慧 《计算机科学》 CSCD 北大核心 2016年第3期275-278,312,共5页
针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的PageRank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预... 针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的PageRank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预测用户兴趣度的升降,同时结合网页内容引入主题相关度因子,共同对网页PR值进行适当的修正,使其分配更为合理。仿真实验结果表明,在相同的实验环境下,改进的PageRank算法提升了网页排序质量、查准率以及用户搜索满意度。 展开更多
关键词 PAGERANK 用户兴趣 线性拟合 兴趣度预测 主题相关度
下载PDF
基于主题相关与用户历史的网页排序算法 被引量:2
12
作者 林婷薇 莫路锋 薛晨杰 《计算机工程与设计》 北大核心 2019年第8期2265-2269,2277,共6页
基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询... 基于链接结构的PageRank排序算法,存在平均分配权值、主题漂移、忽视用户兴趣等问题。针对这些问题,结合搜索词与网页关键词以及用户搜索历史与网页关键词之间的相似度,提出基于主题相关度与用户历史的PageRank改进算法THPR。通过查询词与网页关键词的相关性分析解决网页的相关程度,通过对用户历史搜索记录的分析,在算法中增加用户兴趣度,使PR值分配更为合理。仿真结果表明,THPR算法与PageRank算法相比,查准率与用户搜索满意度有明显提升。 展开更多
关键词 排序算法 主题相关度 用户历史搜索 相似度 用户兴趣
下载PDF
基于贝叶斯分类器的主题爬虫研究 被引量:17
13
作者 邹永斌 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2009年第9期3418-3420,3439,共4页
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器... 主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。 展开更多
关键词 贝叶斯 分类器 主题爬虫 主题相关度
下载PDF
基于领域本体的主题信息采集方法 被引量:7
14
作者 郑国良 叶飞跃 +1 位作者 林国俊 耿冬 《计算机应用》 CSCD 北大核心 2008年第12期3274-3277,共4页
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中... 基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中词条间的语义关系,从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。通过实验,比较了提出的方法与基于关键词方法的实验数据,进一步说明了方法的可行性。 展开更多
关键词 主题相关度 领域本体 向量空间模型 相关度分析 词频率
下载PDF
主题爬虫的设计与实现 被引量:40
15
作者 汪涛 樊孝忠 《计算机应用》 CSCD 北大核心 2004年第S1期270-272,共3页
文章以主题相关度为核心研究了设计主题爬虫的相关技术 ,通过实验给出了具体实现。实验结果充分论证了其可行性与实用性 ,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础。
关键词 搜索引擎 主题爬虫 主题相关度 链接分析 信息采集
下载PDF
基于遗传算法的主题爬虫策略 被引量:14
16
作者 刘国靖 康丽 罗长寿 《计算机应用》 CSCD 北大核心 2007年第B12期172-174,179,共4页
针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜... 针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页。 展开更多
关键词 主题爬虫 遗传算法 主题相关度 搜索引擎
下载PDF
一种主题知识自增长的聚焦网络爬虫 被引量:9
17
作者 李东晖 廖晓兰 +2 位作者 范辅桥 黄九鸣 陈雪刚 《计算机应用与软件》 CSCD 北大核心 2014年第5期29-33,88,共6页
聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中... 聚焦网络爬虫是各类因特网文本挖掘和信息检索应用必需的处理步骤。现有聚焦网络爬虫面临着知识描述困难、误差易被放大等挑战。发现网页中主题知识存在的若干性质,提出一种主题知识自增长的聚焦网络爬虫KAG-Crawler,在网页爬取过程中采用一种无监督的学习技术不断扩展主题知识,从而使爬虫在一个简单的初始主题描述条件下,能够以较高正确率爬取大量网页。同时为便于主题知识的扩展,还提出一种新的主题表示模型,并基于该模型构建了新的网页主题和URL主题相关度方法。最后在真实环境下的实验表明,KAG-Crawler的性能显著高于传统基于文本相似度的聚焦网络爬虫。 展开更多
关键词 聚焦网络爬虫 无监督学习 知识扩展 主题相关度
下载PDF
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法 被引量:5
18
作者 刘景发 顾瑶平 刘文杰 《计算机应用》 CSCD 北大核心 2020年第8期2255-2261,共7页
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征... 针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 展开更多
关键词 主题爬虫 禁忌搜索 本体 主题相关度 气象灾害
下载PDF
基于主题本体的信息采集模型研究 被引量:4
19
作者 拜战胜 徐德智 +1 位作者 彭佳红 陈光仪 《计算机技术与发展》 2009年第10期102-105,109,共5页
互联网上的海量信息,至今还在快速发展,面向主题的信息检索已成为当前的研究热点之一。在提高信息检索的精度方面,一般认为本体技术是解决方法之一。在对领域本体技术和传统的基于主题的信息采集技术的基础上,设计了一个基于领域本体的... 互联网上的海量信息,至今还在快速发展,面向主题的信息检索已成为当前的研究热点之一。在提高信息检索的精度方面,一般认为本体技术是解决方法之一。在对领域本体技术和传统的基于主题的信息采集技术的基础上,设计了一个基于领域本体的信息采集模型,给出了模型的体系结构,提出了一种关键词加权的词性相关性计算方法以及利用领域本体及对应的词典判定主题相关度的算法。通过实验验证了所提出的方法在提高检索的准确率方面具有明显的优势。 展开更多
关键词 主题本体 领域本体 信息采集 主题相关度
下载PDF
主题爬虫技术研究综述 被引量:5
20
作者 陈方 谭爱平 +1 位作者 成亚玲 文益民 《湖南工业职业技术学院学报》 2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改... 万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。 展开更多
关键词 普通爬虫 主题爬虫 链接分析 主题相关度 页面概念 主题概念
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部