期刊文献+
共找到237篇文章
< 1 2 12 >
每页显示 20 50 100
融合BTM与TextCNN的文本语义增强主题爬虫研究
1
作者 艾芳菊 尹虓寅 《软件导刊》 2024年第3期21-26,共6页
在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全... 在拥有海量数据的信息时代,如何高效精准地检索到所需信息是一项巨大挑战,主题爬虫是获取某个特定领域信息的有效途径。通用的主题相似度计算通常是基于词粒度的特征表达,而忽略了文本整体的主题特征表达,会影响爬虫系统的查准率和查全率。对此,提出融合BTM与TextCNN模型的主题爬虫,将内容主题判别模块当作文本分类问题研究,通过融合BTM得到的文本主题向量与Word2vec词向量以增强文本语义信息,利用卷积神经网络提升判别模块的精确度,弥补了传统卷积神经网络分类模型中文本特征表示不充分的问题。实验结果表明,在开源新闻文本分类数据集(THUCNews)和自定义爬取的真实论文数据集中,融合BTM与TextCNN模型在测试集中的平均分类精准率分别为93.7%和91.3%,比只采用TextCNN的平均分类精确率分别提升了0.6、1.3个百分点。 展开更多
关键词 主题爬虫 主题相似度 TextCNN BTM Word2vec
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:10
2
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
基于概念分析的主题爬虫设计 被引量:10
3
作者 汪涛 樊孝忠 +1 位作者 顾益军 刘林 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第10期890-893,共4页
研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比... 研究改进主题爬虫设计的方法,用高效的主题爬虫取代传统搜索引擎中的普通爬虫,以更高的精度完成定向信息采集.在成功实现基于关键词的主题爬虫的基础上,提出了基于概念的主题相关度分析算法,给出了基于概念分析的主题爬虫的实现方案.比较两种主题爬虫工作的实验结果,显示爬虫的性能得到了提高,论证了该设计的可行性与可操作性,为实现准确的定向信息采集奠定了良好的基础. 展开更多
关键词 搜索引擎 主题爬虫 概念分析 相关度 信息采集
下载PDF
基于贝叶斯分类器的主题爬虫研究 被引量:17
4
作者 邹永斌 陈兴蜀 王文贤 《计算机应用研究》 CSCD 北大核心 2009年第9期3418-3420,3439,共4页
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器... 主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。 展开更多
关键词 贝叶斯 分类器 主题爬虫 主题相关度
下载PDF
主题爬虫的设计与实现 被引量:40
5
作者 汪涛 樊孝忠 《计算机应用》 CSCD 北大核心 2004年第S1期270-272,共3页
文章以主题相关度为核心研究了设计主题爬虫的相关技术 ,通过实验给出了具体实现。实验结果充分论证了其可行性与实用性 ,为进行主题搜索引擎设计和主题信息采集奠定了良好的基础。
关键词 搜索引擎 主题爬虫 主题相关度 链接分析 信息采集
下载PDF
基于遗传算法的主题爬虫策略 被引量:14
6
作者 刘国靖 康丽 罗长寿 《计算机应用》 CSCD 北大核心 2007年第B12期172-174,179,共4页
针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜... 针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页。 展开更多
关键词 主题爬虫 遗传算法 主题相关度 搜索引擎
下载PDF
主题爬虫的搜索策略研究 被引量:26
7
作者 刘汉兴 刘财兴 《计算机工程与设计》 CSCD 北大核心 2008年第12期3160-3162,3166,共4页
主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺... 主题爬虫收集主题相关信息时,需要评价网页的主题相关度,并优先爬取相关度较高的网页,在决定了搜索路径的同时也决定了主题爬虫的搜索效率。针对不同的网页评价算法,对现有的主题爬虫的搜索策略进行分类,指出了各类搜索策略的特点和优缺点,总结了能够提高主题爬虫搜索效率的几方面内容。 展开更多
关键词 主题爬虫 搜索策略 页面评价 搜索引擎 优化
下载PDF
基于知识库和主题爬虫的南海舆情实时监测研究 被引量:10
8
作者 丁晟春 龚思兰 +1 位作者 周文杰 王曰芬 《情报杂志》 CSSCI 北大核心 2016年第5期32-37,共6页
[目的/意义]为满足对网络舆情的系统研究需求,需要将领域知识库作为重要支撑应用于相关研究中。[方法/过程]首先,研究针对南海问题构建多语种南海舆情监测基本本体,基于该本体实现主题爬虫对舆情信息的采集;接着,基于优化的行块分布正... [目的/意义]为满足对网络舆情的系统研究需求,需要将领域知识库作为重要支撑应用于相关研究中。[方法/过程]首先,研究针对南海问题构建多语种南海舆情监测基本本体,基于该本体实现主题爬虫对舆情信息的采集;接着,基于优化的行块分布正文提取算法实现对舆情信息的正文抽取,获取关键字和摘要;最后,利用HTML5对舆情信息分析结果进行可视化展示。[结果/结论]用户可根据具体需求利用构建的舆情监测系统对舆情信息实现系统的采集、处理和分析。 展开更多
关键词 领域知识库 主题爬虫 网络舆情监测 南海问题
下载PDF
基于图像内容检索的主题爬虫设计方法 被引量:4
9
作者 张磊 林坤辉 +1 位作者 周昌乐 毛红朝 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期182-185,共4页
图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方... 图像主题爬虫能获取网上特定主题的大量图像信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前基于图像内容检索主题爬虫的不足,提出了一种图像主题爬虫的设计方法,设计了一种新的爬虫系统框架,采用了基于颜色累加直方图的方法进行图像的特征提取与特征匹配。最后提出了优化爬虫的方法,改进爬虫的搜索策略,提高了爬虫的搜索效率。 展开更多
关键词 基于图像内容检索 主题爬虫 特征提取 特征匹配
下载PDF
链接分析对主题爬虫的改进 被引量:12
10
作者 汪涛 樊孝忠 《计算机应用》 CSCD 北大核心 2004年第B12期174-176,共3页
在分析总结两种主题爬虫设计的基础之上,研究了用链接分析改进主题爬虫的方法。通 过实验,比较引入链接分析前后的结果,论证了其设计可行性与可操作性,为实现定向信息采集奠定 了良好的基础。
关键词 链接分析 WEB结构挖掘 主题爬虫 相关度 信息采集
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
11
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
一种基于语义分析的主题爬虫算法 被引量:7
12
作者 蒋宗礼 田晓燕 赵旭 《计算机工程与科学》 CSCD 北大核心 2010年第9期145-147,151,共4页
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用... 海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。 展开更多
关键词 主题爬虫 子空间 语义分析 支持向量机
下载PDF
自适应遗传算法在主题爬虫搜索策略中的应用研究 被引量:5
13
作者 荆文鹏 王育坚 董伟伟 《计算机科学》 CSCD 北大核心 2016年第8期254-257,共4页
如何提高爬虫覆盖率和准确率是主题爬虫的研究热点之一。目前大多采用最佳优先搜索策略,针对该类主题爬虫易陷入局部最优的不足,设计结合遗传算法的主题爬虫搜索策略,并设计动态适应度函数和遗传算子使得爬虫具有一定的自适应性。与其... 如何提高爬虫覆盖率和准确率是主题爬虫的研究热点之一。目前大多采用最佳优先搜索策略,针对该类主题爬虫易陷入局部最优的不足,设计结合遗传算法的主题爬虫搜索策略,并设计动态适应度函数和遗传算子使得爬虫具有一定的自适应性。与其他搜索策略以及结合非自适应遗传算法的搜索策略进行了比较,结果表明该算法能够在一定程度上提高爬虫性能。 展开更多
关键词 主题爬虫 重要度 遗传算法 遗传算子 适应度函数
下载PDF
基于Shark-Search和Hits算法的主题爬虫研究 被引量:17
14
作者 罗林波 陈绮 吴清秀 《计算机技术与发展》 2010年第11期76-79,共4页
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于... 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。 展开更多
关键词 主题爬虫 爬行策略 垂直搜索引擎
下载PDF
林业主题爬虫的算法研究与设计 被引量:7
15
作者 袁津生 郭艳芬 《计算机工程与设计》 CSCD 北大核心 2011年第6期2003-2006,共4页
针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结... 针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结果表明,相对于通用搜索引擎,"搜林"减少了搜索结果的信息量,提高了林业主题信息搜索的准确率。 展开更多
关键词 林业 主题爬虫 搜索引擎 鲨鱼算法 相关性
下载PDF
基于遗传算法的主题爬虫策略改进 被引量:4
16
作者 陈一峰 赵恒凯 +1 位作者 余小清 万旺根 《计算机仿真》 CSCD 北大核心 2010年第10期87-90,123,共5页
针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关... 针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高。与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上。 展开更多
关键词 主题爬虫 排序算法 遗传算法 网页信息
下载PDF
基于网页空间进化算法的暴雨灾害主题爬虫策略 被引量:6
17
作者 刘景发 李新 蒋盛益 《计算机工程》 CAS CSCD 北大核心 2019年第2期184-190,共7页
针对单目标优化算法求解爬虫问题时难以获得最优加权因子和易于陷入局部最优的缺点,将多目标优化算法引入主题爬虫,提出一种基于多目标优化的网页空间进化算法。通过计算测试链接与种子链接库中链接的最短距离,将其与种子链接库中所有... 针对单目标优化算法求解爬虫问题时难以获得最优加权因子和易于陷入局部最优的缺点,将多目标优化算法引入主题爬虫,提出一种基于多目标优化的网页空间进化算法。通过计算测试链接与种子链接库中链接的最短距离,将其与种子链接库中所有链接间的平均距离进行比较来更新种子链接库。针对多目标优化中Pareto最优解的选取问题,给出一种最近最远候选解法。实验结果表明,与宽度优先搜索等算法相比,该算法具有较高的爬准率和稳定性。 展开更多
关键词 多目标优化 主题爬虫 网页空间进化算法 PARETO最优 暴雨灾害
下载PDF
基于P2P的分布式主题爬虫系统的设计与实现 被引量:6
18
作者 朱学芳 韩占校 《情报学报》 CSSCI 北大核心 2010年第3期402-407,共6页
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足... 本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。 展开更多
关键词 网络爬虫 对等网络 分布式计算 信息检索 主题爬虫
下载PDF
基于主题爬虫的漏洞库维护系统 被引量:10
19
作者 刘海燕 黄睿 黄轩 《计算机与现代化》 2014年第8期67-70,80,共5页
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善... 漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。 展开更多
关键词 主题爬虫 动态主题 漏洞模型 漏洞库
下载PDF
融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法 被引量:5
20
作者 刘景发 顾瑶平 刘文杰 《计算机应用》 CSCD 北大核心 2020年第8期2255-2261,共7页
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征... 针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 展开更多
关键词 主题爬虫 禁忌搜索 本体 主题相关度 气象灾害
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部