期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
主题网络爬虫研究综述 被引量:131
1
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 WEB挖掘
下载PDF
面向主题的网络竞争情报采集系统 被引量:18
2
作者 吴金红 张玉峰 王翠波 《现代图书情报技术》 CSSCI 北大核心 2006年第12期54-57,61,共5页
分析Web页面的主题特征,构建基于主题的竞争情报采集模型的框架,详细论述面向主题的信息采集策略和采集流程,进而探讨影响信息采集质量的关键因素。
关键词 信息采集 主题搜索 竞争情报
下载PDF
改进空间向量模型主题网络爬虫系统 被引量:7
3
作者 徐明子 吕立 李喜旺 《计算机系统应用》 2013年第7期36-39,52,共5页
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问... 详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性. 展开更多
关键词 主题爬虫 相关度计算 搜索策略 遗传因子
下载PDF
化学主题网络爬虫的设计和实现 被引量:6
4
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
下载PDF
基于主题网络爬虫的不良网页的发现与识别 被引量:2
5
作者 方育柯 傅彦 +1 位作者 周俊临 夏虎 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期26-30,共5页
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络... 针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. 展开更多
关键词 主题网络爬虫 不良网页 文本特征
下载PDF
基于本体语义的定题爬虫 被引量:11
6
作者 郑健珍 林坤辉 +1 位作者 周昌乐 康恺 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期106-110,共5页
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息... 定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. 展开更多
关键词 定题爬虫 主题过滤 本体语义 链接分析
下载PDF
使用联合链接相似度评估爬取Web资源 被引量:6
7
作者 张乃洲 李石君 +1 位作者 余伟 张卓 《计算机学报》 EI CSCD 北大核心 2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接... 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 展开更多
关键词 聚焦爬行 主题相似度 链接评估 Web链接图 Q学习
下载PDF
基于内容和链接分析的主题爬虫策略 被引量:5
8
作者 刘朋 林泓 高德威 《计算机与数字工程》 2009年第1期22-24,80,共4页
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利... 在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫。通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。 展开更多
关键词 主题爬虫 爬行策略 WEB挖掘 论文评估
下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
9
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
下载PDF
我国远程高等教育研究新进展 被引量:7
10
作者 吴亚婕 刘春萱 《开放学习研究》 2017年第1期28-36,共9页
本研究以国内5本较具代表性的远程教育类杂志和3本开设了远程教育专栏的教育技术类杂志的427篇文章为样本,呈现我国远程高等教育研究的现状,探究研究热点及备受关注的研究领域。研究调查分析发现:研究主题主要集中在教学设计、管理与组... 本研究以国内5本较具代表性的远程教育类杂志和3本开设了远程教育专栏的教育技术类杂志的427篇文章为样本,呈现我国远程高等教育研究的现状,探究研究热点及备受关注的研究领域。研究调查分析发现:研究主题主要集中在教学设计、管理与组织、教育技术、学习者特征、远程教育中的研究方法与知识迁移、质量保证研究等方面;研究热点包括MOOC与个性化学习、学习分析技术应用、"互联网+"教学创新、促进在线学习的方法、在线深度学习;方法上研究大多采用思辨研究。 展开更多
关键词 远程高等教育 研究主题 研究热点 研究方法
下载PDF
基于遗传算法的定题信息搜索策略 被引量:5
11
作者 许欢庆 王永成 孙强 《中文信息学报》 CSCD 北大核心 2003年第1期25-31,共7页
定题检索将信息检索限定在特定主题领域 ,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略 ,提高链接于内容相似度不高的网页之... 定题检索将信息检索限定在特定主题领域 ,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略 ,提高链接于内容相似度不高的网页之后的页面被搜索的机会 ,扩大了相关网页的搜索范围。同时 ,借助超链Metadata的提示信息预测链接页面的主题相关度 ,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。 展开更多
关键词 计算机应用 中文信息处理 定题检索 定题信息搜索 遗传算法
下载PDF
基于维基百科和网页分块的主题爬行策略 被引量:5
12
作者 熊忠阳 史艳 张玉芳 《计算机应用》 CSCD 北大核心 2011年第12期3264-3267,共4页
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先... 针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。 展开更多
关键词 主题爬行 维基百科 主题描述 网页分块 相关度计算
下载PDF
基于信息增益的自适应主题爬行策略 被引量:3
13
作者 熊忠阳 史艳 张玉芳 《计算机应用研究》 CSCD 北大核心 2012年第2期501-503,共3页
结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力... 结合信息增益,提出了一种新的自适应主题爬行策略。利用维基百科的分类树和主题描述文档构建主题向量T,并在爬行过程中不断地进行自动学习,反馈更新主题向量空间中每个概念的权重,完善主题描述。实验结果表明,该方法具有增量爬行的能力,并在信息量总和上明显优于基于the interest ratio的自适应策略;且前者所爬取的网页更接近于与主题相关。 展开更多
关键词 主题爬行 维基百科 主题描述 自适应方法 信息增益
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
14
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
基于概念树的主题爬取技术研究 被引量:3
15
作者 曾义聪 杨贯中 刘柯 《科学技术与工程》 2005年第12期785-790,796,共7页
提出了一种新型主题爬取方法。采用概念树构造主题层次图,赋予待爬取URL对象以层次语义信息,按照语义相关性与重要性选择待爬取URL对象,搜索属于特定语义相关主题的重要Web文档的WWW子集。
关键词 概念 概念树 主题爬取 主题层次
下载PDF
基于量子行为进化算法的聚焦爬虫搜索策略 被引量:2
16
作者 刘丽杰 李盼池 张强 《计算机应用研究》 CSCD 北大核心 2012年第11期4280-4283,共4页
针对单一价值评价的聚焦爬虫搜索策略存在主题漂移等问题进行了研究,充分利用量子进化算法所具有的智能性,提出一种新的聚焦爬虫爬行算法。该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦... 针对单一价值评价的聚焦爬虫搜索策略存在主题漂移等问题进行了研究,充分利用量子进化算法所具有的智能性,提出一种新的聚焦爬虫爬行算法。该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦爬虫实际运行过程中的搜索情况,在线调整这两种标准在综合价值中的比重。实验仿真结果表明,相对于单一价值的搜索策略,量子进化算法获得较高的页面查全率和信息查准率,能较好地解决现存问题,具有一定的自适应性。 展开更多
关键词 聚焦爬虫 主题相关度 立即价值 未来价值 量子进化算法
下载PDF
一个面向实时网页分类的主题特征提取算法 被引量:2
17
作者 彭浩 王雅琳 《计算机与现代化》 2008年第7期8-11,共4页
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本... 网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法。实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求。同时,还提出了一个新的主题特征提取性能评价模型。 展开更多
关键词 文本表示模型 实时分类 主题特征提取 聚焦爬虫
下载PDF
基于复杂网络局部社团发现的主题爬行研究 被引量:2
18
作者 沈桂兰 孙洁 杨小平 《河南师范大学学报(自然科学版)》 CAS 北大核心 2014年第4期134-138,共5页
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建... 从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率. 展开更多
关键词 局部社区发现 主题爬行 主题网站群 相似度分析
下载PDF
基于遗传算法的聚焦爬虫搜索策略 被引量:5
19
作者 曾广朴 范会联 《计算机工程》 CAS CSCD 北大核心 2010年第11期167-169,共3页
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方... 为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。 展开更多
关键词 聚焦爬虫 遗传算法 小生境 主题相关度
下载PDF
基于改进遗传算法的聚焦爬虫设计 被引量:3
20
作者 范会联 李献礼 曾广朴 《计算机工程与科学》 CSCD 北大核心 2010年第5期126-129,共4页
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适... 本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。 展开更多
关键词 聚焦爬虫 爬行控制器 主题相关度 数据抽取
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部