期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于本体语义的定题爬虫 被引量:11
1
作者 郑健珍 林坤辉 +1 位作者 周昌乐 康恺 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期106-110,共5页
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息... 定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. 展开更多
关键词 定题爬虫 过滤 本体语义 链接分析
下载PDF
基于多Agent系统的定题爬虫算法 被引量:4
2
作者 徐照财 程显毅 《计算机工程》 CAS CSCD 北大核心 2008年第16期204-206,共3页
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同... 定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。 展开更多
关键词 定题爬虫 关键字过滤 语义
下载PDF
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 被引量:5
3
作者 孙庚 冯艳红 +1 位作者 于红 史鹏辉 《软件导刊》 2010年第5期47-49,共3页
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域... 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。 展开更多
关键词 定题爬虫 搜索引擎 HERITRIX
下载PDF
基于定题爬虫的网页分类的多级判定算法 被引量:1
4
作者 孙玲芳 黎维良 《科学技术与工程》 2009年第18期5534-5537,共4页
通信和计算机技术的进步,使社会向数字化方向发展。互联网上的信息,则呈爆炸式增长。搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽。因此衍生出面向专门人群的垂直搜索。网面分类是实现搜索引擎的定题爬虫的重要技... 通信和计算机技术的进步,使社会向数字化方向发展。互联网上的信息,则呈爆炸式增长。搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽。因此衍生出面向专门人群的垂直搜索。网面分类是实现搜索引擎的定题爬虫的重要技术之一。在新的需求下,提出一个新的网页分类判定算法,在原有基础上,对搜索的速度和质量进行提升。 展开更多
关键词 垂直搜索 定题爬虫 网页分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部