期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于本体语义的定题爬虫
被引量:
11
1
作者
郑健珍
林坤辉
+1 位作者
周昌乐
康恺
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006年第3期106-110,共5页
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息...
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
展开更多
关键词
定题爬虫
主
题
过滤
本体语义
链接分析
下载PDF
职称材料
基于多Agent系统的定题爬虫算法
被引量:
4
2
作者
徐照财
程显毅
《计算机工程》
CAS
CSCD
北大核心
2008年第16期204-206,共3页
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同...
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。
展开更多
关键词
定题爬虫
主
题
关键字过滤
语义
下载PDF
职称材料
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例
被引量:
5
3
作者
孙庚
冯艳红
+1 位作者
于红
史鹏辉
《软件导刊》
2010年第5期47-49,共3页
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域...
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。
展开更多
关键词
定题爬虫
搜索引擎
HERITRIX
下载PDF
职称材料
基于定题爬虫的网页分类的多级判定算法
被引量:
1
4
作者
孙玲芳
黎维良
《科学技术与工程》
2009年第18期5534-5537,共4页
通信和计算机技术的进步,使社会向数字化方向发展。互联网上的信息,则呈爆炸式增长。搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽。因此衍生出面向专门人群的垂直搜索。网面分类是实现搜索引擎的定题爬虫的重要技...
通信和计算机技术的进步,使社会向数字化方向发展。互联网上的信息,则呈爆炸式增长。搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽。因此衍生出面向专门人群的垂直搜索。网面分类是实现搜索引擎的定题爬虫的重要技术之一。在新的需求下,提出一个新的网页分类判定算法,在原有基础上,对搜索的速度和质量进行提升。
展开更多
关键词
垂直搜索
定题爬虫
网页分类
下载PDF
职称材料
题名
基于本体语义的定题爬虫
被引量:
11
1
作者
郑健珍
林坤辉
周昌乐
康恺
机构
厦门大学软件学院
厦门大学信息科学与技术学院
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006年第3期106-110,共5页
基金
厦门大学985二期信息创新平台资助项目(0000-X07204)
文摘
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
关键词
定题爬虫
主
题
过滤
本体语义
链接分析
Keywords
focused-crawler
topic-filtering
ontology-semantic-analyse
hyperlink-analyse
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多Agent系统的定题爬虫算法
被引量:
4
2
作者
徐照财
程显毅
机构
江苏大学计算机科学与通信工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第16期204-206,共3页
基金
江苏省科技攻关基金资助重点项目(BE2004093)
文摘
定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。
关键词
定题爬虫
主
题
关键字过滤
语义
Keywords
focused crawling
theme key words filtering
semantics
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例
被引量:
5
3
作者
孙庚
冯艳红
于红
史鹏辉
机构
大连水产学院信息与计算机工程学院
出处
《软件导刊》
2010年第5期47-49,共3页
文摘
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。
关键词
定题爬虫
搜索引擎
HERITRIX
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于定题爬虫的网页分类的多级判定算法
被引量:
1
4
作者
孙玲芳
黎维良
机构
江苏科技大学人事处
江苏科技大学计算机学院
出处
《科学技术与工程》
2009年第18期5534-5537,共4页
文摘
通信和计算机技术的进步,使社会向数字化方向发展。互联网上的信息,则呈爆炸式增长。搜索引擎若在全面和详尽两方面都下功夫,只能导致既不全面也不详尽。因此衍生出面向专门人群的垂直搜索。网面分类是实现搜索引擎的定题爬虫的重要技术之一。在新的需求下,提出一个新的网页分类判定算法,在原有基础上,对搜索的速度和质量进行提升。
关键词
垂直搜索
定题爬虫
网页分类
Keywords
vertical search focused crawling Web page classification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于本体语义的定题爬虫
郑健珍
林坤辉
周昌乐
康恺
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2006
11
下载PDF
职称材料
2
基于多Agent系统的定题爬虫算法
徐照财
程显毅
《计算机工程》
CAS
CSCD
北大核心
2008
4
下载PDF
职称材料
3
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例
孙庚
冯艳红
于红
史鹏辉
《软件导刊》
2010
5
下载PDF
职称材料
4
基于定题爬虫的网页分类的多级判定算法
孙玲芳
黎维良
《科学技术与工程》
2009
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部