期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
可在线增量自学习的聚焦爬行方法
被引量:
18
1
作者
傅向华
冯博琴
+1 位作者
马兆丰
何明
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2004年第6期599-602,共4页
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤...
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.
展开更多
关键词
资源发现
聚焦爬行
在线学习
半监督学习
下载PDF
职称材料
基于预期剩余能量模型的聚焦爬行方法
2
作者
尹文科
宗士强
王珩
《计算机工程与应用》
CSCD
北大核心
2015年第24期120-125,158,共7页
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量...
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。
展开更多
关键词
聚焦爬行
搜索方向
搜索深度
主题相关度
预期剩余能量
下载PDF
职称材料
基于链接路径预测的聚焦Web实体搜索
被引量:
1
3
作者
黄健斌
孙鹤立
《计算机研究与发展》
EI
CSCD
北大核心
2010年第12期2059-2066,共8页
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法...
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值。在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.
展开更多
关键词
实体搜索
聚焦爬行
链接路径预测
条件随机场
增强学习
下载PDF
职称材料
基于超链接和内容相关度的综合爬行策略
4
作者
蔡明
倪贤贵
《微计算机信息》
北大核心
2008年第27期204-205,208,共3页
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法。VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现...
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法。VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘。
展开更多
关键词
聚焦爬行
超链接
向量空间模型
内容相关度
下载PDF
职称材料
使用联合链接相似度评估爬取Web资源
被引量:
6
5
作者
张乃洲
李石君
+1 位作者
余伟
张卓
《计算机学报》
EI
CSCD
北大核心
2010年第12期2267-2280,共14页
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接...
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.
展开更多
关键词
聚焦爬行
主题相似度
链接评估
Web链接图
Q学习
下载PDF
职称材料
题名
可在线增量自学习的聚焦爬行方法
被引量:
18
1
作者
傅向华
冯博琴
马兆丰
何明
机构
西安交通大学电子与信息工程学院
出处
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2004年第6期599-602,共4页
基金
国家高技术研究发展计划资助项目 (2 0 0 3AA1Z2 61 0 )
文摘
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.
关键词
资源发现
聚焦爬行
在线学习
半监督学习
Keywords
Adaptive systems
Feedback
Information retrieval
Online systems
World Wide Web
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于预期剩余能量模型的聚焦爬行方法
2
作者
尹文科
宗士强
王珩
机构
中国电子科技集团公司第二十八研究所信息系统工程重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2015年第24期120-125,158,共7页
文摘
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计算链接的立即回报能量,利用到达同一链接不同历史路径给予的历史回报知识不断迭代更新链接的预期剩余能量。利用预期剩余能量作为链接的优先级和搜索深度限制,设计了基于预期剩余能量模型的聚焦爬行算法,并给出了关键模块的实现。实验结果显示该方法具有更强的主题网站发现能力。
关键词
聚焦爬行
搜索方向
搜索深度
主题相关度
预期剩余能量
Keywords
focused crawling
search direction
search depth
topic relevance
expected residual energy
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于链接路径预测的聚焦Web实体搜索
被引量:
1
3
作者
黄健斌
孙鹤立
机构
西安电子科技大学国家示范性软件学院
西安交通大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第12期2059-2066,共8页
基金
陕西省自然科学基础研究计划基金项目(SJ08-ZT14)
文摘
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,结合增强学习技术和训练的CRF模型对爬行前端队列的超链接进行优先级评分.一种来自增强学习的折扣回报方法通过利用路径分类阶段学习的CRF模型来计算连接的回报值。在多个领域大量真实数据上的实验结果表明,所提出的适用CRF模型指导的链接路径预测爬行算法LPC的性能明显优于其他聚焦爬行算法.
关键词
实体搜索
聚焦爬行
链接路径预测
条件随机场
增强学习
Keywords
entity search
focused Web crawling
linked-path prediction
conditional random field
reinforcement learning
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于超链接和内容相关度的综合爬行策略
4
作者
蔡明
倪贤贵
机构
江南大学信息工程学院
出处
《微计算机信息》
北大核心
2008年第27期204-205,208,共3页
文摘
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法。VHITS算法引入向量空间模型计算网页内容的主题相关度,并用来评价超链接的重要性,从而避免了HITS算法所产生的主题漂移现象,有效的引导主题挖掘。
关键词
聚焦爬行
超链接
向量空间模型
内容相关度
Keywords
Focused Crawling
Hyperlink
VSM
Content Similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
使用联合链接相似度评估爬取Web资源
被引量:
6
5
作者
张乃洲
李石君
余伟
张卓
机构
武汉大学软件工程国家重点实验室
武汉大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2010年第12期2267-2280,共14页
基金
国家自然科学基金(60970018)资助~~
文摘
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.
关键词
聚焦爬行
主题相似度
链接评估
Web链接图
Q学习
Keywords
focused crawling
topic similarity
link evaluation
Web link graph
Q learning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
可在线增量自学习的聚焦爬行方法
傅向华
冯博琴
马兆丰
何明
《西安交通大学学报》
EI
CAS
CSCD
北大核心
2004
18
下载PDF
职称材料
2
基于预期剩余能量模型的聚焦爬行方法
尹文科
宗士强
王珩
《计算机工程与应用》
CSCD
北大核心
2015
0
下载PDF
职称材料
3
基于链接路径预测的聚焦Web实体搜索
黄健斌
孙鹤立
《计算机研究与发展》
EI
CSCD
北大核心
2010
1
下载PDF
职称材料
4
基于超链接和内容相关度的综合爬行策略
蔡明
倪贤贵
《微计算机信息》
北大核心
2008
0
下载PDF
职称材料
5
使用联合链接相似度评估爬取Web资源
张乃洲
李石君
余伟
张卓
《计算机学报》
EI
CSCD
北大核心
2010
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部