期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于URL结构和访问时间的Web页面访问相似性度量
被引量:
4
1
作者
李超锋
卢炎生
《计算机科学》
CSCD
北大核心
2007年第4期207-209,286,共4页
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,...
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。
展开更多
关键词
Web页面相似性
聚类
url结构
访问时间
下载PDF
职称材料
基于动态评价URL链接结构的主题爬行策略
2
作者
郑凯
《福建电脑》
2010年第2期83-84,96,共3页
在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"...
在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"隧道",简化了优先级的计算,有效地降低了"短视"问题和"主题漂移"现象,是一种高效实用的主题采集策略。
展开更多
关键词
主题搜索引擎
url
链接
结构
主题爬虫
下载PDF
职称材料
基于语义相关度主题爬虫的语料采集方法
被引量:
6
3
作者
周昆
王钊
于碧辉
《计算机系统应用》
2019年第5期190-195,共6页
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容...
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.
展开更多
关键词
生语料采集
语义相关度主题爬虫
页面信息相关度
url结构
信息
下载PDF
职称材料
可动态自适应主题爬虫的研究
被引量:
1
4
作者
肖新凤
余伟
+3 位作者
李石君
陈亚辉
刘倍雄
刘永明
《计算机与数字工程》
2019年第5期1151-1159,共9页
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的...
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。
展开更多
关键词
主题爬虫
动态自适应
url
图
结构
下载PDF
职称材料
题名
基于URL结构和访问时间的Web页面访问相似性度量
被引量:
4
1
作者
李超锋
卢炎生
机构
华中科技大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2007年第4期207-209,286,共4页
基金
湖北省科技攻关项目(2005AA101C18)
中南民族大学自然科学基金项目(YZY06009)
文摘
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。
关键词
Web页面相似性
聚类
url结构
访问时间
Keywords
Web page similarity, Clustering,
url
structure, Access time
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于动态评价URL链接结构的主题爬行策略
2
作者
郑凯
机构
中国石油大学(华东)计算机与通信工程学院
出处
《福建电脑》
2010年第2期83-84,96,共3页
文摘
在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"隧道",简化了优先级的计算,有效地降低了"短视"问题和"主题漂移"现象,是一种高效实用的主题采集策略。
关键词
主题搜索引擎
url
链接
结构
主题爬虫
分类号
TP393 [自动化与计算机技术—计算机应用技术]
G250.73 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于语义相关度主题爬虫的语料采集方法
被引量:
6
3
作者
周昆
王钊
于碧辉
机构
中国科学院大学
中国科学院沈阳计算技术研究所
沈阳市国家税务局信息中心
出处
《计算机系统应用》
2019年第5期190-195,共6页
文摘
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%.
关键词
生语料采集
语义相关度主题爬虫
页面信息相关度
url结构
信息
Keywords
corpus collection
semantic relevancy focused crawler
page information semantic relevancy
url
structural information
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
可动态自适应主题爬虫的研究
被引量:
1
4
作者
肖新凤
余伟
李石君
陈亚辉
刘倍雄
刘永明
机构
广东环境保护工程职业学院
武汉大学
出处
《计算机与数字工程》
2019年第5期1151-1159,共9页
基金
国家自然科学基金项目(编号:61502350)
2017广东高校省级重点平台和重大科研项目(编号:2017GKTSCX042)资助
文摘
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。
关键词
主题爬虫
动态自适应
url
图
结构
Keywords
topic crawler
dynamic self-adaption
url
structure
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于URL结构和访问时间的Web页面访问相似性度量
李超锋
卢炎生
《计算机科学》
CSCD
北大核心
2007
4
下载PDF
职称材料
2
基于动态评价URL链接结构的主题爬行策略
郑凯
《福建电脑》
2010
0
下载PDF
职称材料
3
基于语义相关度主题爬虫的语料采集方法
周昆
王钊
于碧辉
《计算机系统应用》
2019
6
下载PDF
职称材料
4
可动态自适应主题爬虫的研究
肖新凤
余伟
李石君
陈亚辉
刘倍雄
刘永明
《计算机与数字工程》
2019
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部