期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于URL结构和访问时间的Web页面访问相似性度量 被引量:4
1
作者 李超锋 卢炎生 《计算机科学》 CSCD 北大核心 2007年第4期207-209,286,共4页
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,... Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。 展开更多
关键词 Web页面相似性 聚类 url结构 访问时间
下载PDF
基于动态评价URL链接结构的主题爬行策略
2
作者 郑凯 《福建电脑》 2010年第2期83-84,96,共3页
在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"... 在深入分析了HTML页面的超链结构的基础上,加入了锚文本内容分析权重和动态评价策略,提出了算法的改进,形成了综合动态价值的URL链接结构的搜索策略。改进的算法根据链接类型的不同赋予了不同的权重因子,并结合了动态价值评价穿越"隧道",简化了优先级的计算,有效地降低了"短视"问题和"主题漂移"现象,是一种高效实用的主题采集策略。 展开更多
关键词 主题搜索引擎 url链接结构 主题爬虫
下载PDF
基于语义相关度主题爬虫的语料采集方法 被引量:6
3
作者 周昆 王钊 于碧辉 《计算机系统应用》 2019年第5期190-195,共6页
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容... 针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%. 展开更多
关键词 生语料采集 语义相关度主题爬虫 页面信息相关度 url结构信息
下载PDF
可动态自适应主题爬虫的研究 被引量:1
4
作者 肖新凤 余伟 +3 位作者 李石君 陈亚辉 刘倍雄 刘永明 《计算机与数字工程》 2019年第5期1151-1159,共9页
针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的... 针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。 展开更多
关键词 主题爬虫 动态自适应 url结构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部