期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种基于超链接引导的主题搜索的主题敏感爬行方法 被引量:9
1
作者 蒋宗礼 徐学可 李帅 《计算机应用》 CSCD 北大核心 2008年第4期942-944,950,共4页
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目... 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。 展开更多
关键词 主题爬虫 超链接引导的主题搜索 主题模型
下载PDF
超链接网络分析的理论与应用研究 被引量:12
2
作者 庞景安 《情报理论与实践》 CSSCI 北大核心 2005年第6期632-635,共4页
超链接网络分析提供了网络环境中一种新型的计量分析方法,大大拓展了联机网络分析的应用范围,实现了揭示网络环境中由超链接形成的特殊网络结构的目的。本文对超链接网络分析的理论与应用研究进行了简要综述和评价,包括超链接网络分析... 超链接网络分析提供了网络环境中一种新型的计量分析方法,大大拓展了联机网络分析的应用范围,实现了揭示网络环境中由超链接形成的特殊网络结构的目的。本文对超链接网络分析的理论与应用研究进行了简要综述和评价,包括超链接网络分析的概念、方法、分析技术、数据计量,以及网络计量学的理论研究进展等。 展开更多
关键词 网络计量学 搜索引擎/超链接网络分析
下载PDF
基于VSM与HITS融合的扩展主题型爬虫
3
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
下载PDF
网络信息检索技术现状、瓶颈及趋势分析 被引量:31
4
作者 龚蛟腾 《情报杂志》 CSSCI 北大核心 2004年第5期75-77,共3页
目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术 ,制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技... 目前网络信息检索技术主要有资源定位检索技术、超链接搜索技术、网络搜索引擎技术及通用信息检索技术 ,制约网络信息检索技术发展的瓶颈是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多媒体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信息检索技术发展的核心与关键。 展开更多
关键词 网络信息检索技术 资源定位检索 超链接搜索 搜索引擎 视频检索 音频检索 汉语切分 自动切分 智能检索 知识检索 多媒体检索
下载PDF
基于Web链接分析的HITS算法研究与改进 被引量:6
5
作者 喻金平 朱桂祥 梅宏标 《计算机工程与应用》 CSCD 2013年第21期42-45,共4页
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和... 垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。 展开更多
关键词 垂直搜索 搜索策略 扩散速率 文本分析 超链接分析主题搜索(HITS)
下载PDF
PH-MaxFlow算法发现Web社区 被引量:1
6
作者 郭希娟 刘静 《计算机工程与应用》 CSCD 北大核心 2009年第5期113-116,共4页
HITS是一种经典的利用链接技术计算网页权威值和中心值的算法,它能够快速发现主题相关网页,其缺点是会发生"主题偏移"现象,首先提出PHITS算法,在一定程度上抑制了这种现象的发生。运用该方法提取权威值高的页面,作为PH-MaxFlo... HITS是一种经典的利用链接技术计算网页权威值和中心值的算法,它能够快速发现主题相关网页,其缺点是会发生"主题偏移"现象,首先提出PHITS算法,在一定程度上抑制了这种现象的发生。运用该方法提取权威值高的页面,作为PH-MaxFlow算法的种子节点,使得发现的Web社区更精确。同时提出了一种有效的评价Web社区的标准,用这个标准对原始最大流算法和提出的PH-MaxFlow算法进行比较,从而得出PH-MaxFlow算法发现的Web社区与主题更相关。 展开更多
关键词 WEB社区 基于超链接分析的主题搜索算法 最大流算法
下载PDF
基于改进HITS算法的电网脆弱集合快速评估 被引量:3
7
作者 袁博 张文一 张雪敏 《电力系统及其自动化学报》 CSCD 北大核心 2020年第4期145-150,共6页
脆弱线路在连锁故障传播中起着推波助澜的作用。为了更加全面地辨识脆弱线路,本文提出一种基于超链接诱导主题搜索算法的电网脆弱线路识别方法。首先,利用线路开断后的潮流转移量与线路容量裕度建立各线路故障转移的相关性网络。其次,... 脆弱线路在连锁故障传播中起着推波助澜的作用。为了更加全面地辨识脆弱线路,本文提出一种基于超链接诱导主题搜索算法的电网脆弱线路识别方法。首先,利用线路开断后的潮流转移量与线路容量裕度建立各线路故障转移的相关性网络。其次,利用改进超链接诱导主题搜索算法,计算相关性网络中各线路的权威值和枢纽值。最后,结合基于蒙特卡罗采样的连锁故障仿真工具,在河北南网系统中验证了所提算法得到权威值排名和枢纽值排名的有效性。与现有方法相比,该方法既能准确识别排名高的脆弱线路,又具有计算速度快的优点。 展开更多
关键词 超链接诱导主题搜索算法 脆弱线路 连锁故障 相关性矩阵 权威值 枢纽值
下载PDF
Approach in High Precision Topic-Specific Resource Discovery on the Web
8
作者 YeWei-guo LuZheng-ding 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第1期41-45,共5页
The Internet presents numerous sources of useful information nowadays. However, these resources are drowning under the dynamic Web, so accurate finding user-specific information is very difficult. In this paper we dis... The Internet presents numerous sources of useful information nowadays. However, these resources are drowning under the dynamic Web, so accurate finding user-specific information is very difficult. In this paper we discuss a Semantic Graph Web Search (SGWS) algorithm in topic-specific resource discovery on the Web. This method combines the use of hyperlinks, characteristics of Web graph and semantic term weights. We implement the algorithm to find Chinese medical information from the Internet. Our study showed that it has better precision than traditional IR (Information Retrieval) methods and traditional search engines. Key words HITS - evolution web graph - power law distribution - context analysis CLC number TP 391 - TP 393 Foundation item: Supported by the National High-Performance Computation Fund (00303)Biography: Ye Wei-guo (1970-), male, Ph. D candidate, research direction: Web information mining, network security, artificial intelligence. 展开更多
关键词 HITS evolution web graph power law distribution context analysis
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部