期刊文献+
共找到207篇文章
< 1 2 11 >
每页显示 20 50 100
一种改进Shark-Search的多媒体主题搜索算法 被引量:4
1
作者 杨仁广 宋宇 孟祥增 《计算机工程与应用》 CSCD 北大核心 2010年第14期152-154,共3页
针对包含多媒体的网页链接特点,对Shark-Search主题搜索算法在搜索宽度、链接相似性判断以及待爬行链接选取策略上进行改进,采取"先搜索、后判断"的搜索过程。实验结果表明,改进的Shark-Search算法能够大大提高多媒体主题网... 针对包含多媒体的网页链接特点,对Shark-Search主题搜索算法在搜索宽度、链接相似性判断以及待爬行链接选取策略上进行改进,采取"先搜索、后判断"的搜索过程。实验结果表明,改进的Shark-Search算法能够大大提高多媒体主题网页搜索的效率。 展开更多
关键词 Fish-search算法 Shark-search算法 主题搜索
下载PDF
基于Shark-Search和Hits算法的主题爬虫研究 被引量:18
2
作者 罗林波 陈绮 吴清秀 《计算机技术与发展》 2010年第11期76-79,共4页
主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于... 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。 展开更多
关键词 主题爬虫 爬行策略 垂直搜索引擎
下载PDF
A New Generalized Similarity-Based Topic Distillation Algorithm
3
作者 ZHOU Hongfang DANG Xiaohui 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期789-792,共4页
The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent se... The procedure of hypertext induced topic search based on a semantic relation model is analyzed, and the reason for the topic drift of HITS algorithm was found to prove that Web pages are projected to a wrong latent semantic basis. A new concept-generalized similarity is introduced and, based on this, a new topic distillation algorithm GSTDA(generalized similarity based topic distillation algorithm) was presented to improve the quality of topic distillation. GSTDA was applied not only to avoid the topic drift, but also to explore relative topics to user query. The experimental results on 10 queries show that GSTDA reduces topic drift rate by 10% to 58% compared to that of HITS(hypertext induced topic search) algorithm, and discovers several relative topics to queries that have multiple meanings. 展开更多
关键词 generalized similarity hypertext induced topic search topic distillation topic drift
下载PDF
改进的Shark-search算法在网络采集中的应用 被引量:1
4
作者 张玲 祁玉娟 姜华 《计算机技术与发展》 2017年第8期192-194,199,共4页
Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研... Shark-search是一种依据链接价值的高低进行优先采集的算法,用于主题信息采集系统时由于只考虑了网页文本和链接锚文本与主题的相关性而忽略了网页的组织结构特性,在抓取有较多噪音链接的网页时效果欠佳。基于网页组织结构特性的分析研究,提出了一种基于网页主题分块的Shark-search算法。该算法在经典Shark-search算法的基础上依据网页组织结构根据网页布局标签对页面内容进行分块,从网页,块和链接三个层面与主题的相关性得到链接的综合价值,因而具有自学习功能,能统计学习与主题相关性较大的块特征,并在发生主题漂移的时候具有自调整功能,给予主题相关性较大的父页面上的链接更多被抓取的机会。采集实验结果表明,所提出的算法在经典Shark-search的基础上能较好地改进主题信息采集的查准率,能够更灵活地针对实际的Web资源状况进行自调整。 展开更多
关键词 Shark-search算法 网页分块 Web信息搜集 链接价值 主题漂移
下载PDF
基于演化动力学的老年人在线健康信息搜寻行为研究
5
作者 高春玲 姜莉媛 《农业图书情报学报》 2024年第5期65-78,共14页
[目的/意义]分析老年人在线健康信息搜寻现状,掌握其热点主题及演化趋势,对满足和提高老年人健康信息需求与健康素养水平,推动老年健康服务高质量发展具有重要意义。[方法/过程]本研究采用DTM模型对2016-2023年间新浪微博发文内容进行... [目的/意义]分析老年人在线健康信息搜寻现状,掌握其热点主题及演化趋势,对满足和提高老年人健康信息需求与健康素养水平,推动老年健康服务高质量发展具有重要意义。[方法/过程]本研究采用DTM模型对2016-2023年间新浪微博发文内容进行动态主题挖掘与分析,分别从主题演化、主题语义演化和主题信息熵趋势等方面进行研究。[结果/结论]“老年病症”“科技养老”“食疗保健”“心理健康”及“社会关怀”等方面主题演化显著,老年人对老年常见病、身体医疗养护、社会助老爱老关怀和衣食住行等健康信息类型关注颇多,用于满足需求和获取信息。“老年病症”“运动保健”“高危风险”及“医疗诈骗”等主题语义稳定。“运动保健”“起居安全”及“病毒传播”等信息熵趋势较为稳定,“医疗素养”“疫情管控”“文体旅游”及“饮食均衡”等信息熵呈现扩散趋势,“高危风险”“食疗保健”“经济陷阱”及“医疗诈骗”等信息熵呈现收敛趋势。 展开更多
关键词 演化动力学 老年人 健康信息搜寻 主题演化 DTM模型 信息行为
下载PDF
基于VSM与HITS融合的扩展主题型爬虫
6
作者 陶飞飞 徐佳 +1 位作者 徐松阳 唐明伟 《计算机仿真》 2024年第10期222-226,共5页
目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种... 目前主流开源爬虫框架在分析页面与主题领域关联性上,常采用基于关键词的量化和向量空间模型算法相融合,但融合疏忽了界面语义与特定主题间的关联,导致爬取内容与主题产生偏差。为了给金融等领域的舆情分析提供准确的数据支撑,提出一种面向领域扩展主题库的爬虫及系统,通过扩展主题特征库,融合向量空间模型(Vector Space Model,VSM)与超链接主题搜索算法(Hyperlink-Induced Topic Search,HITS),优化了主题页面相关度计算,并针对股票舆情信息爬取进行仿真。结果表明,上述扩展主题型爬虫在爬取准确率和效率等方面有较好地提升,能够有效地完成领域主题信息的爬取任务。 展开更多
关键词 扩展主题爬虫 向量空间模型 超链接主题搜索 股票舆情信息
下载PDF
高校专利专题数据库的建设研究
7
作者 陆薇薇 赵冬梅 +4 位作者 杨秋霞 王宝清 付国 陈月从 陈普 《科技创新与生产力》 2024年第4期84-88,共5页
论述了专利专题库对大学学科发展的重要服务作用,探讨了专利专题库的一般建设思路。以首个能源电力行业专利专题库为例,详述了建库的背景,针对超大行业专利数据库的特点和能源电力行业的特色,提出技术分解的创新思路——以电能生产消费... 论述了专利专题库对大学学科发展的重要服务作用,探讨了专利专题库的一般建设思路。以首个能源电力行业专利专题库为例,详述了建库的背景,针对超大行业专利数据库的特点和能源电力行业的特色,提出技术分解的创新思路——以电能生产消费的过程为基本框架,同时突出在此过程中研究人员关注的重点技术内容,检索策略则综合检索专家的检索技能和各领域技术专家的专业知识联合确定,数据库软件的功能方面,除了基于技术分解的专利数据分类导航,还设计了丰富的专利检索和专利分析功能,专利分析结果以多维度可视化的方式展示。集专利导航、检索、分析功能为一体的专题数据库能满足科研用户的各种需求。 展开更多
关键词 专利专题库 专利分析 专利检索 可视化 高校
下载PDF
基于SEIR模型的网络热搜话题传播仿真研究
8
作者 殷艳艳 王克克 +4 位作者 田姣姣 李默 薛雅心 卢春雨 赵云鹏 《计算机科学》 CSCD 北大核心 2024年第S01期707-712,共6页
网络热搜话题具有传播扩散现象,当前对于网络热搜话题的研究主要集中在传播效果评估、传播趋势预测、社会影响评价以及舆论引导等方面,而对于网络热搜话题的研究未能揭示传播动力学参数对于传播过程的影响。文中采用SEIR模型构建了网络... 网络热搜话题具有传播扩散现象,当前对于网络热搜话题的研究主要集中在传播效果评估、传播趋势预测、社会影响评价以及舆论引导等方面,而对于网络热搜话题的研究未能揭示传播动力学参数对于传播过程的影响。文中采用SEIR模型构建了网络热搜话题传播动力学模型,分析研究了网络平均度、不信任概率、接触后立即传播概率、感染率、治愈率、复发率等影响因素对模型的影响。 展开更多
关键词 SEIR 网络 热搜 话题 传播
下载PDF
台湾地区术语建设及术语相关研究管窥
9
作者 杨志霞 曾泰元 《中国科技术语》 2024年第4期35-45,共11页
随着内地和台湾地区交流的日益密切和频繁,加强两岸术语研究工作的交流与互鉴变得尤为重要。文章对台湾地区术语建设的管理结构、历时发展、已有成果,两岸共同编纂术语工具书的合作成果,“乐词网”术语搜索及资源在线平台,两岸共同建设... 随着内地和台湾地区交流的日益密切和频繁,加强两岸术语研究工作的交流与互鉴变得尤为重要。文章对台湾地区术语建设的管理结构、历时发展、已有成果,两岸共同编纂术语工具书的合作成果,“乐词网”术语搜索及资源在线平台,两岸共同建设的“中华语文知识库”及其他语料库进行了详细介绍和全面梳理。对台湾地区在Web of Science(WOS)核心合集数据库中与术语相关的研究进行了主题抽样分析,借助文献计量学工具VOSviewer进行了可视化呈现。揭示了台湾地区学者在国际核心期刊上发表的术语相关研究的发展趋势和热点议题。以期为众多两岸术语研究者、语言爱好者提供研究与学习的素材和途径,助力两岸学者的沟通与合作,并确定未来协作努力的方向,也为两岸的术语建设、制定科技发展战略提供有益的参考和支撑。 展开更多
关键词 台湾地区术语建设 术语搜索及资源在线平台 两岸“中华语文知识库” 台湾地区术语研究热点 可视化呈现
下载PDF
Web结构挖掘 被引量:20
10
作者 杨炳儒 李岩 +1 位作者 陈新中 王霞 《计算机工程》 CAS CSCD 北大核心 2003年第20期28-30,共3页
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。
关键词 WEB结构挖掘 PAGERANK HITS SALSA 超链接 网页排序
下载PDF
一种基于超链接引导的主题搜索的主题敏感爬行方法 被引量:9
11
作者 蒋宗礼 徐学可 李帅 《计算机应用》 CSCD 北大核心 2008年第4期942-944,950,共4页
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目... 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。 展开更多
关键词 主题爬虫 超链接引导的主题搜索 主题模型
下载PDF
专业搜索引擎搜索策略综述 被引量:34
12
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《计算机工程》 CAS CSCD 北大核心 2004年第13期32-33,46,共3页
按照评价链接价值所采用方法的不同,对专业搜索引擎的搜索策略进行了分类,分析了各类搜索策略的特点,比较了它们的优缺点。对未来的研究方向进行了展望,给出了若干值得研究的问题。
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
面向主题的网页搜索系统 被引量:12
13
作者 宋聚平 王永成 +1 位作者 尹中航 滕伟 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第3期401-403,共3页
论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判... 论述一个面向主题的网页搜索系统 (SATWP) ,该系统在智能代理的辅助下具有搜索、导航、以及信息反馈等功能 .在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法 ,即从网页自身的 URL、网页间的关系以及网页的内容来判断 .SATWP采用在客户端的智能代理记录用户的浏览行为 ,并把有关信息反馈给服务器 ,服务器根据这些信息随时调整数据库中相关网页的重要性顺序 ,增加了自身的学习功能 .试验结果表明 。 展开更多
关键词 定题搜索 搜索引擎 网页重要性 超链分析
下载PDF
化学主题网络爬虫的设计和实现 被引量:6
14
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
下载PDF
知识发现在互联网情报收集与处理中的应用 被引量:3
15
作者 谢毓湘 栾悉道 +1 位作者 曾璞 吴玲达 《计算机工程与应用》 CSCD 北大核心 2006年第25期9-11,共3页
论文系统地研究了知识发现技术在互联网情报收集与处理中的应用。将知识发现技术应用于情报收集、情报管理、情报分析等各个阶段,在不同层次上促进了情报工作的深入与相应问题的解决。说明了知识发现技术对于情报领域的深入发展具有相... 论文系统地研究了知识发现技术在互联网情报收集与处理中的应用。将知识发现技术应用于情报收集、情报管理、情报分析等各个阶段,在不同层次上促进了情报工作的深入与相应问题的解决。说明了知识发现技术对于情报领域的深入发展具有相当的促进作用,应该进一步研究并扩展知识发现在情报领域的应用,丰富完善情报体系。 展开更多
关键词 知识发现 情报 聚类 可视化 主动式专题搜索引擎
下载PDF
基于Web链接分析的HITS算法研究与改进 被引量:6
16
作者 喻金平 朱桂祥 梅宏标 《计算机工程与应用》 CSCD 2013年第21期42-45,共4页
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和... 垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。 展开更多
关键词 垂直搜索 搜索策略 扩散速率 文本分析 超链接分析主题搜索(HITS)
下载PDF
面向主题的网络竞争情报采集系统 被引量:18
17
作者 吴金红 张玉峰 王翠波 《现代图书情报技术》 CSSCI 北大核心 2006年第12期54-57,61,共5页
分析Web页面的主题特征,构建基于主题的竞争情报采集模型的框架,详细论述面向主题的信息采集策略和采集流程,进而探讨影响信息采集质量的关键因素。
关键词 信息采集 主题搜索 竞争情报
下载PDF
农业垂直搜索引擎信息抽取的研究 被引量:4
18
作者 胡亮 袁芳 齐芸芸 《计算机工程与设计》 CSCD 北大核心 2009年第5期1115-1118,1134,共5页
自动文本信息抽取是垂直搜索引擎技术体系的一个研究方向,针对传统的农业垂直搜索引擎信息抽取精度不高的问题,在研究农业网页交易信息数据的特点的基础上,提出一种针对具有时空属性的行业领域信息的表示与抽取模型。该模型利用数据信... 自动文本信息抽取是垂直搜索引擎技术体系的一个研究方向,针对传统的农业垂直搜索引擎信息抽取精度不高的问题,在研究农业网页交易信息数据的特点的基础上,提出一种针对具有时空属性的行业领域信息的表示与抽取模型。该模型利用数据信息、数据时间、数据空间三元集描述定义此类数据,不仅可以表示数据对象的当前状态,而且可以准确地反映数据对象的历史与空间连续状态,据此设计了K-EA算法。实验结果表明,该模型对于具有时间与空间属性特点的数据有很好的召回率与精度。 展开更多
关键词 垂直搜索引擎 农业 信息抽取 时空属性信息 三元集
下载PDF
基于主题相关概念和网页分块的主题爬虫研究 被引量:9
19
作者 黄仁 王良伟 《计算机应用研究》 CSCD 北大核心 2013年第8期2377-2380,2409,共5页
针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接... 针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。 展开更多
关键词 主题爬虫 主题相关概念 网页分块 优先级计算 R-HITS
下载PDF
网络蜘蛛搜索策略进展研究 被引量:8
20
作者 欧阳柳波 李学勇 +1 位作者 李国徽 王鑫 《小型微型计算机系统》 CSCD 北大核心 2005年第4期703-706,共4页
网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研... 网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一.按照评价链接价值所采用方法的不同,对专业搜索引擎网络蜘蛛的搜索策略进行了分类,分析、比较了各类搜索策略的特点和优缺点.对未来的研究方向进行了展望,给出了若干值得研究的问题. 展开更多
关键词 专业搜索引擎 网络蜘蛛 搜索策略
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部