期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
改进的PageRank在Web信息搜集中的应用 被引量:12
1
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 web信息搜集
下载PDF
智能专题化信息搜集Crawler 被引量:4
2
作者 钱榕 徐新华 +1 位作者 郑莹 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑... 介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 展开更多
关键词 专题化爬行 web挖掘 神经网络 加强学习
下载PDF
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
3
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息web服务 服务检索 爬虫 主题相关度
下载PDF
深入解析Web主题爬虫的关键性原理 被引量:8
4
作者 王芳 陈海建 《微型电脑应用》 2011年第7期32-34,70,共4页
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。
关键词 网络爬虫 主题爬虫 爬虫算法
下载PDF
一种专题Web信息采集系统的设计方案 被引量:2
5
作者 欧歌 赵恒永 《电脑与信息技术》 2004年第6期52-55,共4页
飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采... 飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采集器性能的方法 ,节约了硬件和网络资源 ,使更新更加容易。 展开更多
关键词 web信息 采集系统 页面 硬件 网络资源 采集器 子集 专题信息 综合性 研究热点
下载PDF
基于主题网络爬虫思想的Web数据挖掘算法探讨 被引量:1
6
作者 景冰 《景德镇学院学报》 2020年第3期66-68,共3页
本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算... 本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算法的可操作性。 展开更多
关键词 主题网络爬虫 数据挖掘 算法
下载PDF
Web采集中信息组合自学习的研究
7
作者 张玲 许亮 姜华 《计算机技术与发展》 2013年第11期216-219,共4页
Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通... Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通过对训练集的爬行,分析出对于预测链接价值各种Web信息的重要性,以此调整采集过程中各Web信息的组合权值,得到符合实际Web情况的较优搜索策略。以计算机作为采集主题,对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明,较之传统的Web采集者,使用此算法的采集者具有较高的Web搜索精度。 展开更多
关键词 web采集者 链接价值 主题搜索 搜索策略 web信息组合
下载PDF
主题Web挖掘研究 被引量:3
8
作者 杜光芹 张化祥 赵瑞东 《计算机技术与发展》 2008年第2期94-97,共4页
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的... 网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。 展开更多
关键词 搜索引擎 信息检索 web主题挖掘 聚焦爬虫 本体论
下载PDF
基于LDA的网络舆情分析智能平台的设计与实现 被引量:2
9
作者 马燕妮 卢铁领 《现代信息科技》 2023年第22期20-24,29,共6页
严格把控舆情方向,监测网民动态和大众感情倾向是对舆情发展控制的有力手段,也是对大数据舆论信息检测的关键所在。文章针对微博热点搜索、搜狗网页提供的微信公众号热点和百度资讯的热点新闻爬取并预测舆论倾向,利用可视化界面展示分... 严格把控舆情方向,监测网民动态和大众感情倾向是对舆情发展控制的有力手段,也是对大数据舆论信息检测的关键所在。文章针对微博热点搜索、搜狗网页提供的微信公众号热点和百度资讯的热点新闻爬取并预测舆论倾向,利用可视化界面展示分析后的结果。首先通过爬虫获取每日热点信息,文本预处理后存入数据库;然后利用LDA主题模型提取热点事件,使用卷积神经网络分析情感倾向(正面、中性和负面);最后采用Django框架展示页面,进行相关统计研究和数据的可视化展示,通过可视化界面展示分析后得到的热点事件和舆论倾向。 展开更多
关键词 舆情分析 LDA主题模型 卷积神经网络 情感倾向性分析 网络爬虫
下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
10
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
11
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
12
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
下载PDF
基于主题爬虫的漏洞库维护系统 被引量:10
13
作者 刘海燕 黄睿 黄轩 《计算机与现代化》 2014年第8期67-70,80,共5页
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善... 漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。 展开更多
关键词 主题爬虫 动态主题 漏洞模型 漏洞库
下载PDF
主题网络爬虫研究综述 被引量:131
14
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 web挖掘
下载PDF
主题网络蜘蛛搜索策略贪婪性解决方法 被引量:4
15
作者 林海霞 原福永 陈金森 《微电子学与计算机》 CSCD 北大核心 2006年第z1期278-280,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best-First算法 召回率
下载PDF
改进空间向量模型主题网络爬虫系统 被引量:7
16
作者 徐明子 吕立 李喜旺 《计算机系统应用》 2013年第7期36-39,52,共5页
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问... 详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性. 展开更多
关键词 主题爬虫 相关度计算 搜索策略 遗传因子
下载PDF
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 被引量:5
17
作者 陈小海 周娅 《计算机工程与科学》 CSCD 北大核心 2009年第10期126-128,共3页
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出... 隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。 展开更多
关键词 主题网络蜘蛛 隧道穿越 主题相似度
下载PDF
基于主题网络爬虫的不良网页的发现与识别 被引量:2
18
作者 方育柯 傅彦 +1 位作者 周俊临 夏虎 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期26-30,共5页
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络... 针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. 展开更多
关键词 主题网络爬虫 不良网页 文本特征
下载PDF
区域煤矿瓦斯灾害风险预警数据采集技术研究 被引量:12
19
作者 李明建 赵旭生 +2 位作者 谈国文 宋志强 廖成 《工矿自动化》 北大核心 2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦... 以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。 展开更多
关键词 区域煤矿 瓦斯灾害风险预警 数据采集 跨平台web API 主题网络爬虫
下载PDF
面向新闻网的智能抓取技术 被引量:2
20
作者 吕振辽 翟莹莹 魏彦婧 《控制工程》 CSCD 北大核心 2013年第4期707-710,共4页
随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个... 随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。 展开更多
关键词 主题提取 网络爬虫 页面相关度
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部