期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
55
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
1
作者
方世敏
《信息技术》
2024年第11期63-68,76,共7页
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用Tex...
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取中文关键词:并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。
展开更多
关键词
CHAMELEON
web
开源情报
主题挖掘
网络爬虫
下载PDF
职称材料
改进的PageRank在Web信息搜集中的应用
被引量:
12
2
作者
秦拯
张玲
李娜
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主...
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·
展开更多
关键词
PAGERANK算法
主题分块
web
信息搜集
下载PDF
职称材料
智能专题化信息搜集Crawler
被引量:
4
3
作者
钱榕
徐新华
+1 位作者
郑莹
杨炳儒
《计算机工程》
CAS
CSCD
北大核心
2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑...
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。
展开更多
关键词
专题化爬行
web
挖掘
神经网络
加强学习
下载PDF
职称材料
基于主题相关度的地理信息Web服务爬虫研究
被引量:
12
4
作者
武昊
廖安平
+1 位作者
何超英
侯东阳
《地理与地理信息科学》
CSCD
北大核心
2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算...
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。
展开更多
关键词
地理信息
web
服务
服务检索
爬虫
主题相关度
下载PDF
职称材料
深入解析Web主题爬虫的关键性原理
被引量:
8
5
作者
王芳
陈海建
《微型电脑应用》
2011年第7期32-34,70,共4页
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。
关键词
网络爬虫
主题爬虫
爬虫算法
下载PDF
职称材料
一种专题Web信息采集系统的设计方案
被引量:
2
6
作者
欧歌
赵恒永
《电脑与信息技术》
2004年第6期52-55,共4页
飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采...
飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采集器性能的方法 ,节约了硬件和网络资源 ,使更新更加容易。
展开更多
关键词
web
信息
采集系统
页面
硬件
网络资源
采集器
子集
专题信息
综合性
研究热点
下载PDF
职称材料
基于主题网络爬虫思想的Web数据挖掘算法探讨
被引量:
1
7
作者
景冰
《景德镇学院学报》
2020年第3期66-68,共3页
本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算...
本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算法的可操作性。
展开更多
关键词
主题网络爬虫
数据挖掘
算法
下载PDF
职称材料
Web采集中信息组合自学习的研究
8
作者
张玲
许亮
姜华
《计算机技术与发展》
2013年第11期216-219,共4页
Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通...
Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通过对训练集的爬行,分析出对于预测链接价值各种Web信息的重要性,以此调整采集过程中各Web信息的组合权值,得到符合实际Web情况的较优搜索策略。以计算机作为采集主题,对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明,较之传统的Web采集者,使用此算法的采集者具有较高的Web搜索精度。
展开更多
关键词
web
采集者
链接价值
主题搜索
搜索策略
web
信息组合
下载PDF
职称材料
主题Web挖掘研究
被引量:
3
9
作者
杜光芹
张化祥
赵瑞东
《计算机技术与发展》
2008年第2期94-97,共4页
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的...
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。
展开更多
关键词
搜索引擎
信息检索
web
主题挖掘
聚焦爬虫
本体论
下载PDF
职称材料
基于LDA的网络舆情分析智能平台的设计与实现
被引量:
2
10
作者
马燕妮
卢铁领
《现代信息科技》
2023年第22期20-24,29,共6页
严格把控舆情方向,监测网民动态和大众感情倾向是对舆情发展控制的有力手段,也是对大数据舆论信息检测的关键所在。文章针对微博热点搜索、搜狗网页提供的微信公众号热点和百度资讯的热点新闻爬取并预测舆论倾向,利用可视化界面展示分...
严格把控舆情方向,监测网民动态和大众感情倾向是对舆情发展控制的有力手段,也是对大数据舆论信息检测的关键所在。文章针对微博热点搜索、搜狗网页提供的微信公众号热点和百度资讯的热点新闻爬取并预测舆论倾向,利用可视化界面展示分析后的结果。首先通过爬虫获取每日热点信息,文本预处理后存入数据库;然后利用LDA主题模型提取热点事件,使用卷积神经网络分析情感倾向(正面、中性和负面);最后采用Django框架展示页面,进行相关统计研究和数据的可视化展示,通过可视化界面展示分析后得到的热点事件和舆论倾向。
展开更多
关键词
舆情分析
LDA主题模型
卷积神经网络
情感倾向性分析
网络爬虫
下载PDF
职称材料
一种改进的主题网络蜘蛛搜索算法
被引量:
18
11
作者
林海霞
原福永
+1 位作者
陈金森
刘俊峰
《计算机工程与应用》
CSCD
北大核心
2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基...
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
展开更多
关键词
主题网络蜘蛛
Best—First算法
召回率
下载PDF
职称材料
面向专用信息获取的用户定制主题网络爬虫技术研究
被引量:
18
12
作者
薛丽敏
吴琦
李骏
《信息网络安全》
CSCD
2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,...
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。
展开更多
关键词
大数据
主题网络爬虫
PAGERANK算法
行为分析
用户定制
下载PDF
职称材料
分布式多主题网络爬虫系统的研究与实现
被引量:
20
13
作者
白鹤
汤迪斌
王劲林
《计算机工程》
CAS
CSCD
北大核心
2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的...
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
展开更多
关键词
网络爬虫
多主题
分布式
下载PDF
职称材料
基于主题爬虫的漏洞库维护系统
被引量:
10
14
作者
刘海燕
黄睿
黄轩
《计算机与现代化》
2014年第8期67-70,80,共5页
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善...
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。
展开更多
关键词
主题爬虫
动态主题
漏洞模型
漏洞库
下载PDF
职称材料
主题网络爬虫研究综述
被引量:
132
15
作者
刘金红
陆余良
《计算机应用研究》
CSCD
北大核心
2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方...
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
展开更多
关键词
主题网络爬虫
信息检索
web
挖掘
下载PDF
职称材料
主题网络蜘蛛搜索策略贪婪性解决方法
被引量:
4
16
作者
林海霞
原福永
陈金森
《微电子学与计算机》
CSCD
北大核心
2006年第z1期278-280,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基...
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
展开更多
关键词
主题网络蜘蛛
Best-First算法
召回率
下载PDF
职称材料
改进空间向量模型主题网络爬虫系统
被引量:
7
17
作者
徐明子
吕立
李喜旺
《计算机系统应用》
2013年第7期36-39,52,共5页
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问...
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性.
展开更多
关键词
主题爬虫
相关度计算
搜索策略
遗传因子
下载PDF
职称材料
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
被引量:
5
18
作者
陈小海
周娅
《计算机工程与科学》
CSCD
北大核心
2009年第10期126-128,共3页
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出...
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
展开更多
关键词
主题网络蜘蛛
隧道穿越
主题相似度
下载PDF
职称材料
基于主题网络爬虫的不良网页的发现与识别
被引量:
2
19
作者
方育柯
傅彦
+1 位作者
周俊临
夏虎
《郑州大学学报(理学版)》
CAS
北大核心
2010年第2期26-30,共5页
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络...
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.
展开更多
关键词
主题网络爬虫
不良网页
文本特征
下载PDF
职称材料
区域煤矿瓦斯灾害风险预警数据采集技术研究
被引量:
15
20
作者
李明建
赵旭生
+2 位作者
谈国文
宋志强
廖成
《工矿自动化》
北大核心
2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦...
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。
展开更多
关键词
区域煤矿
瓦斯灾害风险预警
数据采集
跨平台
web
API
主题网络爬虫
下载PDF
职称材料
题名
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
1
作者
方世敏
机构
国防大学政治学院
出处
《信息技术》
2024年第11期63-68,76,共7页
基金
国家社科基金军事学青年项目(2019-SKJJ-C-064)。
文摘
信息时代的开源情报传播速度快、体量大、时效性强,大量数据难以用人工进行分析,为了解决对海量数据分析的效率,研究设计了Web开源情报信息处理方法。该方法首先利用网络爬虫通过URL爬取目标情报,之后用DOM树对网页内容进行整理,采用TextRank算法提取中文关键词:并使用Chameleon聚类算法构建主题挖掘模型,该模型用于情报主题生成,自动进行情报主题分析。性能测试表明,基于Chameleon聚类算法的Web开源情报信息处理方法能够对开源情报进行有效分析。
关键词
CHAMELEON
web
开源情报
主题挖掘
网络爬虫
Keywords
Chameleon
web
open source intelligence
topic
mining
web
crawler
分类号
TP399 [自动化与计算机技术—计算机应用技术]
G350.7 [文化科学—情报学]
下载PDF
职称材料
题名
改进的PageRank在Web信息搜集中的应用
被引量:
12
2
作者
秦拯
张玲
李娜
机构
湖南大学软件学院
湖南大学计算机与通信学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1044-1049,共6页
基金
国家自然科学基金项目(60273070)
湖南省科技攻关基金项目(04GK3022)~~
文摘
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·
关键词
PAGERANK算法
主题分块
web
信息搜集
Keywords
PageRank algorithm
topic
al blocks
web
crawler
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
智能专题化信息搜集Crawler
被引量:
4
3
作者
钱榕
徐新华
郑莹
杨炳儒
机构
北京科技大学信息工程学院
北京科技大学管庄校区信息工程系
济南大学人事处
出处
《计算机工程》
CAS
CSCD
北大核心
2006年第3期57-59,共3页
基金
国家自然科学基金重点资助项目(69835001)
国家科技成果重点推广计划基金资助项目(2003EC000001)
文摘
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。
关键词
专题化爬行
web
挖掘
神经网络
加强学习
Keywords
topic
-specific
crawler
web
mining
Neural network
Reinforcement learning
分类号
TP274.2 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于主题相关度的地理信息Web服务爬虫研究
被引量:
12
4
作者
武昊
廖安平
何超英
侯东阳
机构
武汉大学遥感信息工程学院
国家基础地理信息中心
中国矿业大学环境与测绘学院
出处
《地理与地理信息科学》
CSCD
北大核心
2012年第2期27-30,共4页
基金
国家自然科学基金项目(41001216)
文摘
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。
关键词
地理信息
web
服务
服务检索
爬虫
主题相关度
Keywords
geographic information
web
services
service retrieval
crawler
topic
-relevance
分类号
P208 [天文地球—地图制图学与地理信息工程]
下载PDF
职称材料
题名
深入解析Web主题爬虫的关键性原理
被引量:
8
5
作者
王芳
陈海建
机构
上海电视大学松江分校信息工程教研组
上海电视大学信息与工程系
出处
《微型电脑应用》
2011年第7期32-34,70,共4页
文摘
随着互联网的快速发展,搜索引擎的应用越来越重要,作为搜索引擎的首要组成部分网络爬虫一直备受人们的关注。主题爬虫作为网络爬虫的重要种类使用越来越广泛,深入分析的网络主题爬虫关键性原理有助于根据需求设计出科学合理的爬虫。
关键词
网络爬虫
主题爬虫
爬虫算法
Keywords
web
crawler
topic
al
crawler
crawler
Algorithm
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种专题Web信息采集系统的设计方案
被引量:
2
6
作者
欧歌
赵恒永
机构
北京化工大学信息科学与技术学院
出处
《电脑与信息技术》
2004年第6期52-55,共4页
文摘
飞速发展的网络给综合性的采集系统带来了巨大的挑战 ,由此小型的专题信息采集已成为近年的研究热点。文章介绍了专题的 Web信息采集系统的基本原理 ,分析了专题页面在网络中的分布特性 ,提出了一种通过提供高质量种子集的方法来改善采集器性能的方法 ,节约了硬件和网络资源 ,使更新更加容易。
关键词
web
信息
采集系统
页面
硬件
网络资源
采集器
子集
专题信息
综合性
研究热点
Keywords
topic
web
crawler
seed
分类号
TP393 [自动化与计算机技术—计算机应用技术]
G250.73 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于主题网络爬虫思想的Web数据挖掘算法探讨
被引量:
1
7
作者
景冰
机构
山西财贸职业技术学院
出处
《景德镇学院学报》
2020年第3期66-68,共3页
文摘
本文提出一种基于主题网络爬虫思想的Web数据挖掘算法,通过主题网络爬虫尽可能对Web数据进行分类整合处理,促进页面检索效率的提升,在此基础之上与贝叶斯网络算法相结合,基于关联规则对Web数据进行挖掘,并通过仿真实验的方式验证整套算法的可操作性。
关键词
主题网络爬虫
数据挖掘
算法
Keywords
topic
al
web
crawler
data mining
algorithm
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web采集中信息组合自学习的研究
8
作者
张玲
许亮
姜华
机构
湖南省第一师范学院信息科学与工程系
出处
《计算机技术与发展》
2013年第11期216-219,共4页
基金
湖南省教育科研计划资助项目(09C231)
文摘
Web采集者为了尽可能准确地采集符合主题的网页信息,一般会根据多种Web信息来预测待采集链接的价值。文中为了提高Web采集系统预测链接价值的准确性,提出了一种能根据已采集页面自行调整Web信息重要性的Web采集者。它具有学习能力,能通过对训练集的爬行,分析出对于预测链接价值各种Web信息的重要性,以此调整采集过程中各Web信息的组合权值,得到符合实际Web情况的较优搜索策略。以计算机作为采集主题,对此算法和传统的Web信息固定组合的算法进行了比较。实验结果表明,较之传统的Web采集者,使用此算法的采集者具有较高的Web搜索精度。
关键词
web
采集者
链接价值
主题搜索
搜索策略
web
信息组合
Keywords
web
crawler
s
linkage value
topic
searching
searching strategy
web
information combination
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
主题Web挖掘研究
被引量:
3
9
作者
杜光芹
张化祥
赵瑞东
机构
山东师范大学信息科学与工程学院
浪潮集团
出处
《计算机技术与发展》
2008年第2期94-97,共4页
基金
山东省中青年科学家科研奖励基金(博士基金)资助项目(2006BS01020)
文摘
网络已经成为人们获取知识的一个重要途径。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎返回大量的无关信息,不能满足用户的特定信息检索需求。针对这个问题,Web信息检索领域出现了一个新的研究方向——主题驱动的Web资源发现。介绍了通用搜索引擎的基本结构、工作原理及现状。阐述了主题Web挖掘的研究背景、任务及目前研究技术的进展,并对其未来的发展方向进行了探讨。对通用搜索引擎和主题Web挖掘的关系进行了分析。
关键词
搜索引擎
信息检索
web
主题挖掘
聚焦爬虫
本体论
Keywords
search engine
information retrieval
topic
web
mining
focused
crawler
ontolngy
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于LDA的网络舆情分析智能平台的设计与实现
被引量:
2
10
作者
马燕妮
卢铁领
机构
宁夏医科大学
出处
《现代信息科技》
2023年第22期20-24,29,共6页
基金
2021年宁夏医科大学理学院科研项目(nylxy20210016)
宁夏医科大学校级科研项目(XM2023226)。
文摘
严格把控舆情方向,监测网民动态和大众感情倾向是对舆情发展控制的有力手段,也是对大数据舆论信息检测的关键所在。文章针对微博热点搜索、搜狗网页提供的微信公众号热点和百度资讯的热点新闻爬取并预测舆论倾向,利用可视化界面展示分析后的结果。首先通过爬虫获取每日热点信息,文本预处理后存入数据库;然后利用LDA主题模型提取热点事件,使用卷积神经网络分析情感倾向(正面、中性和负面);最后采用Django框架展示页面,进行相关统计研究和数据的可视化展示,通过可视化界面展示分析后得到的热点事件和舆论倾向。
关键词
舆情分析
LDA主题模型
卷积神经网络
情感倾向性分析
网络爬虫
Keywords
public opinion analysis
LDA
topic
model
Convolutional Neural Networks
analysis of emotional tendency
web
crawler
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种改进的主题网络蜘蛛搜索算法
被引量:
18
11
作者
林海霞
原福永
陈金森
刘俊峰
机构
燕山大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第10期174-176,共3页
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
关键词
主题网络蜘蛛
Best—First算法
召回率
Keywords
topic web crawler
Best-First algorithm
recall ratio
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向专用信息获取的用户定制主题网络爬虫技术研究
被引量:
18
12
作者
薛丽敏
吴琦
李骏
机构
海军指挥学院信息系
海军
出处
《信息网络安全》
CSCD
2017年第2期12-21,共10页
基金
国家自然科学基金[11202239]
文摘
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。
关键词
大数据
主题网络爬虫
PAGERANK算法
行为分析
用户定制
Keywords
big data
topic web crawler
Pagerank algorithm
behavior analysis
user customized
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
分布式多主题网络爬虫系统的研究与实现
被引量:
20
13
作者
白鹤
汤迪斌
王劲林
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第19期13-16,19,共5页
基金
国家"863"计划基金资助项目"融合型旅游在线服务业务的研究"(2008AA01A307)
文摘
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
关键词
网络爬虫
多主题
分布式
Keywords
web
crawler
multi-
topic
distributed
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于主题爬虫的漏洞库维护系统
被引量:
10
14
作者
刘海燕
黄睿
黄轩
机构
装甲兵工程学院信息工程系
出处
《计算机与现代化》
2014年第8期67-70,80,共5页
文摘
漏洞库是用来存储漏洞信息的数据库,是信息安全基础设施的重要组成部分。将主题爬虫技术引入漏洞数据库的维护工作,通过主题网络爬虫获取与"漏洞"相关的网页,从中提取漏洞信息来更新漏洞数据库,降低了人工维护的工作量,改善了现有漏洞库存在漏洞覆盖不全面、内容不丰富的问题。分析当前国内外主要漏洞库的结构特征,研究漏洞诸多属性间的关系,运用组群分类描述法构建漏洞库结构模型。在研究主题网络爬虫的基础上,提出一种面向漏洞主题的动态主题构建方案。介绍漏洞库维护系统的总体设计和实现方法。
关键词
主题爬虫
动态主题
漏洞模型
漏洞库
Keywords
topic web crawler
dynamic
topic
vulnerability model
vulnerability database
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
主题网络爬虫研究综述
被引量:
132
15
作者
刘金红
陆余良
机构
解放军电子工程学院网络系
出处
《计算机应用研究》
CSCD
北大核心
2007年第10期26-29,47,共5页
文摘
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
关键词
主题网络爬虫
信息检索
web
挖掘
Keywords
topic
-focused
crawler
information retrieval
web
mining
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
主题网络蜘蛛搜索策略贪婪性解决方法
被引量:
4
16
作者
林海霞
原福永
陈金森
机构
燕山大学信息科学与工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2006年第z1期278-280,共3页
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
关键词
主题网络蜘蛛
Best-First算法
召回率
Keywords
topic web crawler
, Best-first algorithm, Recall ratio
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进空间向量模型主题网络爬虫系统
被引量:
7
17
作者
徐明子
吕立
李喜旺
机构
中国科学院研究生院
中国科学院沈阳计算技术研究所
出处
《计算机系统应用》
2013年第7期36-39,52,共5页
文摘
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统.针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略.最后给出实验结果,证明该系统的可行性及优越性.
关键词
主题爬虫
相关度计算
搜索策略
遗传因子
Keywords
topic
-focused
web
crawler
relevance calculation
search strategy
gene factor
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
被引量:
5
18
作者
陈小海
周娅
机构
桂林电子科技大学计算机与控制学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第10期126-128,共3页
基金
广西自然科学基金资助项目(桂科青0832101)
文摘
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
关键词
主题网络蜘蛛
隧道穿越
主题相似度
Keywords
topic
al
web
crawler
tunneling
topic
al similarity
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于主题网络爬虫的不良网页的发现与识别
被引量:
2
19
作者
方育柯
傅彦
周俊临
夏虎
机构
电子科技大学计算机科学与工程学院
出处
《郑州大学学报(理学版)》
CAS
北大核心
2010年第2期26-30,共5页
基金
国家自然科学基金资助项目
编号60973120
+4 种基金
60903073
国家863计划项目
编号2007AA01Z440
四川省科技攻关项目
编号2008GZ0009
文摘
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.
关键词
主题网络爬虫
不良网页
文本特征
Keywords
topic
-focused
web
crawler
unhealthy
web
page
text feature
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
区域煤矿瓦斯灾害风险预警数据采集技术研究
被引量:
15
20
作者
李明建
赵旭生
谈国文
宋志强
廖成
机构
瓦斯灾害监控与应急技术国家重点实验室
中煤科工集团重庆研究院有限公司
出处
《工矿自动化》
北大核心
2020年第7期57-63,共7页
基金
国家重点研发计划资助项目(2018YFC0808305)。
文摘
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。
关键词
区域煤矿
瓦斯灾害风险预警
数据采集
跨平台
web
API
主题网络爬虫
Keywords
regional coal mine
gas disaster risk early warning
data collection
cross-platform
web
API
topic
crawler
分类号
TD713 [矿业工程—矿井通风与安全]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Chameleon聚类算法在Web开源情报主题挖掘中的应用研究
方世敏
《信息技术》
2024
0
下载PDF
职称材料
2
改进的PageRank在Web信息搜集中的应用
秦拯
张玲
李娜
《计算机研究与发展》
EI
CSCD
北大核心
2006
12
下载PDF
职称材料
3
智能专题化信息搜集Crawler
钱榕
徐新华
郑莹
杨炳儒
《计算机工程》
CAS
CSCD
北大核心
2006
4
下载PDF
职称材料
4
基于主题相关度的地理信息Web服务爬虫研究
武昊
廖安平
何超英
侯东阳
《地理与地理信息科学》
CSCD
北大核心
2012
12
下载PDF
职称材料
5
深入解析Web主题爬虫的关键性原理
王芳
陈海建
《微型电脑应用》
2011
8
下载PDF
职称材料
6
一种专题Web信息采集系统的设计方案
欧歌
赵恒永
《电脑与信息技术》
2004
2
下载PDF
职称材料
7
基于主题网络爬虫思想的Web数据挖掘算法探讨
景冰
《景德镇学院学报》
2020
1
下载PDF
职称材料
8
Web采集中信息组合自学习的研究
张玲
许亮
姜华
《计算机技术与发展》
2013
0
下载PDF
职称材料
9
主题Web挖掘研究
杜光芹
张化祥
赵瑞东
《计算机技术与发展》
2008
3
下载PDF
职称材料
10
基于LDA的网络舆情分析智能平台的设计与实现
马燕妮
卢铁领
《现代信息科技》
2023
2
下载PDF
职称材料
11
一种改进的主题网络蜘蛛搜索算法
林海霞
原福永
陈金森
刘俊峰
《计算机工程与应用》
CSCD
北大核心
2007
18
下载PDF
职称材料
12
面向专用信息获取的用户定制主题网络爬虫技术研究
薛丽敏
吴琦
李骏
《信息网络安全》
CSCD
2017
18
下载PDF
职称材料
13
分布式多主题网络爬虫系统的研究与实现
白鹤
汤迪斌
王劲林
《计算机工程》
CAS
CSCD
北大核心
2009
20
下载PDF
职称材料
14
基于主题爬虫的漏洞库维护系统
刘海燕
黄睿
黄轩
《计算机与现代化》
2014
10
下载PDF
职称材料
15
主题网络爬虫研究综述
刘金红
陆余良
《计算机应用研究》
CSCD
北大核心
2007
132
下载PDF
职称材料
16
主题网络蜘蛛搜索策略贪婪性解决方法
林海霞
原福永
陈金森
《微电子学与计算机》
CSCD
北大核心
2006
4
下载PDF
职称材料
17
改进空间向量模型主题网络爬虫系统
徐明子
吕立
李喜旺
《计算机系统应用》
2013
7
下载PDF
职称材料
18
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
陈小海
周娅
《计算机工程与科学》
CSCD
北大核心
2009
5
下载PDF
职称材料
19
基于主题网络爬虫的不良网页的发现与识别
方育柯
傅彦
周俊临
夏虎
《郑州大学学报(理学版)》
CAS
北大核心
2010
2
下载PDF
职称材料
20
区域煤矿瓦斯灾害风险预警数据采集技术研究
李明建
赵旭生
谈国文
宋志强
廖成
《工矿自动化》
北大核心
2020
15
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部