期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大数据时代下网络爬虫的刑事入罪规制
1
作者
李佳晓
《青岛远洋船员职业学院学报》
2023年第4期38-42,共5页
大数据时代下,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生,但在其使用过程中相关数据安全法益遭受到威胁。纵观实践中有关爬虫行为涉及的案件,以相关计算机信息系统被侵害案件与相关公民个人信息被侵害案件居多;而前...
大数据时代下,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生,但在其使用过程中相关数据安全法益遭受到威胁。纵观实践中有关爬虫行为涉及的案件,以相关计算机信息系统被侵害案件与相关公民个人信息被侵害案件居多;而前者所涉及的罪名中,涉嫌非法侵入计算机信息系统和非法获取计算机信息系统数据的罪名较多。网络爬虫作为一项中立性的技术工具,只有在被划归为恶意爬虫行为时才需由刑法予以规制,而由于法律本身存在滞后性的缺点,恶意爬虫行为的入罪路径需要进一步明晰。总体来说,对于恶意爬虫之行为入罪不能脱离基本的定罪原则即主客观相统一原则和罪刑法定原则。
展开更多
关键词
网络爬虫
恶意爬虫行为
主客观统一原则
罪刑法定原则
下载PDF
职称材料
主题爬虫技术研究综述
被引量:
5
2
作者
陈方
谭爱平
+1 位作者
成亚玲
文益民
《湖南工业职业技术学院学报》
2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改...
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。
展开更多
关键词
普通爬虫
主题爬虫
链接分析
主题相关度
页面概念
主题概念
下载PDF
职称材料
基于规则引擎的个性化主题网页爬虫的研究
被引量:
3
3
作者
赵思佳
尹婷
《计算机技术与发展》
2011年第3期56-59,63,共5页
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎...
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度。
展开更多
关键词
规则引擎
主题爬虫
搜索引擎
下载PDF
职称材料
基于遗传算法的主题信息搜索系统研究
被引量:
1
4
作者
罗长寿
康丽
刘国靖
《现代情报》
2009年第3期176-178,181,共4页
针对网络信息资源"迷向"与"过载"的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网...
针对网络信息资源"迷向"与"过载"的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。
展开更多
关键词
主题
遗传算法
爬虫
搜索系统
下载PDF
职称材料
基于概念空间的领域信息爬虫设计研究
5
作者
谢能付
王文生
段延娥
《江西师范大学学报(自然科学版)》
CAS
北大核心
2008年第2期192-196,共5页
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.
关键词
主题搜索
爬虫
搜索引擎
下载PDF
职称材料
定向网络信息采集系统的研究
被引量:
1
6
作者
熊菲
刘云
李勇
《电脑与电信》
2008年第9期24-26,共3页
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要...
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。
展开更多
关键词
信息采集
定向爬虫
面向主题
主题重要性
下载PDF
职称材料
网络舆情分析中智能爬虫的设计
被引量:
1
7
作者
周民
邱雅
王华彬
《电脑知识与技术》
2011年第11X期8301-8302,共2页
网络爬虫作为舆情分析系统的信息源收集器,其性能的优良直接关系到舆情分析结果的好坏。该文针对舆情分析要求信息源具有较高的主题覆盖率的要求,同时考虑到现有爬虫在有效利用网络资源方面的薄弱现状,在现有爬虫的基础上加入了爬虫测...
网络爬虫作为舆情分析系统的信息源收集器,其性能的优良直接关系到舆情分析结果的好坏。该文针对舆情分析要求信息源具有较高的主题覆盖率的要求,同时考虑到现有爬虫在有效利用网络资源方面的薄弱现状,在现有爬虫的基础上加入了爬虫测速模块、主题更改模块,为提高爬虫在舆情信息收集中的性能提出了一些解决方法。
展开更多
关键词
网络舆情
网络爬虫
网络资源
爬虫测速
主题更改
下载PDF
职称材料
融合LDA的卷积神经网络主题爬虫研究
被引量:
12
8
作者
汪岿
费晨杰
刘柏嵩
《计算机工程与应用》
CSCD
北大核心
2019年第11期123-128,178,共7页
传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题...
传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题爬虫的性能。在卷积层之后拼接LDA提取的主题特征,弥补传统卷积神经网络的主题信息缺失。实验结果表明,该方法可以有效提升主题判断模块的平均准确率,在真实爬取环境中相比其他方法更具优势。
展开更多
关键词
卷积神经网络
主题爬虫
深度学习
LDA主题模型
下载PDF
职称材料
分布式主题舆情采集与分析系统设计
9
作者
董富江
张文学
《软件导刊》
2020年第11期116-119,共4页
在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布...
在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布式计算环境下的主题舆情采集与舆情数据分析,并利用面向对象的分析与设计方法,基于开源爬虫设计并实现了一个分布式主题舆情采集与分析系统。利用4个爬虫节点进行分布式采集,相比传统采集模式,该系统的平均采集速度提升了2.74倍。
展开更多
关键词
分布式
主题舆情
信息采集
开源爬虫
下载PDF
职称材料
基于主题网络爬虫的创业政策信息采集研究与实现
10
作者
郑正
赵飞
周昕旸
《电脑知识与技术(过刊)》
2017年第5X期49-51,共3页
为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设...
为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设计的相关流程和实现界面。
展开更多
关键词
主题爬虫
爬行策略
网页相关度评价
下载PDF
职称材料
面向烟草行业的搜索引擎的研究与应用
11
作者
陈龙飞
何利力
《工业控制计算机》
2016年第1期124-125,127,共3页
立足烟草行业,结合笔者在实际项目中的开发经历,介绍了垂直搜索引擎的设计思路。分别对用户接口模块、检索模块、网页解析模块、网络爬虫模块进行了梳理与总结,重点阐述了网络爬虫的主题判别思路。在主题判别的过程中,将预判因子、元信...
立足烟草行业,结合笔者在实际项目中的开发经历,介绍了垂直搜索引擎的设计思路。分别对用户接口模块、检索模块、网页解析模块、网络爬虫模块进行了梳理与总结,重点阐述了网络爬虫的主题判别思路。在主题判别的过程中,将预判因子、元信息因子、词库因子纳入主题相关度的计算,提高了搜索引擎的查准率。
展开更多
关键词
搜索引擎
网络爬虫
主题判别
烟草行业
下载PDF
职称材料
爬虫技术综述
被引量:
8
12
作者
冯俐
《电脑知识与技术》
2017年第9X期213-214,共2页
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的...
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的研究方向。
展开更多
关键词
广域网分布式
WEB爬虫
主题爬虫
知识主体
下载PDF
职称材料
网络爬虫行为刑事规制问题研究
被引量:
3
13
作者
旷银
《贵州警察学院学报》
2022年第3期59-65,共7页
结合当前对网络爬虫行为的刑事规制研究,深入探讨网络爬虫行为的主客观认定对网络空间治理、数据流通和互联网行业自由竞争具有重要意义。认定网络爬虫行为违法性的重要依据之一在于授权访问,数据主体单方授权访问并不合理、授权访问的...
结合当前对网络爬虫行为的刑事规制研究,深入探讨网络爬虫行为的主客观认定对网络空间治理、数据流通和互联网行业自由竞争具有重要意义。认定网络爬虫行为违法性的重要依据之一在于授权访问,数据主体单方授权访问并不合理、授权访问的认定标准尚存争议。应该加强书面规则与技术措施之间的互联,通过反网络爬虫技术措施体现对书面规则中核心内容的保护,以此明确数据主体的意思表示,同时限缩保护范围;应通过“行为目的”和主观“明知”来考察行为人的主观心理状态。此外,还应遵循知情同意原则,从数据源头这一具体路径进行规制,以解决当前网络爬虫行为的刑事规制问题。
展开更多
关键词
网络爬虫
主客观相统一原则
行为目的
利益平衡
下载PDF
职称材料
基于医疗信息的网络爬虫系统的研究与设计
被引量:
2
14
作者
冯思度
杨健叶
韩煦
《现代信息科技》
2019年第10期23-25,共3页
医疗卫生信息对于人们了解、获取医疗资源十分重要,其准确性和实时性则尤其重要。为了方便准确而快速地检索到医疗卫生信息,需要建设一个和医疗卫生信息相关的专题搜索网站。针对上述情况,首先设计基于主题的网络爬虫功能,然后采用MSSQL...
医疗卫生信息对于人们了解、获取医疗资源十分重要,其准确性和实时性则尤其重要。为了方便准确而快速地检索到医疗卫生信息,需要建设一个和医疗卫生信息相关的专题搜索网站。针对上述情况,首先设计基于主题的网络爬虫功能,然后采用MSSQLServer2008作为数据存储、VisualStudio.NET2010作为开发工具实现专题搜索网站及其网络爬虫的设计。经过实际测试与运行表明,该系统能够满足基本的医疗信息专题搜索的要求。
展开更多
关键词
搜索引擎
网络爬虫
医疗卫生信息
专题网站
下载PDF
职称材料
重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例
被引量:
17
15
作者
韩珂珂
邢子瑶
+2 位作者
刘哲
刘峻明
张晓东
《地球信息科学学报》
CSCD
北大核心
2021年第2期331-340,共10页
2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信...
2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信息进行深入挖掘分析不但能研判舆情特点,更有助于政府对公众的情绪进行针对性疏导,合理管控舆情。因此,本文采集了2020年1月18日到2020年1月28日期间关于新冠肺炎的33万余条新浪微博数据,基于Louvain和Kmeans的空间聚类、改进的BTM主题词提取等算法,将用户关注热点信息和情感特征作为地域标签,构建了反映情感特征、地域关联与热点关注在内的舆情评价方法,实现了基于位置的信息融合,能够分析不同区域的舆情特点与关注主题差异。研究表明:基于BERT词向量的BTM主题词提取方法可以有效弥补传统主题词提取的计算量大、数据冗余等缺点,在热点挖掘时具有更强的表达能力;不同区域关注热点具有一定的差异性,结合省级、市级及基于Louvain-Kmeans的空间聚类的多尺度舆情分析方法,可以全方位展现不同区域舆情特点。本文提出的舆情分析方法可以有效反映不同区域的舆情特征,为重大公共卫生事件的舆情分析提供参考。
展开更多
关键词
新冠肺炎
微博
情感分析
空间聚类
舆情
主题词提取
热点挖掘
爬虫
原文传递
题名
大数据时代下网络爬虫的刑事入罪规制
1
作者
李佳晓
机构
上海政法学院刑事司法学院
出处
《青岛远洋船员职业学院学报》
2023年第4期38-42,共5页
文摘
大数据时代下,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生,但在其使用过程中相关数据安全法益遭受到威胁。纵观实践中有关爬虫行为涉及的案件,以相关计算机信息系统被侵害案件与相关公民个人信息被侵害案件居多;而前者所涉及的罪名中,涉嫌非法侵入计算机信息系统和非法获取计算机信息系统数据的罪名较多。网络爬虫作为一项中立性的技术工具,只有在被划归为恶意爬虫行为时才需由刑法予以规制,而由于法律本身存在滞后性的缺点,恶意爬虫行为的入罪路径需要进一步明晰。总体来说,对于恶意爬虫之行为入罪不能脱离基本的定罪原则即主客观相统一原则和罪刑法定原则。
关键词
网络爬虫
恶意爬虫行为
主客观统一原则
罪刑法定原则
Keywords
web
crawler
s
malicious
crawler
behaviour
the principle of unity of
subject
ivity and objectivity
the principle of the legality of crime and punishment
分类号
D923 [政治法律—民商法学]
下载PDF
职称材料
题名
主题爬虫技术研究综述
被引量:
5
2
作者
陈方
谭爱平
成亚玲
文益民
机构
湖南工业职业技术学院
出处
《湖南工业职业技术学院学报》
2008年第5期13-16,共4页
文摘
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。
关键词
普通爬虫
主题爬虫
链接分析
主题相关度
页面概念
主题概念
Keywords
average
crawler
subject crawler
interlinkage is analyzed
deep web
subject
relevance degree
page of face concept
subject
concept.
分类号
TP316.8 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于规则引擎的个性化主题网页爬虫的研究
被引量:
3
3
作者
赵思佳
尹婷
机构
中南大学信息科学与工程学院
出处
《计算机技术与发展》
2011年第3期56-59,63,共5页
基金
信息产业部电子发展基金项目(信部运[2006]634号)
文摘
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度。
关键词
规则引擎
主题爬虫
搜索引擎
Keywords
rules engine
subject crawler
search engine
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于遗传算法的主题信息搜索系统研究
被引量:
1
4
作者
罗长寿
康丽
刘国靖
机构
北京市农林科学院农业科技信息研究所
中国农业大学信息与电气工程学院
出处
《现代情报》
2009年第3期176-178,181,共4页
基金
北京市自然科学基金资助项目(4062013):遗传算法在网页信息搜索技术中的应用研究
文摘
针对网络信息资源"迷向"与"过载"的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。
关键词
主题
遗传算法
爬虫
搜索系统
Keywords
subject
genetic algorithm
crawler
search system
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于概念空间的领域信息爬虫设计研究
5
作者
谢能付
王文生
段延娥
机构
中国农业科学院农业信息研究所
北京农学院计算机与信息工程系
出处
《江西师范大学学报(自然科学版)》
CAS
北大核心
2008年第2期192-196,共5页
基金
中国农业科学院农业信息研究所基本科研业务费专项(2007211)
国家科技支撑计划(2006BAD10A06)资助项目
文摘
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.
关键词
主题搜索
爬虫
搜索引擎
Keywords
subject
search
crawler
search engine
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
定向网络信息采集系统的研究
被引量:
1
6
作者
熊菲
刘云
李勇
机构
北京交通大学通信与信息系统北京市重点实验室
出处
《电脑与电信》
2008年第9期24-26,共3页
基金
教育部高等学校科技创新工程重大项目培育基金项目
项目编号:707006
+3 种基金
通信与信息系统北京市重点实验室资助项目
北京市教育委员会共建项目专项资助
北京交通大学校基金项目
项目编号:2006XM001
文摘
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。
关键词
信息采集
定向爬虫
面向主题
主题重要性
Keywords
information collection
directional
crawler
subject
oriented
topic adsorbability
分类号
TP393 [自动化与计算机技术—计算机应用技术]
TU113.51 [建筑科学—建筑理论]
下载PDF
职称材料
题名
网络舆情分析中智能爬虫的设计
被引量:
1
7
作者
周民
邱雅
王华彬
机构
南阳理工学院
武汉天和技术股份有限公司
出处
《电脑知识与技术》
2011年第11X期8301-8302,共2页
文摘
网络爬虫作为舆情分析系统的信息源收集器,其性能的优良直接关系到舆情分析结果的好坏。该文针对舆情分析要求信息源具有较高的主题覆盖率的要求,同时考虑到现有爬虫在有效利用网络资源方面的薄弱现状,在现有爬虫的基础上加入了爬虫测速模块、主题更改模块,为提高爬虫在舆情信息收集中的性能提出了一些解决方法。
关键词
网络舆情
网络爬虫
网络资源
爬虫测速
主题更改
Keywords
network public opinion
web
crawler
network resources
web
crawler
speed
subject
to change
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
融合LDA的卷积神经网络主题爬虫研究
被引量:
12
8
作者
汪岿
费晨杰
刘柏嵩
机构
宁波大学信息科学与工程学院
宁波大学图书馆与信息中心
出处
《计算机工程与应用》
CSCD
北大核心
2019年第11期123-128,178,共7页
基金
国家社会科学基金/后期资助项目(No.15FTQ002)
省部级实验室/开放基金(No.B2014)
文摘
传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题爬虫的性能。在卷积层之后拼接LDA提取的主题特征,弥补传统卷积神经网络的主题信息缺失。实验结果表明,该方法可以有效提升主题判断模块的平均准确率,在真实爬取环境中相比其他方法更具优势。
关键词
卷积神经网络
主题爬虫
深度学习
LDA主题模型
Keywords
convolutional neural network
subject crawler
deep learning
LDA topic model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
分布式主题舆情采集与分析系统设计
9
作者
董富江
张文学
机构
宁夏医科大学理学院
出处
《软件导刊》
2020年第11期116-119,共4页
基金
宁夏自然科学基金项目(2020AAC03122)
宁夏医科大学基金项目(NYJY2055)。
文摘
在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布式计算环境下的主题舆情采集与舆情数据分析,并利用面向对象的分析与设计方法,基于开源爬虫设计并实现了一个分布式主题舆情采集与分析系统。利用4个爬虫节点进行分布式采集,相比传统采集模式,该系统的平均采集速度提升了2.74倍。
关键词
分布式
主题舆情
信息采集
开源爬虫
Keywords
distributed
subject
public opinion
information collection
open source
crawler
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于主题网络爬虫的创业政策信息采集研究与实现
10
作者
郑正
赵飞
周昕旸
机构
南京师范大学计算机科学与技术学院
出处
《电脑知识与技术(过刊)》
2017年第5X期49-51,共3页
文摘
为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设计的相关流程和实现界面。
关键词
主题爬虫
爬行策略
网页相关度评价
Keywords
subject
-oriented
crawler
crawling strategy
Web page relevance evaluation
分类号
TP274.2 [自动化与计算机技术—检测技术与自动化装置]
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向烟草行业的搜索引擎的研究与应用
11
作者
陈龙飞
何利力
机构
浙江理工大学信息学院
出处
《工业控制计算机》
2016年第1期124-125,127,共3页
文摘
立足烟草行业,结合笔者在实际项目中的开发经历,介绍了垂直搜索引擎的设计思路。分别对用户接口模块、检索模块、网页解析模块、网络爬虫模块进行了梳理与总结,重点阐述了网络爬虫的主题判别思路。在主题判别的过程中,将预判因子、元信息因子、词库因子纳入主题相关度的计算,提高了搜索引擎的查准率。
关键词
搜索引擎
网络爬虫
主题判别
烟草行业
Keywords
search engine,web
crawler
,
subject
discrimination,tobacco industry
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
爬虫技术综述
被引量:
8
12
作者
冯俐
机构
川北医学院现代教育技术中心
出处
《电脑知识与技术》
2017年第9X期213-214,共2页
文摘
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的研究方向。
关键词
广域网分布式
WEB爬虫
主题爬虫
知识主体
Keywords
Wan distributed Web
crawler
topical
crawler
knowledge
subject
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络爬虫行为刑事规制问题研究
被引量:
3
13
作者
旷银
机构
甘肃政法大学
出处
《贵州警察学院学报》
2022年第3期59-65,共7页
文摘
结合当前对网络爬虫行为的刑事规制研究,深入探讨网络爬虫行为的主客观认定对网络空间治理、数据流通和互联网行业自由竞争具有重要意义。认定网络爬虫行为违法性的重要依据之一在于授权访问,数据主体单方授权访问并不合理、授权访问的认定标准尚存争议。应该加强书面规则与技术措施之间的互联,通过反网络爬虫技术措施体现对书面规则中核心内容的保护,以此明确数据主体的意思表示,同时限缩保护范围;应通过“行为目的”和主观“明知”来考察行为人的主观心理状态。此外,还应遵循知情同意原则,从数据源头这一具体路径进行规制,以解决当前网络爬虫行为的刑事规制问题。
关键词
网络爬虫
主客观相统一原则
行为目的
利益平衡
Keywords
web
crawler
the principle of the unification of
subject
ive aspects and objective aspects
purpose of the behavior
balancing of interests
分类号
D924 [政治法律—刑法学]
下载PDF
职称材料
题名
基于医疗信息的网络爬虫系统的研究与设计
被引量:
2
14
作者
冯思度
杨健叶
韩煦
机构
徐州医科大学医学信息学院
出处
《现代信息科技》
2019年第10期23-25,共3页
基金
2017年国家级大学生创新创业训练计划项目:数字化医院中多源异构数据集成平台的设计与开发(项目编号:201710313021)
2017年大学生创新创业训练计划重点项目:数字化医院中多源异构数据集成平台的设计与开发(项目编号:201710313021Z)
文摘
医疗卫生信息对于人们了解、获取医疗资源十分重要,其准确性和实时性则尤其重要。为了方便准确而快速地检索到医疗卫生信息,需要建设一个和医疗卫生信息相关的专题搜索网站。针对上述情况,首先设计基于主题的网络爬虫功能,然后采用MSSQLServer2008作为数据存储、VisualStudio.NET2010作为开发工具实现专题搜索网站及其网络爬虫的设计。经过实际测试与运行表明,该系统能够满足基本的医疗信息专题搜索的要求。
关键词
搜索引擎
网络爬虫
医疗卫生信息
专题网站
Keywords
search engine
web
crawler
medical and health information
special
subject
website
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例
被引量:
17
15
作者
韩珂珂
邢子瑶
刘哲
刘峻明
张晓东
机构
中国农业大学土地科学与技术学院
中国农业大学农业农村部农业灾害遥感重点实验室
出处
《地球信息科学学报》
CSCD
北大核心
2021年第2期331-340,共10页
基金
国家重点研发计划项目(2018YFC1508901-3)。
文摘
2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信息进行深入挖掘分析不但能研判舆情特点,更有助于政府对公众的情绪进行针对性疏导,合理管控舆情。因此,本文采集了2020年1月18日到2020年1月28日期间关于新冠肺炎的33万余条新浪微博数据,基于Louvain和Kmeans的空间聚类、改进的BTM主题词提取等算法,将用户关注热点信息和情感特征作为地域标签,构建了反映情感特征、地域关联与热点关注在内的舆情评价方法,实现了基于位置的信息融合,能够分析不同区域的舆情特点与关注主题差异。研究表明:基于BERT词向量的BTM主题词提取方法可以有效弥补传统主题词提取的计算量大、数据冗余等缺点,在热点挖掘时具有更强的表达能力;不同区域关注热点具有一定的差异性,结合省级、市级及基于Louvain-Kmeans的空间聚类的多尺度舆情分析方法,可以全方位展现不同区域舆情特点。本文提出的舆情分析方法可以有效反映不同区域的舆情特征,为重大公共卫生事件的舆情分析提供参考。
关键词
新冠肺炎
微博
情感分析
空间聚类
舆情
主题词提取
热点挖掘
爬虫
Keywords
COVID-19
Weibo
sentiment analysis
spatial clustering
public opinion
subject
word extraction
hot mining
the
crawler
分类号
R563.1 [医药卫生—呼吸系统]
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
大数据时代下网络爬虫的刑事入罪规制
李佳晓
《青岛远洋船员职业学院学报》
2023
0
下载PDF
职称材料
2
主题爬虫技术研究综述
陈方
谭爱平
成亚玲
文益民
《湖南工业职业技术学院学报》
2008
5
下载PDF
职称材料
3
基于规则引擎的个性化主题网页爬虫的研究
赵思佳
尹婷
《计算机技术与发展》
2011
3
下载PDF
职称材料
4
基于遗传算法的主题信息搜索系统研究
罗长寿
康丽
刘国靖
《现代情报》
2009
1
下载PDF
职称材料
5
基于概念空间的领域信息爬虫设计研究
谢能付
王文生
段延娥
《江西师范大学学报(自然科学版)》
CAS
北大核心
2008
0
下载PDF
职称材料
6
定向网络信息采集系统的研究
熊菲
刘云
李勇
《电脑与电信》
2008
1
下载PDF
职称材料
7
网络舆情分析中智能爬虫的设计
周民
邱雅
王华彬
《电脑知识与技术》
2011
1
下载PDF
职称材料
8
融合LDA的卷积神经网络主题爬虫研究
汪岿
费晨杰
刘柏嵩
《计算机工程与应用》
CSCD
北大核心
2019
12
下载PDF
职称材料
9
分布式主题舆情采集与分析系统设计
董富江
张文学
《软件导刊》
2020
0
下载PDF
职称材料
10
基于主题网络爬虫的创业政策信息采集研究与实现
郑正
赵飞
周昕旸
《电脑知识与技术(过刊)》
2017
0
下载PDF
职称材料
11
面向烟草行业的搜索引擎的研究与应用
陈龙飞
何利力
《工业控制计算机》
2016
0
下载PDF
职称材料
12
爬虫技术综述
冯俐
《电脑知识与技术》
2017
8
下载PDF
职称材料
13
网络爬虫行为刑事规制问题研究
旷银
《贵州警察学院学报》
2022
3
下载PDF
职称材料
14
基于医疗信息的网络爬虫系统的研究与设计
冯思度
杨健叶
韩煦
《现代信息科技》
2019
2
下载PDF
职称材料
15
重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例
韩珂珂
邢子瑶
刘哲
刘峻明
张晓东
《地球信息科学学报》
CSCD
北大核心
2021
17
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部