期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
大数据时代下网络爬虫的刑事入罪规制
1
作者 李佳晓 《青岛远洋船员职业学院学报》 2023年第4期38-42,共5页
大数据时代下,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生,但在其使用过程中相关数据安全法益遭受到威胁。纵观实践中有关爬虫行为涉及的案件,以相关计算机信息系统被侵害案件与相关公民个人信息被侵害案件居多;而前... 大数据时代下,数据信息呈爆炸式增长,网络爬虫作为一款数据搜索引擎应运而生,但在其使用过程中相关数据安全法益遭受到威胁。纵观实践中有关爬虫行为涉及的案件,以相关计算机信息系统被侵害案件与相关公民个人信息被侵害案件居多;而前者所涉及的罪名中,涉嫌非法侵入计算机信息系统和非法获取计算机信息系统数据的罪名较多。网络爬虫作为一项中立性的技术工具,只有在被划归为恶意爬虫行为时才需由刑法予以规制,而由于法律本身存在滞后性的缺点,恶意爬虫行为的入罪路径需要进一步明晰。总体来说,对于恶意爬虫之行为入罪不能脱离基本的定罪原则即主客观相统一原则和罪刑法定原则。 展开更多
关键词 网络爬虫 恶意爬虫行为 主客观统一原则 罪刑法定原则
下载PDF
主题爬虫技术研究综述 被引量:5
2
作者 陈方 谭爱平 +1 位作者 成亚玲 文益民 《湖南工业职业技术学院学报》 2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改... 万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。 展开更多
关键词 普通爬虫 主题爬虫 链接分析 主题相关度 页面概念 主题概念
下载PDF
基于规则引擎的个性化主题网页爬虫的研究 被引量:3
3
作者 赵思佳 尹婷 《计算机技术与发展》 2011年第3期56-59,63,共5页
目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎... 目前互联网上的信息正在飞速的增长,人们主要依靠搜索引擎查找信息,随着专业化不断加强,垂直搜索引擎成为人们新的工具,但构建专业化搜索引擎过程比较复杂。为了解决垂直搜索引擎中主题爬虫配置不灵活的问题,采用在爬虫上集成规则引擎的方法,通过规则库来控制爬虫运行,并且使用可扩展度较高的开源爬虫项目Heritrix和开源规则引擎项目Drools,构建配置方便、灵活度高的个性化爬虫,从而将原先主题爬虫的设置从紧耦合转变成了松耦合,降低了用户配置难度。 展开更多
关键词 规则引擎 主题爬虫 搜索引擎
下载PDF
基于遗传算法的主题信息搜索系统研究 被引量:1
4
作者 罗长寿 康丽 刘国靖 《现代情报》 2009年第3期176-178,181,共4页
针对网络信息资源"迷向"与"过载"的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网... 针对网络信息资源"迷向"与"过载"的现象,本文通过对遗传算法的分析应用,构建了由基于遗传算法的主题爬虫、信息处理和查询服务三部分组成的主题信息搜索系统。实验结果表明,应用该系统可以获取与主题相关度高的网页信息。 展开更多
关键词 主题 遗传算法 爬虫 搜索系统
下载PDF
基于概念空间的领域信息爬虫设计研究
5
作者 谢能付 王文生 段延娥 《江西师范大学学报(自然科学版)》 CAS 北大核心 2008年第2期192-196,共5页
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率.
关键词 主题搜索 爬虫 搜索引擎
下载PDF
定向网络信息采集系统的研究 被引量:1
6
作者 熊菲 刘云 李勇 《电脑与电信》 2008年第9期24-26,共3页
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要... 通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。 展开更多
关键词 信息采集 定向爬虫 面向主题 主题重要性
下载PDF
网络舆情分析中智能爬虫的设计 被引量:1
7
作者 周民 邱雅 王华彬 《电脑知识与技术》 2011年第11X期8301-8302,共2页
网络爬虫作为舆情分析系统的信息源收集器,其性能的优良直接关系到舆情分析结果的好坏。该文针对舆情分析要求信息源具有较高的主题覆盖率的要求,同时考虑到现有爬虫在有效利用网络资源方面的薄弱现状,在现有爬虫的基础上加入了爬虫测... 网络爬虫作为舆情分析系统的信息源收集器,其性能的优良直接关系到舆情分析结果的好坏。该文针对舆情分析要求信息源具有较高的主题覆盖率的要求,同时考虑到现有爬虫在有效利用网络资源方面的薄弱现状,在现有爬虫的基础上加入了爬虫测速模块、主题更改模块,为提高爬虫在舆情信息收集中的性能提出了一些解决方法。 展开更多
关键词 网络舆情 网络爬虫 网络资源 爬虫测速 主题更改
下载PDF
融合LDA的卷积神经网络主题爬虫研究 被引量:12
8
作者 汪岿 费晨杰 刘柏嵩 《计算机工程与应用》 CSCD 北大核心 2019年第11期123-128,178,共7页
传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题... 传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题爬虫的性能。在卷积层之后拼接LDA提取的主题特征,弥补传统卷积神经网络的主题信息缺失。实验结果表明,该方法可以有效提升主题判断模块的平均准确率,在真实爬取环境中相比其他方法更具优势。 展开更多
关键词 卷积神经网络 主题爬虫 深度学习 LDA主题模型
下载PDF
分布式主题舆情采集与分析系统设计
9
作者 董富江 张文学 《软件导刊》 2020年第11期116-119,共4页
在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布... 在大数据和移动互联网的时代背景下,舆情信息的迅猛增长为其采集与分析带来挑战。运用分布式计算技术,有利于对领域海量主题舆情的快速采集与分析。研究主题舆情采集与分析关键技术,包括主题舆情采集技术、领域词典和中文分词,探讨分布式计算环境下的主题舆情采集与舆情数据分析,并利用面向对象的分析与设计方法,基于开源爬虫设计并实现了一个分布式主题舆情采集与分析系统。利用4个爬虫节点进行分布式采集,相比传统采集模式,该系统的平均采集速度提升了2.74倍。 展开更多
关键词 分布式 主题舆情 信息采集 开源爬虫
下载PDF
基于主题网络爬虫的创业政策信息采集研究与实现
10
作者 郑正 赵飞 周昕旸 《电脑知识与技术(过刊)》 2017年第5X期49-51,共3页
为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设... 为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设计的相关流程和实现界面。 展开更多
关键词 主题爬虫 爬行策略 网页相关度评价
下载PDF
面向烟草行业的搜索引擎的研究与应用
11
作者 陈龙飞 何利力 《工业控制计算机》 2016年第1期124-125,127,共3页
立足烟草行业,结合笔者在实际项目中的开发经历,介绍了垂直搜索引擎的设计思路。分别对用户接口模块、检索模块、网页解析模块、网络爬虫模块进行了梳理与总结,重点阐述了网络爬虫的主题判别思路。在主题判别的过程中,将预判因子、元信... 立足烟草行业,结合笔者在实际项目中的开发经历,介绍了垂直搜索引擎的设计思路。分别对用户接口模块、检索模块、网页解析模块、网络爬虫模块进行了梳理与总结,重点阐述了网络爬虫的主题判别思路。在主题判别的过程中,将预判因子、元信息因子、词库因子纳入主题相关度的计算,提高了搜索引擎的查准率。 展开更多
关键词 搜索引擎 网络爬虫 主题判别 烟草行业
下载PDF
爬虫技术综述 被引量:8
12
作者 冯俐 《电脑知识与技术》 2017年第9X期213-214,共2页
文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的... 文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增量爬虫等特殊分类的爬虫,着重介绍了主题爬虫的原理和相关策略,优势、应用和问题,最后提出主题爬虫未来的研究方向。 展开更多
关键词 广域网分布式 WEB爬虫 主题爬虫 知识主体
下载PDF
基于医疗信息的网络爬虫系统的研究与设计 被引量:2
13
作者 冯思度 杨健叶 韩煦 《现代信息科技》 2019年第10期23-25,共3页
医疗卫生信息对于人们了解、获取医疗资源十分重要,其准确性和实时性则尤其重要。为了方便准确而快速地检索到医疗卫生信息,需要建设一个和医疗卫生信息相关的专题搜索网站。针对上述情况,首先设计基于主题的网络爬虫功能,然后采用MSSQL... 医疗卫生信息对于人们了解、获取医疗资源十分重要,其准确性和实时性则尤其重要。为了方便准确而快速地检索到医疗卫生信息,需要建设一个和医疗卫生信息相关的专题搜索网站。针对上述情况,首先设计基于主题的网络爬虫功能,然后采用MSSQLServer2008作为数据存储、VisualStudio.NET2010作为开发工具实现专题搜索网站及其网络爬虫的设计。经过实际测试与运行表明,该系统能够满足基本的医疗信息专题搜索的要求。 展开更多
关键词 搜索引擎 网络爬虫 医疗卫生信息 专题网站
下载PDF
网络爬虫行为刑事规制问题研究 被引量:2
14
作者 旷银 《贵州警察学院学报》 2022年第3期59-65,共7页
结合当前对网络爬虫行为的刑事规制研究,深入探讨网络爬虫行为的主客观认定对网络空间治理、数据流通和互联网行业自由竞争具有重要意义。认定网络爬虫行为违法性的重要依据之一在于授权访问,数据主体单方授权访问并不合理、授权访问的... 结合当前对网络爬虫行为的刑事规制研究,深入探讨网络爬虫行为的主客观认定对网络空间治理、数据流通和互联网行业自由竞争具有重要意义。认定网络爬虫行为违法性的重要依据之一在于授权访问,数据主体单方授权访问并不合理、授权访问的认定标准尚存争议。应该加强书面规则与技术措施之间的互联,通过反网络爬虫技术措施体现对书面规则中核心内容的保护,以此明确数据主体的意思表示,同时限缩保护范围;应通过“行为目的”和主观“明知”来考察行为人的主观心理状态。此外,还应遵循知情同意原则,从数据源头这一具体路径进行规制,以解决当前网络爬虫行为的刑事规制问题。 展开更多
关键词 网络爬虫 主客观相统一原则 行为目的 利益平衡
下载PDF
重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例 被引量:17
15
作者 韩珂珂 邢子瑶 +2 位作者 刘哲 刘峻明 张晓东 《地球信息科学学报》 CSCD 北大核心 2021年第2期331-340,共10页
2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信... 2019年12月以来,新冠肺炎疫情迅速席卷全球,截至北京时间2020年5月10日16时40分,全球累计确诊病例4 115 662例,已成为全球聚焦的主要话题。微博等社交媒体平台成为此次疫情相关信息传播的重要渠道和公众情绪的有效传感器之一。对微博信息进行深入挖掘分析不但能研判舆情特点,更有助于政府对公众的情绪进行针对性疏导,合理管控舆情。因此,本文采集了2020年1月18日到2020年1月28日期间关于新冠肺炎的33万余条新浪微博数据,基于Louvain和Kmeans的空间聚类、改进的BTM主题词提取等算法,将用户关注热点信息和情感特征作为地域标签,构建了反映情感特征、地域关联与热点关注在内的舆情评价方法,实现了基于位置的信息融合,能够分析不同区域的舆情特点与关注主题差异。研究表明:基于BERT词向量的BTM主题词提取方法可以有效弥补传统主题词提取的计算量大、数据冗余等缺点,在热点挖掘时具有更强的表达能力;不同区域关注热点具有一定的差异性,结合省级、市级及基于Louvain-Kmeans的空间聚类的多尺度舆情分析方法,可以全方位展现不同区域舆情特点。本文提出的舆情分析方法可以有效反映不同区域的舆情特征,为重大公共卫生事件的舆情分析提供参考。 展开更多
关键词 新冠肺炎 微博 情感分析 空间聚类 舆情 主题词提取 热点挖掘 爬虫
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部