期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于Python爬虫技术的研究 被引量:2
1
作者 洪丽华 黄琼慧 《价值工程》 2022年第34期154-156,共3页
随着科学的发展,网络的应用随之快速地发展。网络提供了大量的资源,用户如何在这些资源中快速地找到自己所需要的呢?爬虫技术,可以自动、快速地帮助用户搜索、整理相关的资源。本文从Python、爬虫技术和网页爬虫等三大方面进行阐述。
关键词 PYTHON 爬虫技术 网页爬虫
下载PDF
基于BHO技术的恶意网页行为检测系统的应用研究 被引量:1
2
作者 魏晋 《新乡学院学报》 2012年第6期535-537,共3页
在恶意网页检测技术中引入BHO技术,构建一个恶意网页行为检测系统.实际测试结果表明,基于BHO技术的恶意网页行为检测系统具有较高的效率和准确率.
关键词 蜜罐 虚拟机 网页爬虫 行为检测 交互接口 恶意网页
下载PDF
基于网页对比的校园二级网站防篡改监控系统的设计与实现 被引量:3
3
作者 鲁寅辉 高珺 《实验技术与管理》 CAS 北大核心 2011年第6期119-121,133,共4页
在高校信息化建设过程中,校园网内大量的二级网站内容和安全监管工作存在着多种薄弱环节。提出了针对高校中大量二级网站防篡改监控系统的方案,使用爬虫程序抓取二级网站的网页内容。使用网页对比工具对网页的新旧数据作比对,运用正则... 在高校信息化建设过程中,校园网内大量的二级网站内容和安全监管工作存在着多种薄弱环节。提出了针对高校中大量二级网站防篡改监控系统的方案,使用爬虫程序抓取二级网站的网页内容。使用网页对比工具对网页的新旧数据作比对,运用正则表达式定制忽略列表以过滤自动变更的信息,将有变动的网页展示给监控人员;监控人员对结果作出审核确认,及时发现网页异常改动的情况,从而在第一时间知道并应对可能发生的篡改事件。 展开更多
关键词 监控系统 防篡改 网页爬虫 网页对比 校园二级网站
下载PDF
藏文网页搜索关键技术研究
4
作者 张云洋 《计算机时代》 2017年第6期22-25,共4页
通过分析藏文网站中藏文字符的编码特点,结合搜索引擎的特点对藏文网页搜索的关键技术进行了研究。对藏文网页的URL处理技术、限定爬虫、藏文网页倒排索引的建立、网页的检索和结果排序等进行了详细地阐述,提出了较完整的藏文网页搜索方... 通过分析藏文网站中藏文字符的编码特点,结合搜索引擎的特点对藏文网页搜索的关键技术进行了研究。对藏文网页的URL处理技术、限定爬虫、藏文网页倒排索引的建立、网页的检索和结果排序等进行了详细地阐述,提出了较完整的藏文网页搜索方法,对于藏文网页信息的搜索和利用有一定的实用价值。 展开更多
关键词 藏文编码 搜索引擎 倒排索引 网页爬虫
下载PDF
基于DOM状态转换的隐网页信息抽取算法 被引量:5
5
作者 房勇 李银胜 《计算机应用与软件》 CSCD 2015年第9期17-21,共5页
由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标... 由于网页大量包含动态Java Script脚本,造成大部分网页内容对传统的网页爬虫不可见。为此,提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机,以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索;通过重放点击路径,自动完成目标节点的内容抓取;通过覆盖监听器方法原型,获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩,以缩减搜索空间,定义DOM树中候选节点到目标节点的距离作为h打分,进行启发式搜索。实验表明,所研究算法性能优良,对隐网页内容的抽取准确率达到89.48%,可应用在网页自动化测试、网页爬虫等领域。 展开更多
关键词 WEB信息抽取 隐Web 网页爬虫
下载PDF
一种藏语语料网页数据的采集方法 被引量:1
6
作者 扎西吉 才智杰 《通讯世界》 2017年第9期115-116,共2页
语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、... 语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。 展开更多
关键词 藏语自然语言处理 语料库 网页爬虫 深度优先遍历
下载PDF
基于网络爬虫技术的中英互译系统研究 被引量:1
7
作者 李信然 孙洪波 梅良才 《电子技术与软件工程》 2021年第17期43-44,共2页
本文通过爬取360翻译网页的数据以及运用GUI界面美观设计的结合,并且也调用wx、requests、json等模块和调用函数对事件进行处理绑定,个性化的处理也让用户在使用过程中拥有愉悦的心情。小型便捷的中英互译助手在生活和生产方面对人民的... 本文通过爬取360翻译网页的数据以及运用GUI界面美观设计的结合,并且也调用wx、requests、json等模块和调用函数对事件进行处理绑定,个性化的处理也让用户在使用过程中拥有愉悦的心情。小型便捷的中英互译助手在生活和生产方面对人民的生活具有一定的实用性和有效性。 展开更多
关键词 GUI界面设计 python网页爬虫 函数调用
下载PDF
基于搜索引擎发现技术的网页存储
8
作者 顾玲华 《苏州大学学报(工科版)》 CAS 2011年第2期70-74,共5页
首先概述了搜索引擎的发展,再对搜索引擎发现技术进行介绍,选择其中一种算法即网页爬虫实现对某个网站关于网页信息的提取与存储,最后进行了总结与展望。
关键词 搜索引擎 发现技术 网页存储 网页爬虫
下载PDF
基于网页文本的数据处理类岗位需求分析 被引量:3
9
作者 陈伟龙 邱梁泉 张小华 《信息记录材料》 2018年第11期219-220,共2页
大数据背景下,数据处理类岗位需求激增,本文通过网页爬虫获取拉勾网一年的网页数据,分析数据处理类岗位的行业分布和地域分布。将数据处理类岗位分位三类:数据分析师、数据工程师、数据科学家。从薪资水平、岗位职责和要求、就业技能三... 大数据背景下,数据处理类岗位需求激增,本文通过网页爬虫获取拉勾网一年的网页数据,分析数据处理类岗位的行业分布和地域分布。将数据处理类岗位分位三类:数据分析师、数据工程师、数据科学家。从薪资水平、岗位职责和要求、就业技能三个方面分析三类岗位的差异,选取公司规模、融资阶段、经验和学历要求四个指标,使用Kruskal-Wallis检验分析不同岗位的薪资影响因素,为数据人才就业和职业发提供参考。 展开更多
关键词 数据处理岗 网页文本爬虫 Kruskal-Wallis检验
下载PDF
基于特征集合的XSS漏洞安全研究 被引量:4
10
作者 齐晓霞 丁黄法 王琦进 《西华大学学报(自然科学版)》 CAS 2018年第6期37-41,共5页
跨站脚本XSS是Web安全的主要威胁。在分析网页爬虫的爬取流程基础上,提出一种网络爬虫架构,根据特征集合对爬取的网页资源进行XSS漏洞分析。通过Java和Python环境下的实验测试,该爬虫架构能爬取到页面的细小方面,使用特征提取能够进行... 跨站脚本XSS是Web安全的主要威胁。在分析网页爬虫的爬取流程基础上,提出一种网络爬虫架构,根据特征集合对爬取的网页资源进行XSS漏洞分析。通过Java和Python环境下的实验测试,该爬虫架构能爬取到页面的细小方面,使用特征提取能够进行有效的识别。 展开更多
关键词 XSS Web检测 网页爬虫 特征集合
下载PDF
基于分布式Docker群集的招聘网站职位数据持续爬取和分析 被引量:2
11
作者 张梁斌 柴晖 +1 位作者 王渊明 万健 《浙江万里学院学报》 2019年第2期85-90,共6页
许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台... 许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展示的统计图表,可为求职者提供直观的职位信息参考。 展开更多
关键词 招聘职位 网页爬虫 Docker群集 SWARM 可视化
下载PDF
基于Web医疗数据的互联网医疗用户研究 被引量:4
12
作者 冯洪海 孙远灿 +2 位作者 李利敏 宋舒晗 黄俊辉 《计算机时代》 2017年第4期41-43,46,共4页
互联网医疗的蓬勃发展带来了大量的数据积累,如何有效的利用这些数据是当前面临的问题。通过开发爬虫软件,获取了截至2017年2月寻医问药网中内科和外科的131894条咨询数据。针对这些数据,用统计学方法调查用户的性别和年龄分布,通过程... 互联网医疗的蓬勃发展带来了大量的数据积累,如何有效的利用这些数据是当前面临的问题。通过开发爬虫软件,获取了截至2017年2月寻医问药网中内科和外科的131894条咨询数据。针对这些数据,用统计学方法调查用户的性别和年龄分布,通过程序识别咨询数据中的症状和疾病,统计了现阶段互联网医疗用户症状和疾病的分布。 展开更多
关键词 互联网医疗 网页爬虫 症状分布 疾病分布
下载PDF
科技情报智能检索与语义分析 被引量:1
13
作者 袁林 葛唯益 陈晓琳 《指挥信息系统与技术》 2019年第5期34-39,共6页
为实现互联网上科技文字信息的有效获取和快速分析研读,研究了基于Heritrix增量式爬虫的科技情报搜集、基于科技情报语料库的统计机器翻译、面向主题-内容-结构的多特征文本自动摘要及基于支持向量机(SVM)向量空间模型的科技情报自动分... 为实现互联网上科技文字信息的有效获取和快速分析研读,研究了基于Heritrix增量式爬虫的科技情报搜集、基于科技情报语料库的统计机器翻译、面向主题-内容-结构的多特征文本自动摘要及基于支持向量机(SVM)向量空间模型的科技情报自动分类4项关键技术,设计了互联网科技情报搜集分析原型软件的技术架构和功能模块.试验表明,该原型软件能够有效提高科技情报信息的智能处理分析能力. 展开更多
关键词 科技情报 网页爬虫 文本摘要 文本分类
下载PDF
基于星形用户社区模型的Twitter广告投放 被引量:6
14
作者 刘刚 刘万军 张伟 《计算机应用与软件》 CSCD 北大核心 2012年第4期44-48,共5页
目前,Twitter的广告投放市场巨大,但针对个性化的广告投放却很少,提出一种基于星形社区模型的广告投放方式。采用网页爬虫获取Twitter用户社交信息,利用高斯模型的多因素权系数算法处理用户社交信息,初步筛选出对产品感兴趣和有影响力... 目前,Twitter的广告投放市场巨大,但针对个性化的广告投放却很少,提出一种基于星形社区模型的广告投放方式。采用网页爬虫获取Twitter用户社交信息,利用高斯模型的多因素权系数算法处理用户社交信息,初步筛选出对产品感兴趣和有影响力的用户,并对其建立星形结构模型,二次筛选,确定出度核心节点并识别出目标星形子图社区,将该社区的出度核心节点作为广告投放载体进行个性化的投放。实验结果表明该广告投放方式具有较高的社区用户满意度。 展开更多
关键词 TWITTER 广告 网页爬虫 星形社区模型 出度核心节点
下载PDF
基于链接分析的机构网站研究 被引量:1
15
作者 曹可 《竞争情报》 2010年第1期33-36,共4页
互联网时代,网站已成为企业或机构塑造自身形象、宣传推广其产品服务的重要窗口。本文利用网页链接分析手段,对上海图书馆网站传播效果和影响因素进行了分析,对搞好网站建设提出了建议。同时为企业和机构分析自身网站建设提供了借鉴。
关键词 网页爬虫 链接分析 网站质量
下载PDF
中文微博文本采集与预处理综述 被引量:7
16
作者 孔雪娜 孙红 《软件导刊》 2017年第2期186-189,共4页
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文... 随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。 展开更多
关键词 数据挖掘 网页爬虫 微博信息采集 文本预处理 文本分词
下载PDF
人工智能在多媒体设备巡检中的应用研究 被引量:2
17
作者 梁淘 《福建电脑》 2020年第8期36-39,共4页
目前许多学校存在教室多媒体设备未能及时关闭的现象,严重影响设备尤其是投影灯泡的使用寿命。为此,本文提出利用爬虫技术和一种实时、高准确率的面部检测器通过采集标准化考场高清半球图像进行人数统计,确认在规定时间段内教室无人就... 目前许多学校存在教室多媒体设备未能及时关闭的现象,严重影响设备尤其是投影灯泡的使用寿命。为此,本文提出利用爬虫技术和一种实时、高准确率的面部检测器通过采集标准化考场高清半球图像进行人数统计,确认在规定时间段内教室无人就自行关闭多媒体设备的巡检系统,以代替传统手动关闭方式,提高了管理水平,并延长了设备的使用寿命。 展开更多
关键词 PYTHON 网页爬虫 人脸检测 多媒体设备
下载PDF
基于文本挖掘的纪录片传播影响因素分析
18
作者 黄梓玉 孟捷 《统计学与应用》 2020年第4期525-532,共8页
为了解影响纪录片传播的因素,将爬虫得到数据资源清洗后,经描述统计获得基础影响因素作为分类变量,使用Python得到较精准的中文分词结果,编写Gibbs算法建立LDA模型来进行分析得到不同纪录片适合的困惑度和主题数以及语义网络、词云图等... 为了解影响纪录片传播的因素,将爬虫得到数据资源清洗后,经描述统计获得基础影响因素作为分类变量,使用Python得到较精准的中文分词结果,编写Gibbs算法建立LDA模型来进行分析得到不同纪录片适合的困惑度和主题数以及语义网络、词云图等结果。通过分析文本的结果得知人们的价值观与纪录片的传播可展现双向的影响作用,纪录片的拍摄会根据时代的主流与需求进行拍摄,而时代的主流与需求也是人们的价值观最直接的展现;再者,人们通过观看纪录片来了解当下的世界展现给人们的面目,同样这也是一种对人们思维的引领方向,影响较大的为人们的现实需求、纪录片的承载形式以及纪录片的真实性。 展开更多
关键词 动态网页爬虫 中文分词 Gibbs算法 LDA模型 语义分析
下载PDF
考虑实时数据的城市道路承载量及饱和度
19
作者 常铮 裴玉龙 《交通科技与经济》 2022年第4期8-15,共8页
为描述某一时刻城市道路的实际承载车辆数,提出实际承载量概念。运用Python编程且调用百度地图Web服务中的API,克服传统交通调查难以实现全样本、大范围实时交通数据连续采集的缺陷,在此基础上基于交通流理论中速度与密度的关系构建实... 为描述某一时刻城市道路的实际承载车辆数,提出实际承载量概念。运用Python编程且调用百度地图Web服务中的API,克服传统交通调查难以实现全样本、大范围实时交通数据连续采集的缺陷,在此基础上基于交通流理论中速度与密度的关系构建实际承载量和实际饱和度计算模型。以哈尔滨市阿城区为例进行分析,结果表明:与低等级道路相比,高等级道路高峰实际承载量与理论容量之间相关性更强;工作日城市道路平峰实际承载量仅为高峰的60%左右,而周末不同时段实际承载量差异较小;快速路与主干路高峰实际饱和度明显高于其他等级道路,说明出行者更倾向选择高等级道路出行。模型可从交通需求角度对承载量较高的道路和出行热点区域进行识别,进而为治理城市交通拥堵提供新思路。 展开更多
关键词 实时交通数据 城市道路 交通拥堵 网页爬虫 实际承载量 实际饱和度
下载PDF
基于Apriori算法的国货彩妆产品在线评论数据关联分析
20
作者 李颖 《应用数学进展》 2022年第8期5562-5568,共7页
本文旨在分析以完美日记为代表的国货品牌的在线评论,得出消费者重点关注的内容,以及评价内容中可能存在的关联规则,从而进一步推动国货彩妆品牌向国际品牌的发展。首先通过webscraper获取某网购平台上该品牌口红的相关评价数据。其次利... 本文旨在分析以完美日记为代表的国货品牌的在线评论,得出消费者重点关注的内容,以及评价内容中可能存在的关联规则,从而进一步推动国货彩妆品牌向国际品牌的发展。首先通过webscraper获取某网购平台上该品牌口红的相关评价数据。其次利用SPSS Modeler分析工具,通过Apriori算法对整理好的数据进行关联分析,得出研究结论。研究结果表明:现阶段由于信息渠道增多,电子商务提供的客服服务重要性下降;产品的价格、品牌、视觉评价、外包装都会影响消费者的购买评论;产品视觉评价受到多方面因素影响,包括产品内外包装、品牌力、嗅觉评价、触觉评价、价格和触觉的综合评价。品牌商可以借鉴消费者在线评论中的关联内容,通过改进相关产品属性或服务,进一步提升消费者对产品视觉上的评价,进而提升整体消费者满意度。 展开更多
关键词 在线评论 国货彩妆品牌 关联分析 网页爬虫 APRIORI算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部