期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结合有监督广度优先搜索策略的通用垂直爬虫方法
被引量:
7
1
作者
高峰
刘震
高辉
《计算机工程》
CAS
CSCD
北大核心
2018年第11期289-299,共11页
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队...
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。
展开更多
关键词
垂直爬虫
URL聚类
赋权网页
路径模板解析
有监督广度优先搜索策略
下载PDF
职称材料
深层网页垂直爬虫技术研究综述
被引量:
1
2
作者
何小明
《电子世界》
2018年第16期42-43,共2页
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技...
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。
展开更多
关键词
深层网页
垂直爬虫
动态网页
爬取策略
数据采集
下载PDF
职称材料
基于智能双驱检测技术的APP一站式安全监测探索与实践
被引量:
2
3
作者
车力军
黄炎生
徐丽
《电信技术》
2019年第4期31-34,共4页
当前业界的安全监测技术还处于初始探索阶段,针对APP业务暴露出的问题,云南电信联合中电福富公司采用智能双驱检测、深度垂直爬虫以及动静解析等技术手段,对APP安全防控监测进行创新能力整合,取得了较好实效,有效保障了APP业务的良性发...
当前业界的安全监测技术还处于初始探索阶段,针对APP业务暴露出的问题,云南电信联合中电福富公司采用智能双驱检测、深度垂直爬虫以及动静解析等技术手段,对APP安全防控监测进行创新能力整合,取得了较好实效,有效保障了APP业务的良性发展和安全运营。
展开更多
关键词
APP
内容安全
双驱检测
深度
垂直爬虫
动静解析
下载PDF
职称材料
题名
结合有监督广度优先搜索策略的通用垂直爬虫方法
被引量:
7
1
作者
高峰
刘震
高辉
机构
电子科技大学计算机科学与工程学院
电子科技大学大数据研究中心
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第11期289-299,共11页
基金
国家自然科学基金(61300018)
文摘
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。
关键词
垂直爬虫
URL聚类
赋权网页
路径模板解析
有监督广度优先搜索策略
Keywords
vertical crawler
URL clustering
weighted Web page
parser of the path template
supervised breadth-first search strategy
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
深层网页垂直爬虫技术研究综述
被引量:
1
2
作者
何小明
机构
广州工商学院电子信息工程系
出处
《电子世界》
2018年第16期42-43,共2页
文摘
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。
关键词
深层网页
垂直爬虫
动态网页
爬取策略
数据采集
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于智能双驱检测技术的APP一站式安全监测探索与实践
被引量:
2
3
作者
车力军
黄炎生
徐丽
机构
中国电信股份有限公司云南分公司
中电福富信息科技有限公司
中通服网络信息技术有限公司
出处
《电信技术》
2019年第4期31-34,共4页
文摘
当前业界的安全监测技术还处于初始探索阶段,针对APP业务暴露出的问题,云南电信联合中电福富公司采用智能双驱检测、深度垂直爬虫以及动静解析等技术手段,对APP安全防控监测进行创新能力整合,取得了较好实效,有效保障了APP业务的良性发展和安全运营。
关键词
APP
内容安全
双驱检测
深度
垂直爬虫
动静解析
分类号
TP311.56 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结合有监督广度优先搜索策略的通用垂直爬虫方法
高峰
刘震
高辉
《计算机工程》
CAS
CSCD
北大核心
2018
7
下载PDF
职称材料
2
深层网页垂直爬虫技术研究综述
何小明
《电子世界》
2018
1
下载PDF
职称材料
3
基于智能双驱检测技术的APP一站式安全监测探索与实践
车力军
黄炎生
徐丽
《电信技术》
2019
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部