期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
深层网页垂直爬虫技术研究综述
被引量:
1
1
作者
何小明
《电子世界》
2018年第16期42-43,共2页
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技...
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。
展开更多
关键词
深层网页
垂直爬虫
动态
网页
爬取策略
数据采集
下载PDF
职称材料
学科信息门户建设中深层网页资源采集的方法与策略
被引量:
10
2
作者
邢美园
陈益君
《情报资料工作》
CSSCI
北大核心
2005年第6期53-56,共4页
文章阐述了国内外学科信息门户建设现状、深层网页资源的概念和特点及学科信息门户网站收集深层网页资源的意义。作者提出采用人工采集、自动化采集、人机结合采集和用户推荐等四种深层网页资源的收集方法;采用网络导航、跨库检索平台...
文章阐述了国内外学科信息门户建设现状、深层网页资源的概念和特点及学科信息门户网站收集深层网页资源的意义。作者提出采用人工采集、自动化采集、人机结合采集和用户推荐等四种深层网页资源的收集方法;采用网络导航、跨库检索平台和数据保存等方法加以整合,信息整合应遵循标准化、开放性、及时性和权威性四大原则;最后探讨了深层网页资源的收集、整合过程中可能涉及的法律问题和解决方案。
展开更多
关键词
学科信息门户
深层网页
资源
信息整合
采集方式
原文传递
面向Deep Web本地化数据集成的数据源两层选择模型
被引量:
3
3
作者
鲜学丰
崔志明
+2 位作者
方立刚
顾才东
孙逊
《计算机工程》
CAS
CSCD
北大核心
2017年第3期32-39,共8页
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增...
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。
展开更多
关键词
深层网页
数据集成
数据源选择
数据源质量
效用模型
递归增量策略
下载PDF
职称材料
网络搜索引擎技术发展方向的分析研究
4
作者
刘炳芳
《中国新技术新产品》
2011年第20期11-12,共2页
随着网络Web的不断发展,对高速而有效的信息检索系统需求日渐迫切。本文对网络检索的核心技术—搜索引擎进行了分析,找出影响其检索效果的技术瓶颈。在综合考虑当前的搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。
关键词
搜索引擎
深层网页
垂直搜索
下载PDF
职称材料
网页文本数据自动采集方法综述
5
作者
王益强
赵静
《信息与电脑(理论版)》
2012年第9期81-82,共2页
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过...
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
展开更多
关键词
深层网页
数据采集
DEEPWEB
网络爬虫
原文传递
题名
深层网页垂直爬虫技术研究综述
被引量:
1
1
作者
何小明
机构
广州工商学院电子信息工程系
出处
《电子世界》
2018年第16期42-43,共2页
文摘
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。
关键词
深层网页
垂直爬虫
动态
网页
爬取策略
数据采集
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
学科信息门户建设中深层网页资源采集的方法与策略
被引量:
10
2
作者
邢美园
陈益君
机构
浙江大学图书馆
出处
《情报资料工作》
CSSCI
北大核心
2005年第6期53-56,共4页
文摘
文章阐述了国内外学科信息门户建设现状、深层网页资源的概念和特点及学科信息门户网站收集深层网页资源的意义。作者提出采用人工采集、自动化采集、人机结合采集和用户推荐等四种深层网页资源的收集方法;采用网络导航、跨库检索平台和数据保存等方法加以整合,信息整合应遵循标准化、开放性、及时性和权威性四大原则;最后探讨了深层网页资源的收集、整合过程中可能涉及的法律问题和解决方案。
关键词
学科信息门户
深层网页
资源
信息整合
采集方式
分类号
G250.73 [文化科学—图书馆学]
原文传递
题名
面向Deep Web本地化数据集成的数据源两层选择模型
被引量:
3
3
作者
鲜学丰
崔志明
方立刚
顾才东
孙逊
机构
江苏省现代企业信息化应用支撑软件工程技术研发中心
苏州大学智能信息处理及应用研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第3期32-39,共8页
基金
国家自然科学基金(61440053
61472268
+3 种基金
41201338)
苏州市科技计划研究项目(SYG201342
SYG201343
SS201344)
文摘
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。
关键词
深层网页
数据集成
数据源选择
数据源质量
效用模型
递归增量策略
Keywords
Deep Web
data integration
data source selection
data source quality
utility model
recursive incremental strategy
分类号
TP392 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
网络搜索引擎技术发展方向的分析研究
4
作者
刘炳芳
机构
南京特殊教育职业技术学院图书馆
出处
《中国新技术新产品》
2011年第20期11-12,共2页
文摘
随着网络Web的不断发展,对高速而有效的信息检索系统需求日渐迫切。本文对网络检索的核心技术—搜索引擎进行了分析,找出影响其检索效果的技术瓶颈。在综合考虑当前的搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。
关键词
搜索引擎
深层网页
垂直搜索
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
网页文本数据自动采集方法综述
5
作者
王益强
赵静
机构
山西省电力公司检修公司
煤炭工业(太原)设计研究院
出处
《信息与电脑(理论版)》
2012年第9期81-82,共2页
文摘
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
关键词
深层网页
数据采集
DEEPWEB
网络爬虫
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
深层网页垂直爬虫技术研究综述
何小明
《电子世界》
2018
1
下载PDF
职称材料
2
学科信息门户建设中深层网页资源采集的方法与策略
邢美园
陈益君
《情报资料工作》
CSSCI
北大核心
2005
10
原文传递
3
面向Deep Web本地化数据集成的数据源两层选择模型
鲜学丰
崔志明
方立刚
顾才东
孙逊
《计算机工程》
CAS
CSCD
北大核心
2017
3
下载PDF
职称材料
4
网络搜索引擎技术发展方向的分析研究
刘炳芳
《中国新技术新产品》
2011
0
下载PDF
职称材料
5
网页文本数据自动采集方法综述
王益强
赵静
《信息与电脑(理论版)》
2012
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部