期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
深层网页垂直爬虫技术研究综述 被引量:1
1
作者 何小明 《电子世界》 2018年第16期42-43,共2页
随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技... 随着信息化时代的快速发展,大数据的价值正逐渐显现,如何利用爬虫技术从网页中采集高质量的海量数据成为大数据技术面临的一个基本问题。文章对深层网页垂直爬虫动态网页的加载、数据块的定位与抽取、数据实体的分析和爬取策略等关键技术进行系统介绍与分析。在此基础上,提出深层网页垂直爬虫所面临的困难与挑战,以及今后的研究方向。 展开更多
关键词 深层网页 垂直爬虫 动态网页 爬取策略 数据采集
下载PDF
学科信息门户建设中深层网页资源采集的方法与策略 被引量:10
2
作者 邢美园 陈益君 《情报资料工作》 CSSCI 北大核心 2005年第6期53-56,共4页
文章阐述了国内外学科信息门户建设现状、深层网页资源的概念和特点及学科信息门户网站收集深层网页资源的意义。作者提出采用人工采集、自动化采集、人机结合采集和用户推荐等四种深层网页资源的收集方法;采用网络导航、跨库检索平台... 文章阐述了国内外学科信息门户建设现状、深层网页资源的概念和特点及学科信息门户网站收集深层网页资源的意义。作者提出采用人工采集、自动化采集、人机结合采集和用户推荐等四种深层网页资源的收集方法;采用网络导航、跨库检索平台和数据保存等方法加以整合,信息整合应遵循标准化、开放性、及时性和权威性四大原则;最后探讨了深层网页资源的收集、整合过程中可能涉及的法律问题和解决方案。 展开更多
关键词 学科信息门户 深层网页资源 信息整合 采集方式
原文传递
面向Deep Web本地化数据集成的数据源两层选择模型 被引量:3
3
作者 鲜学丰 崔志明 +2 位作者 方立刚 顾才东 孙逊 《计算机工程》 CAS CSCD 北大核心 2017年第3期32-39,共8页
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增... 针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。 展开更多
关键词 深层网页 数据集成 数据源选择 数据源质量 效用模型 递归增量策略
下载PDF
网络搜索引擎技术发展方向的分析研究
4
作者 刘炳芳 《中国新技术新产品》 2011年第20期11-12,共2页
随着网络Web的不断发展,对高速而有效的信息检索系统需求日渐迫切。本文对网络检索的核心技术—搜索引擎进行了分析,找出影响其检索效果的技术瓶颈。在综合考虑当前的搜索引擎发展趋势的基础上,指出了未来网络搜索引擎的发展方向。
关键词 搜索引擎 深层网页 垂直搜索
下载PDF
网页文本数据自动采集方法综述
5
作者 王益强 赵静 《信息与电脑(理论版)》 2012年第9期81-82,共2页
随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过... 随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。 展开更多
关键词 深层网页 数据采集 DEEPWEB 网络爬虫
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部