期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于网络爬虫的京东电商平台数据分析 被引量:9
1
作者 魏倩男 贺正楚 陈一鸣 《经济数学》 2018年第1期77-85,共9页
以京东平台的网页数据抓取为例,研究如何提高网络爬虫技术对网页数据的抓取效率,进而对抓取到的数据进行数据挖掘和数据分析.该网络爬虫技术主要建立在分布式系统的基础上,多台计算机多线程同时运行,使数据抓取效率显著提高.分析京东平... 以京东平台的网页数据抓取为例,研究如何提高网络爬虫技术对网页数据的抓取效率,进而对抓取到的数据进行数据挖掘和数据分析.该网络爬虫技术主要建立在分布式系统的基础上,多台计算机多线程同时运行,使数据抓取效率显著提高.分析京东平台的网页信息,统一分类,抓取分类下的商品信息,获取到网页内容后,利用解析器重建网页DOM树,通过JQUERY选择器,针对选择不同的标签名称和标识名称获取商品信息,把获取到的数据进行过滤、整合,然后进行数据挖掘和数据分析,对电商行业走势进行预测,进而指导电商运营团队决策. 展开更多
关键词 电商平台 数据分析 分布式系统 AJAX mapreduee Jumony CORE
下载PDF
基于MapRedue的大规模矢量空间数据选择查询处理 被引量:2
2
作者 何涛 刘强 +1 位作者 郑泽忠 刘帅 《科技创新导报》 2014年第9期193-194,共2页
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法。首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两... 为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法。首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率。 展开更多
关键词 MapRedue 选择查询 存储模型 KEY VALUE 矢量数据文件
下载PDF
Parallel Spectral Clustering Based on MapReduce 被引量:3
3
作者 Qiwei Zhong Yunlong Lin +3 位作者 Junyang Zou Kuangyan Zhu Qiao Wang Lei Hu 《ZTE Communications》 2013年第2期45-50,共6页
Clustering is one of the most widely used techniques for exploratory data analysis. Spectral clustering algorithm, a popular modern cluslering algorithm, has been shown to be more effective in detecting clusters than ... Clustering is one of the most widely used techniques for exploratory data analysis. Spectral clustering algorithm, a popular modern cluslering algorithm, has been shown to be more effective in detecting clusters than many traditional algorithms. It has applications ranging from computer vision and information retrieval to social sienee and biology. With the size of databases soaring, cluostering algorithms bare saling computational time and memory use. In this paper, we propose a parallel spectral elustering implementation based on MapRednee. Both the computation and data storage are dislributed, which solves the sealability problems for most existing algorithms. We empirically analyze the proposed implementation on both benchmark net- works and a real social network dataset of about two million vertices and two billion edges crawled from Sina Weibo. It is shown that the proposed implementation scales well, speeds up the clustering without sacrificing quality, and processes massive datasets efficiently on commodity machine clusters. 展开更多
关键词 spectral clustering parallel implementation massive dataset Hadoop MapRedue data mining
下载PDF
基于MapReduce框架的电力大数据增量式属性约简方法可行性分析 被引量:3
4
作者 郑筠 《电子设计工程》 2021年第3期66-69,共4页
对于大数据时代中电网数据量大、速度快、类型多的特点,传统属性约简方法已经无法满足大数据预处理需求,以此提出基于MapReduce框架的电力大数据属性约简方法。利用某光伏发电系统对属性约简的求和算法进行分析,以传统算法改进属性约简... 对于大数据时代中电网数据量大、速度快、类型多的特点,传统属性约简方法已经无法满足大数据预处理需求,以此提出基于MapReduce框架的电力大数据属性约简方法。利用某光伏发电系统对属性约简的求和算法进行分析,以传统算法改进属性约简算法,从而有效解决大数据环境下计算过程中的效率问题。改进的大数据属性约简算法是以实际需求开展,对复杂任务进行有效处理,结合实际需求解决问题,最后对方法进行实验分析。通过实验结果表示,文中分析算法具有良好的处理能力与可行性,并且能够提高属性约简效率。 展开更多
关键词 MapRedue框架 大数据 属性约简 求和算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部