期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于MapReduce框架一种文本挖掘算法的设计与实现 被引量:4
1
作者 朱蔷蔷 张桂芸 刘文龙 《郑州大学学报(工学版)》 CAS 北大核心 2012年第5期110-113,共4页
随着文本挖掘在主动信息服务中应用的日益扩展,在文本数据的基础上分析数据的内在特征已经成为目前的研究趋势,本文在Hadoop平台上设计并实现了一种文本挖掘算法,该算法利用Ma-pReduce框架按照自然语料中相邻词组出现的频数进行降序输出... 随着文本挖掘在主动信息服务中应用的日益扩展,在文本数据的基础上分析数据的内在特征已经成为目前的研究趋势,本文在Hadoop平台上设计并实现了一种文本挖掘算法,该算法利用Ma-pReduce框架按照自然语料中相邻词组出现的频数进行降序输出,从而有助于用户挖掘大量数据中各项集之间的联系,实验结果体现了该算法的有效性和良好的加速比. 展开更多
关键词 HADOOP MAPREDUCE 相邻词组 降序输出
下载PDF
基于Hadoop平台上面向电影数据集Kmeans算法的改进 被引量:2
2
作者 朱蔷蔷 张桂芸 刘文龙 《哈尔滨师范大学自然科学学报》 CAS 2012年第1期32-36,共5页
针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良... 针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中. 展开更多
关键词 HADOOP MAP REDUCE Kmeans
下载PDF
基于加权信息熵相似性的协同过滤算法 被引量:4
3
作者 刘文龙 张桂芸 +1 位作者 陈喆 朱蔷蔷 《郑州大学学报(工学版)》 CAS 北大核心 2012年第5期118-120,共3页
协同过滤算法是推荐系统中最为成功的技术之一,相似性计算是协同过滤算法的核心.针对传统的相似度计算方法在数据稀疏的情况下推荐不准确问题,提出了基于项目间差异信息熵的相似度计算方法,先通过差异值和共同评价数目对信息熵进行加权... 协同过滤算法是推荐系统中最为成功的技术之一,相似性计算是协同过滤算法的核心.针对传统的相似度计算方法在数据稀疏的情况下推荐不准确问题,提出了基于项目间差异信息熵的相似度计算方法,先通过差异值和共同评价数目对信息熵进行加权,再归一化处理来计算项目间的相似度.用基于项目(Item-based)相似性的协同过滤算法进行了实验验证,实验结果表明,该算法提高了个性化推荐精度. 展开更多
关键词 信息熵加权 相似度计算 协同过滤 个性化推荐
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部