期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
基于Spark平台的电子商务个性化信息推荐方法
1
作者 李加军 《信息技术》 2023年第10期66-71,共6页
互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用... 互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用评分机制计算不同个体偏好商品,形成推荐列表;引入挖掘隐含信息的矩阵分解算法,将未知参数转化为已知量,提高个性化信息推荐精准度。仿真对比实验,从用户满意度、信息熵值和运行速度三个角度,验证了所提方法可以实现优质且高效的电子商务个性化信息推荐工作。 展开更多
关键词 个性化信息推荐 spark平台 用户喜好模型 评分机制 并行化协同过滤
下载PDF
基于spark平台的跨境电商产品混合式协同推荐
2
作者 李佳颖 刘静 《贵阳学院学报(自然科学版)》 2023年第4期38-43,共6页
跨境电商产品推荐由于受到语言和文化差异等原因,要实现精准推荐仅靠单一方法完全不够。为提高产品的有效推荐,采用混合式协同推荐策略,将隐语义挖掘和特征聚类算法联合应用于混合式系统推荐策略,并借助于Spark平台优化推荐效率。首先,... 跨境电商产品推荐由于受到语言和文化差异等原因,要实现精准推荐仅靠单一方法完全不够。为提高产品的有效推荐,采用混合式协同推荐策略,将隐语义挖掘和特征聚类算法联合应用于混合式系统推荐策略,并借助于Spark平台优化推荐效率。首先,采用隐语义模型(LFM)对用户及商品的隐含特征关注度和重要度进行初始化,并构建用户—商品评分函数;以RMSE为优化函数,通过梯度下降获得LFM用户—商品评分值,根据评分值生成候选商品推荐序列;接着采用K-means算法对用户—商品特征进行聚类分析,并通过鲸群优化算法(WOA)对初始类中心进行优化求解,获得候选商品推荐序列。综合两种策略得到商品推荐系列,生成最终用户推荐商品。仿真结果显示,通过Spark平台的LFM和WOA-K-means的混合式协同推荐,四家跨境电商平台均获得90%以上的商品推荐准确度,对大规模跨境电商产品具有较高的适用性。 展开更多
关键词 跨境电商 商品推荐 spark平台 LFM模型
下载PDF
基于Spark平台和多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测 被引量:33
3
作者 马天男 牛东晓 +1 位作者 黄雅莉 杜振东 《电网技术》 EI CSCD 北大核心 2016年第6期1642-1649,共8页
分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择... 分布式能源系统负荷预测是系统规划与经济运行的可靠前提和依据,在当前海量高维数据的背景下,有效的在线数据处理平台与精确的负荷预测方法是当前的研究重点。基于分布式能源系统负荷数据特点,在缺失数据处理、坏数据分类以及特征选择的基础上,建立了基于Spark平台与多变量L_2-Boosting回归模型的分布式能源系统短期负荷预测方法。首先,利用Spark平台分割全部数据得到多个子数据模型,通过并行计算提高数据处理效率,采用特征提取方法得出模型需要的输入向量;其次,将得出的有效数据信息输入到多变量L_2-Boosting回归模型进行训练学习,得到训练后的多变量L_2-Boosting回归模型;最后,利用测试数据测试模型。算例结果验证了所提模型的有效性。 展开更多
关键词 短期负荷预测 多变量L2-Boosting回归模型 分布式能源系统 spark平台
下载PDF
基于Spark平台的岩石图像聚类分析 被引量:7
4
作者 杨艳梅 柳娜 +2 位作者 程国建 强新建 王叙乔 《西安石油大学学报(自然科学版)》 CAS 北大核心 2016年第6期114-118,共5页
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,... 提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。 展开更多
关键词 岩石图像 聚类分析 spark平台 K-MEANS
下载PDF
Spark平台下的短文本特征扩展与分类研究 被引量:9
5
作者 王雯 赵衎衎 +2 位作者 李翠平 陈红 孙辉 《计算机科学与探索》 CSCD 北大核心 2017年第5期732-741,共10页
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上... 短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。 展开更多
关键词 短文本分类 特征扩展 关联规则 spark平台
下载PDF
Spark平台中的并行化FP_growth关联规则挖掘方法 被引量:5
6
作者 朱岸青 李帅 唐晓东 《计算机科学》 CSCD 北大核心 2020年第12期139-143,共5页
为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序... 为了提高关联规则挖掘效率,文中提出了一种适用于Spark平台的并行化FP_growth关联规则挖掘方法。首先,利用Spark平台在分布式系统中的所有节点的内存RDD中完成遍历扫描运算,得到频繁集,以便生成FP_Table并更新FP_Tree。然后,引入时间序列来预测待挖掘的项目集,以便实现分布式系统中的所有节点能够均衡分担挖掘任务,从而充分利用各节点的FP_Tree遍历功能,获取FP_growth关联规则挖掘结果。实验结果显示,相比单机情况,并行化FP_growth关联规则挖掘在效率方面提高了约60%。经过负载均衡处理后的FP_growth关联规则挖掘的效率更高,提高了约14%,这说明各节点遍历任务的分配更均衡,并行化程度更高。 展开更多
关键词 spark平台 FP_GROWTH算法 关联规则挖掘 频繁集 负载均衡
下载PDF
基于Spark平台的海量电子对抗数据分析 被引量:3
7
作者 李霄 贺成龙 +1 位作者 张广庆 徐欣 《指挥信息系统与技术》 2015年第2期53-56,共4页
海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析... 海量电子对抗(简称电抗)数据分析是雷达辐射源识别领域的一个难点问题。采用Spark平台对海量电抗数据进行分析挖掘,分析了海量电抗数据在HBase数据库中的分布式存储,以及Spark平台基本程序框架和数据处理方式,探索了海量电抗数据的分析和挖掘方法。仿真试验表明,Spark平台能够高效处理海量电抗数据,具有良好的稳定性。 展开更多
关键词 电子对抗 海量数据 spark平台 数据分析
下载PDF
基于Spark平台的电子商务实时推荐系统建设和应用 被引量:2
8
作者 蒋丛萃 陈巧灵 《电子商务》 2020年第11期65-66,94,共3页
随着大数据时代的到来,大数据机器学习已然成为当前研究的一项热点。但是现如今的电商推荐系统存在着不同程度上的计算缓慢,无法根据根据用户的实际需求进行实时推荐。在这一背景下,本研究基于Spark平台建设和实现电子商务实时推荐系统... 随着大数据时代的到来,大数据机器学习已然成为当前研究的一项热点。但是现如今的电商推荐系统存在着不同程度上的计算缓慢,无法根据根据用户的实际需求进行实时推荐。在这一背景下,本研究基于Spark平台建设和实现电子商务实时推荐系统。相较于传统的推荐系统,本研究的系统通过以Spark平台为基础,构建了分布式日志采集和传输模块,希望通过该系统来解决电子商务跨系统数据源的收集问题。其次,基于Spark平台的矩阵分解推荐模型进行离线训练,以此来提高离线训练的效率。最后,对电子商务网站的实时推荐系统进行试验。 展开更多
关键词 spark平台 实时推荐系统 电子商务
下载PDF
Spark平台下基于上下文信息的影片混合推荐 被引量:4
9
作者 缪雪峰 陈群辉 +1 位作者 胡罗凯 刘进 《计算机工程与应用》 CSCD 北大核心 2017年第10期79-84,共6页
响应速度较慢和推荐内容与用户上下文信息匹配程度低是当前影片推荐系统迫切需要解决的问题。针对上述挑战,提出Spark平台下基于上下文信息的影片混合推荐方法。它利用分布式并行计算技术Spark进行加速,来提高系统对于海量数据的检索与... 响应速度较慢和推荐内容与用户上下文信息匹配程度低是当前影片推荐系统迫切需要解决的问题。针对上述挑战,提出Spark平台下基于上下文信息的影片混合推荐方法。它利用分布式并行计算技术Spark进行加速,来提高系统对于海量数据的检索与计算速度,从而减少了系统响应时间。同时该方法将"上下文推荐"和"交替最小二乘的协同过滤(ALS)"融合成一种混合推荐方法,提高了系统的推荐精度。实验结果表明,所提出的混合推荐方法有不错的效果。 展开更多
关键词 影片推荐系统 spark平台 上下文信息 混合推荐
下载PDF
Spark平台下关联规则算法的优化实现 被引量:4
10
作者 梁瑷云 袁丁 +1 位作者 严清 刘小久 《计算机工程与设计》 北大核心 2018年第12期3692-3699,共8页
利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。... 利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。引入矩阵概念减少事务数据库的扫描次数,充分利用Spark内存计算的弹性分布式内存数据集对象,存储事务布尔矩阵以及频繁项集。相较于传统的Apriori算法,该算法减少了事务数据库的访问次数,简化了Apriori算法的"自连接"以及"剪枝"过程。实验结果表明,提出方案在保证输出结果不变的情况下,加快了关联挖掘的执行效率。 展开更多
关键词 spark平台 APRIORI算法 并行化 布尔矩阵 弹性分布式内存数据集
下载PDF
Spark平台下聚类挖掘的智能推荐系统 被引量:3
11
作者 钟桂凤 庞雄文 +1 位作者 孙道宗 刘宇东 《南京理工大学学报》 CAS CSCD 北大核心 2021年第5期575-581,共7页
为了提高智能推荐系统的性能,采用狼群优化的K-means聚类挖掘实现数据分类,通过协同过滤完成智能推荐。为了提高推荐效率,引入Spark平台多节点完成聚类和推荐。建立用户和资源的K-means聚类模型,采用狼群优化算法对初始类别中心点进行优... 为了提高智能推荐系统的性能,采用狼群优化的K-means聚类挖掘实现数据分类,通过协同过滤完成智能推荐。为了提高推荐效率,引入Spark平台多节点完成聚类和推荐。建立用户和资源的K-means聚类模型,采用狼群优化算法对初始类别中心点进行优化,以提高聚类准确度,根据用户和资源的类别属性获得用户-资源评分数据,最后建立协同过滤智能推荐模型。根据推荐效率要求,将推荐模型部署至Spark平台,实现聚类和智能推荐的分布式运算。实验证明,通过合理设置聚类中心点数目,结合Spark平台多节点运算,与常用推荐算法对比,所提算法可以获得更准确的推荐性能,在大规模数据的智能推荐系统中更能满足实时性要求,智能推荐效率高。 展开更多
关键词 智能推荐 K-MEANS聚类 spark平台 协同过滤 狼群算法
下载PDF
Spark平台下的凸包问题研究 被引量:3
12
作者 李格非 马蔚吟 李力 《计算机工程与应用》 CSCD 北大核心 2018年第22期67-73,112,共8页
随着移动互联网时代的到来,越来越多的含地理位置信息的空间数据需要处理,如何在海量的空间数据中进行常见的几何查询成为一个挑战,凸包问题因其在模式识别、图像处理、统计学、地理信息系统、博弈论、图论等领域中被广泛应用成为近些... 随着移动互联网时代的到来,越来越多的含地理位置信息的空间数据需要处理,如何在海量的空间数据中进行常见的几何查询成为一个挑战,凸包问题因其在模式识别、图像处理、统计学、地理信息系统、博弈论、图论等领域中被广泛应用成为近些年研究的一个热点。凸包问题的研究始于单机版的算法,进而过渡到Hadoop等基于硬盘的分布式系统,但是受限于单节点的计算存储能力的瓶颈以及Hadoop平台基于硬盘的特性,其计算性能尚不能达到人们的在线实时计算的需求。研究基于内存的分布式计算框架Spark下的凸包问题,给出基于Spark平台的凸包查询整体框架,框架从查询接口、语法解析和物理执行等多方面结合SparkSQL引擎。随后,给出基于Andrew单调链算法的单机算法CHStand,分析单机算法并行度上的问题后,提出基于Spark的CHSpark算法,进一步优化算法并提出一种Spark平台下的优化算法CHGeom。通过实验对比说明三种算法的相对性能提升,实验发现Spark平台下的解决方案相对传统的单机平台下的解决方案有着较大的性能提升,所提算法具有良好的拓展性和广泛的实际应用价值。 展开更多
关键词 spark平台 分布式计算 空间几何查询 凸包运算
下载PDF
基于Spark平台的K均值聚类算法的人力资源推荐 被引量:10
13
作者 李宇翔 李帅 +2 位作者 宋艳琼 张福泉 周湘贞 《济南大学学报(自然科学版)》 CAS 北大核心 2020年第5期430-435,共6页
为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规... 为了提高人力资源推荐系统的效率,提出一种基于Spark平台的K均值聚类算法来完成人力资源推荐;Spark平台在分布式系统所有节点的内存弹性分布式数据集中完成聚类迭代运算,以加快聚类速度;将K均值聚类算法与聚类簇思想相结合,以提高大规模数据样本聚类的效率,得到聚类结果后,采用动态推荐算法实现人力资源实时推荐。结果表明,Spark平台相比于单机在聚类计算效率方面更有优势,且所提出的算法比单机的K均值聚类算法的聚类速度和准确率均更优,在动态推荐性能方面也优于常用推荐算法。 展开更多
关键词 spark平台 人力资源推荐 K均值聚类 聚类簇 动态推荐
下载PDF
基于Spark平台的ALS加速算法研究 被引量:1
14
作者 贾晓芳 桑国明 祁文凯 《计算机工程》 CAS CSCD 北大核心 2020年第2期103-109,共7页
协同过滤推荐算法在推荐系统中发挥着重要作用,但其存在执行效率与排名精度较低的问题,交替最小二乘(ALS)算法可实现并行计算,从而提高执行效率,但是该算法数据加载与迭代收敛的时间较长。为此,将非线性共轭梯度(NCG)算法与ALS算法相结... 协同过滤推荐算法在推荐系统中发挥着重要作用,但其存在执行效率与排名精度较低的问题,交替最小二乘(ALS)算法可实现并行计算,从而提高执行效率,但是该算法数据加载与迭代收敛的时间较长。为此,将非线性共轭梯度(NCG)算法与ALS算法相结合,提出一种ALS-NCG算法,以达到加速ALS算法的目的。在Spark分布式数据处理环境中对ALS-NCG算法进行性能评估,实验结果表明,相比ALS算法,ALS-NCG算法获取高精度推荐排名时需要的迭代次数与时间更少。 展开更多
关键词 协同过滤 推荐算法 交替最小二乘算法 非线性共轭梯度 spark平台
下载PDF
基于Spark平台城市出租车乘客出行特征分析 被引量:7
15
作者 段宗涛 陈志明 +1 位作者 陈柘 康军 《计算机系统应用》 2017年第3期37-43,共7页
从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系... 从海量出租车GPS轨迹数据中挖掘和分析城市出租车乘客的出行特征,可以为城市交通管理者和出租车行业管理者在城市交通规划与管理、城市交通流均衡与车辆调度等方面提供决策依据.基于Spark大数据处理分析平台,选择YARN作为资源管理调度系统,采用HDFS分布式存储系统,对出租车GPS轨迹数据进行挖掘.给出了基于Spark平台的出租车乘客出行特征的挖掘方法,包括出租车乘客出行距离分布、出租车使用时间分布及出租车出行需求.实验结果表明,基于Spark平台分析方法能够快速且准确的分析出出租车乘客出行特征. 展开更多
关键词 spark大数据平台 出租车GPS数据 出行特征 大数据 智能交通
下载PDF
基于Spark平台的并行KNN异常检测算法 被引量:9
16
作者 冯贵兰 周文刚 《计算机科学》 CSCD 北大核心 2018年第B11期349-352,366,共5页
随着大数据时代的到来,异常检测受到了广泛关注。针对传统KNN异常检测算法处理速度和计算资源的瓶颈,以及Hadoop平台上的MapReduce不能友好支持迭代计算和基于内存计算等问题,提出了一种基于Spark平台的并行KNN异常检测算法。该算法首... 随着大数据时代的到来,异常检测受到了广泛关注。针对传统KNN异常检测算法处理速度和计算资源的瓶颈,以及Hadoop平台上的MapReduce不能友好支持迭代计算和基于内存计算等问题,提出了一种基于Spark平台的并行KNN异常检测算法。该算法首先对数据集进行分区和广播,然后用map函数计算数据集在每个分区的K近邻,使用reduce函数归并map函数的输出计算全局K近邻得到异常度,将异常度前n个对象视为异常。与传统KNN异常检测算法相比,在保证检测精度的前提下该算法的性能与计算资源呈近似线性关系;与其他并行异常检测算法相比,该算法无需额外扩展数据,支持迭代,而且通过在内存中缓存中间结果来减少I/O花销。实验结果证明,该算法可以提高KNN算法在大规模数据上的异常检测效率。 展开更多
关键词 spark平台 并行 K近邻 异常检测
下载PDF
基于Spark平台的微震监测快速定位方法研究 被引量:4
17
作者 丁恩杰 吕雅洁 +1 位作者 胡东平 陈卿 《煤炭科学技术》 CAS 北大核心 2016年第7期22-27,共6页
针对微震监测海量震动波数据实时处理难题,提出了在Spark大数据处理平台上对大量震动数据进行处理,提出基于粒子群寻优策略的震动波震源TDOA定位的并行计算程序思路,并在3台机器组成的小型Spark集群环境下进行试验验证。试验证明了在Sp... 针对微震监测海量震动波数据实时处理难题,提出了在Spark大数据处理平台上对大量震动数据进行处理,提出基于粒子群寻优策略的震动波震源TDOA定位的并行计算程序思路,并在3台机器组成的小型Spark集群环境下进行试验验证。试验证明了在Spark平台上做海量震动波数据处理的可行性,并且证明了与单机震源定位计算相比,此方法可以有效加快最优解的收敛速度,提高处理效率。 展开更多
关键词 微震监测 互联网+ spark大数据处理平台 TDOA定位 并行粒子群算法
下载PDF
Spark平台下KNN-ALS模型推荐算法 被引量:3
18
作者 邹小波 王佳斌 詹敏 《华侨大学学报(自然科学版)》 CAS 北大核心 2019年第2期264-268,共5页
考虑Spark大数据平台内存计算框架在迭代计算的优势,提出Spark平台下KNN-ALS模型的推荐算法.针对矩阵分解算法只考虑隐含信息而忽视相似度信息的缺陷,将相似度信息加入评分预测中,并采用适合并行化的交替最小二乘法进行模型最优.在Movie... 考虑Spark大数据平台内存计算框架在迭代计算的优势,提出Spark平台下KNN-ALS模型的推荐算法.针对矩阵分解算法只考虑隐含信息而忽视相似度信息的缺陷,将相似度信息加入评分预测中,并采用适合并行化的交替最小二乘法进行模型最优.在MovieLens数据集上的实验表明:该算法能够提高协同过滤推荐算法在大数据集下的处理效率,且加速比也达到并行处理的线性要求,相比其他方法有较好的精度. 展开更多
关键词 推荐算法 KNN-ALS模型 协同过滤 spark平台 矩阵分解
下载PDF
Spark平台上利用网络加权Voronoi图的分散迭代社区聚类并行化研究
19
作者 颜烨 张学文 王立婧 《计算机应用与软件》 北大核心 2021年第3期14-21,38,共9页
针对当下数据大规模增长对计算能力需求的急剧增长,传统独立运行的机器在大规模网络社区中执行社区检测操作时无法提供所需的数据处理能力的问题,提出一种网络加权Voronoi图的并行分散迭代社区聚类法(NWVD-PDICCM)。利用基于网络加权Vor... 针对当下数据大规模增长对计算能力需求的急剧增长,传统独立运行的机器在大规模网络社区中执行社区检测操作时无法提供所需的数据处理能力的问题,提出一种网络加权Voronoi图的并行分散迭代社区聚类法(NWVD-PDICCM)。利用基于网络加权Voronoi图的分散迭代社区聚类方法(NWVD-DICCM)提取大型网络的有效社区结构。结合并行聚类方法,将DICCM方法的操作从串行过程转换为并行计算。利用执行并行社区聚类时的图分区,通过最小化从属工作者之间的通信来加速该过程。仿真实验结果表明,NWVD-PDICCM可以与一系列计算机架构平台共同运行,并且实现基于Spark平台的并行操作,相比其他几种较新的方法,在大规模网络数据处理能力方面得到显著提升。 展开更多
关键词 大规模网络数据 网络加权Voronoi图 聚类社区 分散迭代 并行计算 spark平台
下载PDF
Spark平台下类别数据互信息计算的并行化 被引量:2
20
作者 李俊丽 《计算机工程与应用》 CSCD 北大核心 2021年第7期95-100,共6页
针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量... 针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证了算法。实验结果表明,该算法在效率、可伸缩性和可扩展性等方面都达到了较高的性能。 展开更多
关键词 列变换 并行互信息计算 分类数据 spark平台
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部