期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
流式大数据平台下的弹性数据迁移能效优化策略 被引量:5
1
作者 蒲勇霖 许小龙 +2 位作者 于炯 李梓杨 国冰磊 《通信学报》 EI CSCD 北大核心 2024年第2期188-200,共13页
针对流式计算框架在最初设计时缺乏能效方面的考虑,导致其存在高能耗与低效率的问题,提出一种流式大数据平台下的弹性数据迁移节能优化策略。首先,建立负载预测模型与资源判定模型,并进一步设计负载预测算法,通过预测负载变化趋势确定... 针对流式计算框架在最初设计时缺乏能效方面的考虑,导致其存在高能耗与低效率的问题,提出一种流式大数据平台下的弹性数据迁移节能优化策略。首先,建立负载预测模型与资源判定模型,并进一步设计负载预测算法,通过预测负载变化趋势确定节点资源占用,找到资源过载与过剩节点;其次,建立资源约束模型与最优数据迁移模型,由此提出最优数据迁移算法,以提高节点资源利用率为目的进行数据迁移;最后,建立能耗模型,计算集群进行数据迁移后节约的能耗。实验结果表明,数据迁移节能优化策略能够对集群内节点资源变化做出及时响应,并在提高节点资源利用率的基础上,有效提高集群数据处理的能效。 展开更多
关键词 流式计算 负载预测 资源约束 数据迁移 能效
下载PDF
基于GraphX的传球网络构建及分析研究 被引量:9
2
作者 张陶 于炯 +4 位作者 廖彬 国冰磊 卞琛 王跃飞 刘炎 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2729-2752,共24页
虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚... 虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚形态为图,在传球数据获取、数据清洗及格式转化、Vertex与Edge表构建的基础上,通过GraphX构建传球网络图为其应用打下基础;2)提出PlayerRank值区分球员重要度、球员位置个性化图顶点等方法提高传球网络可视化质量;3)通过GraphX构建的传球网络分析传球数量与质量对比赛结果的影响,并例举了传球网络在球队传球数据分析、战术人员选择、临场战术制定、网络子图及游戏体验改进等方面的应用. 展开更多
关键词 大数据应用 传球网络 GraphX框架 PlayerRank算法 球员重要性
下载PDF
MapReduce能耗建模及优化分析 被引量:12
3
作者 廖彬 张陶 +3 位作者 于炯 尹路通 郭刚 国冰磊 《计算机研究与发展》 EI CSCD 北大核心 2016年第9期2107-2131,共25页
云计算中心规模的不断扩大以及设计时对能耗因素的忽略,使其日益暴露出高能耗低效率的问题.为提高MapReduce框架能耗利用率,首先对MapReduce任务进行了能耗建模,提出基于CPU利用率估算、主要部件能耗累加及平均功耗估算的任务能耗模型,... 云计算中心规模的不断扩大以及设计时对能耗因素的忽略,使其日益暴露出高能耗低效率的问题.为提高MapReduce框架能耗利用率,首先对MapReduce任务进行了能耗建模,提出基于CPU利用率估算、主要部件能耗累加及平均功耗估算的任务能耗模型,并在此基础上建立了MapReduce作业能耗模型.其次,基于能耗模型对能耗优化进行了分析,提出从优化MapReduce作业执行能耗、减少MapReduce任务等待能耗与提高MapReduce集群能源利用效率3个方向对MapReduce进行能耗优化.再次,提出异构环境下的数据放置策略减小MapReduce任务等待能耗,提出截止时间约束下的最小资源分配方法提高MapReduce作业能耗利用效率.通过大量的实验及能耗数据分析,验证了能耗模型及能耗优化方法的有效性. 展开更多
关键词 绿色计算 任务调度 能耗建模 节能分析 数据布局
下载PDF
基于Spark的ItemBased推荐算法性能优化 被引量:8
4
作者 廖彬 张陶 +3 位作者 国冰磊 于炯 张旭光 刘炎 《计算机应用》 CSCD 北大核心 2017年第7期1900-1905,共6页
MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高Item Based推荐算法的计算效率,首先对MapReduce平台下Item Ba... MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高Item Based推荐算法的计算效率,首先对MapReduce平台下Item Based协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的Item Based推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。 展开更多
关键词 协同过滤 MAPREDUCE Spark算法 性能优化 有向非循环图
下载PDF
云存储系统节能研究综述 被引量:10
5
作者 于炯 廖彬 +3 位作者 张陶 孙华 国冰磊 杨兴耀 《计算机科学与探索》 CSCD 2014年第9期1025-1040,共16页
云存储系统作为云计算的重要组成部分,是各种云计算服务的基础。但随云存储系统规模的不断扩大和在设计时对能耗因素的忽略,使其日益暴露出高能耗、低效率的问题。因为云存储系统占整个云计算中心能耗的27%~40%,所以无论从降低服务... 云存储系统作为云计算的重要组成部分,是各种云计算服务的基础。但随云存储系统规模的不断扩大和在设计时对能耗因素的忽略,使其日益暴露出高能耗、低效率的问题。因为云存储系统占整个云计算中心能耗的27%~40%,所以无论从降低服务提供商的运营成本,还是从降低能耗以保护环境的角度出发,研究云存储系统中的节能技术都具有很大的现实意义与应用前景。将存储系统中的能耗优化问题分为基于硬件的节能方法与基于调度的节能方法两大类进行讨论;并将基于调度的节能方法分为基于节点调度、基于数据调度和基于缓存预取技术3类进行综合比较;最后,对适应节能的云存储体系结构、节能模式下的QoS保证、节能模式与计算模式的匹配以及纠删码容错技术下的节能研究4个方向进行了展望。 展开更多
关键词 云计算 云存储系统 绿色计算 能耗效率
下载PDF
Spark DAG优化MapReduce协同过滤算法 被引量:3
6
作者 廖彬 张陶 +3 位作者 于炯 国冰磊 张旭光 刘炎 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第3期46-56,共11页
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析... 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。 展开更多
关键词 协同过滤 MAPREDUCE SPARK 算法优化 能耗优化
下载PDF
SQL能耗建模及优化研究 被引量:7
7
作者 国冰磊 于炯 +1 位作者 廖彬 杨德先 《计算机科学》 CSCD 北大核心 2015年第10期202-207,231,共7页
IT系统能耗的节节攀升,使得设计新一代DBMS时必须考虑其能耗效率问题。由于SQL语句的执行过程大约消耗70%~90%的数据库资源,因此对SQL进行能耗建模及优化对提高数据库的能源使用效率具有重要的意义。在对SQL查询处理机制进行研究的基础... IT系统能耗的节节攀升,使得设计新一代DBMS时必须考虑其能耗效率问题。由于SQL语句的执行过程大约消耗70%~90%的数据库资源,因此对SQL进行能耗建模及优化对提高数据库的能源使用效率具有重要的意义。在对SQL查询处理机制进行研究的基础上,构建了SQL能耗模型,并对一系列查询优化原则进行了实验,以表明不同优化原则对性能提升及能耗减少的有效性。实验及能耗数据分析表明:CPU利用率是影响系统功耗的最关键因素,SQL能耗优化方法可忽略内存优化且应该均衡考虑性能优化及功耗优化两方面,提出的SQL能耗模型及节能优化方法具有较强的应用价值。 展开更多
关键词 绿色计算 SQL能耗优化 SQL能耗建模 查询处理
下载PDF
基于Spark的MapReduce相似度计算效率优化 被引量:3
8
作者 廖彬 张陶 +2 位作者 于炯 国冰磊 刘炎 《计算机科学》 CSCD 北大核心 2017年第8期46-53,共8页
随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法... 随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。 展开更多
关键词 相似度计算 MAPREDUCE Spark优化 能耗优化
下载PDF
基于GraphX传球网络的传球质量量化研究 被引量:2
9
作者 廖彬 张陶 +4 位作者 国冰磊 于炯 牛亚锋 张旭光 刘炎 《计算机科学》 CSCD 北大核心 2017年第12期175-182,201,共9页
虽然大数据技术在不断成熟,但它在竞技体育领域的相关应用研究还处于探索阶段。常规篮球统计缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究。首先,在GraphX基础上将传球数据构建成图,为传球质量的研究... 虽然大数据技术在不断成熟,但它在竞技体育领域的相关应用研究还处于探索阶段。常规篮球统计缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究。首先,在GraphX基础上将传球数据构建成图,为传球质量的研究奠定基础;其次,提出传球质量评估方法PESV(Pass Expectation Score Value),相比于传统的助攻数与失误数的比值ATR(Assist Turnover Ratio),PESV能更全面地评价球员传球的质量;最后,介绍基于传球网络及传球质量评估方法 PESV的几种应用场景,包括传球质量对比赛结果的影响分析、基于PESV值的传球路线选择,并以华人球员林书豪为例,计算其2015-2016赛季的传球得分期望值。 展开更多
关键词 大数据应用 传球网络 GraphX 传球质量量化 球员评价
下载PDF
一种基于MBRC值的关系型数据库负载能耗预测模型 被引量:4
10
作者 杨德先 孙华 +1 位作者 于炯 国冰磊 《计算机科学》 CSCD 北大核心 2017年第7期161-166,共6页
数据库负载的能耗解析与建模是构建节能的绿色数据库的基础。针对数据库负载的高能耗问题,将SQL语句消耗的系统资源(CPU和磁盘)映射为时间代价与功率代价,为数据库负载构建能耗预测模型。首先,根据负载的系统资源消耗模式,计算负载的功... 数据库负载的能耗解析与建模是构建节能的绿色数据库的基础。针对数据库负载的高能耗问题,将SQL语句消耗的系统资源(CPU和磁盘)映射为时间代价与功率代价,为数据库负载构建能耗预测模型。首先,根据负载的系统资源消耗模式,计算负载的功耗代价;然后,根据负载资源消耗产生的时间代价,为负载构建动态能耗预测模型;最后,利用MBRC值的设置对预测模型的准确度进行深入的研究。实验结果表明,所构建的预测模型能够对数据库负载的能量消耗进行较准确的预测,预测模型的准确度研究有助于在不同的系统环境配置下提升动态能耗预测模型的稳定性与精确度。 展开更多
关键词 绿色计算 关系型数据库 绿色数据库 SQL能耗建模 MBRC
下载PDF
基于数据库负载的SQL能耗预测模型 被引量:4
11
作者 国冰磊 于炯 +1 位作者 廖彬 杨德先 《计算机科学》 CSCD 北大核心 2017年第1期208-213,共6页
传统数据库以性能(吞吐量、响应时间)为首要优化目标,忽略了数据库系统的能量消耗。在一味追求性能的同时,高能耗问题日益突出,为数据库负载构建能耗模型是构建绿色数据库的基础。通过量化查询负载执行过程中对系统资源(CPU与磁盘)的消... 传统数据库以性能(吞吐量、响应时间)为首要优化目标,忽略了数据库系统的能量消耗。在一味追求性能的同时,高能耗问题日益突出,为数据库负载构建能耗模型是构建绿色数据库的基础。通过量化查询负载执行过程中对系统资源(CPU与磁盘)的消耗,将资源消耗产生的时间代价和功耗代价转化为时间代价预测模型和功率代价预测模型,在单站点数据库服务器上实现了为数据库系统构建资源单位代价统一的能耗预测模型。采用多元线性回归工具拟合模型的重要参数,实验结果验证了能耗预测模型的可行性;并分别在静态与动态的系统环境下对系统不同类型查询负载的能耗进行预测与评价,验证了该模型的准确性,使得提出的能耗模型适合于构建能耗感知的绿色数据库。 展开更多
关键词 绿色计算 SQL执行能耗 查询处理 绿色数据库
下载PDF
结构化查询语言动态功耗解析及建模 被引量:3
12
作者 国冰磊 于炯 +1 位作者 廖彬 杨德先 《计算机应用》 CSCD 北大核心 2015年第12期3362-3367,共6页
为构建节能的绿色数据库,提出一种基于结构化查询语言(SQL)资源(中央处理单元(CPU)、磁盘)消耗的最小单位的数据库动态能耗模型。该模型对系统动态能耗进行解析,将系统主要硬件(CPU、磁盘)的资源消耗映射成功率消耗,采用多元线性回归方... 为构建节能的绿色数据库,提出一种基于结构化查询语言(SQL)资源(中央处理单元(CPU)、磁盘)消耗的最小单位的数据库动态能耗模型。该模型对系统动态能耗进行解析,将系统主要硬件(CPU、磁盘)的资源消耗映射成功率消耗,采用多元线性回归方法拟合模型关键参数,实时地估算系统动态功率,构建单位统一的动态功耗模型。实验结果表明,相比基于元组总数的模型,CPU指令总数能更好地反映CPU的功率消耗,所构模型在数据库管理系统(DBMS)独占系统资源的静态环境下,平均相对误差小于6%,绝对误差不超过9%。该动态功耗模型更适合于构建节能的绿色数据库。 展开更多
关键词 绿色计算 查询处理 执行计划 结构化查询语言 功耗建模
下载PDF
基于二维划分的杰卡德相似系数批量计算效率优化 被引量:2
13
作者 廖彬 张陶 +2 位作者 于炯 国冰磊 刘继 《计算机科学》 CSCD 北大核心 2017年第1期219-225,共7页
随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算... 随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。 展开更多
关键词 绿色计算 MAPREDUCE 任务调度 温度感知
下载PDF
面向关系数据库查询的能耗建模及计划评价 被引量:3
14
作者 国冰磊 于炯 +1 位作者 杨德先 廖彬 《计算机研究与发展》 EI CSCD 北大核心 2019年第4期810-824,共15页
传统关系数据库在选择查询计划时,其查询优化器仅以性能为目标,限制了数据库的节能潜力.因此,基于查询的资源消耗特征(CPU指令、磁盘数据块读取、内存数据块读取),提出一种查询计划的能耗模型和评价模型.模型不仅能够精确预测查询计划... 传统关系数据库在选择查询计划时,其查询优化器仅以性能为目标,限制了数据库的节能潜力.因此,基于查询的资源消耗特征(CPU指令、磁盘数据块读取、内存数据块读取),提出一种查询计划的能耗模型和评价模型.模型不仅能够精确预测查询计划的能耗,为查询优化器选择节能的计划奠定基础.还使优化器能权衡功率与性能在计划总成本中所占的权重,并根据数据库的运行状态调整查询语句的优化目标(性能、功率、能耗)选择最优计划.实验结果表明:模型平均预测正确率为95.68%;当优化目标是功率时,功率节约范围为8.95%~29.25%;当优化目标是能耗时,能耗节约范围为3.62%~11.34%. 展开更多
关键词 绿色计算 绿色数据库 能耗模型 查询计划 计划评价
下载PDF
考虑用户间消极相似性的排序推荐算法 被引量:1
15
作者 陈嘉颖 于炯 +1 位作者 杨兴耀 国冰磊 《计算机工程与设计》 北大核心 2017年第5期1247-1251,1272,共6页
由于用户评分标准存在差异,基于打分的协同过滤推荐算法在近邻选择过程中存在误差。针对以上问题,提出考虑用户间消极相似性的排序推荐算法(NS-TauRank),该算法不经过对拟推荐项目的预测评分过程。定义DP函数表示项目对相关属性,充分利... 由于用户评分标准存在差异,基于打分的协同过滤推荐算法在近邻选择过程中存在误差。针对以上问题,提出考虑用户间消极相似性的排序推荐算法(NS-TauRank),该算法不经过对拟推荐项目的预测评分过程。定义DP函数表示项目对相关属性,充分利用用户间的消极相似性,即相似性为负的用户之间的爱好相反,改进目标用户的近邻选择过程,采用舒尔茨方法进行偏好融合,优化目标用户拟推荐项目的排序。在Eachmovie和movielens数据集上对改进算法进行验证,以NDCG作为评价函数,验证结果表明,该算法在两个数据集上的NDCG@1-2值较对比算法有4%-7%的提高,产生了更可靠的拟推荐序列。 展开更多
关键词 消极相似性 偏好 基于排序 推荐算法 协同过滤
下载PDF
多MapReduce作业协同下的大数据挖掘类算法资源效率优化 被引量:33
16
作者 廖彬 张陶 +3 位作者 于炯 黄静莱 国冰磊 刘炎 《计算机应用研究》 CSCD 北大核心 2020年第5期1321-1325,共5页
由于任意的MapReduce作业都需要独立地进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切... 由于任意的MapReduce作业都需要独立地进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce job协作完成。以Item Based算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于Distributed Cache的ItemBased算法,利用Distributed Cache将多个MapReduce job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少map与reduce任务之间的等待时延。实验结果表明,Distributed Cache能够提高MapReduce作业的数据读取速度,利用Distributed Cache重构后的算法极大地减少了map与reduce任务之间的等待时延,资源效率提高3倍以上。 展开更多
关键词 MapReduce优化 ItemBased算法 内存文件系统 I/O效率 资源优化
下载PDF
QPR-NN:一种结合二次多项式回归与神经网络的推荐算法 被引量:9
17
作者 廖彬 张陶 +3 位作者 于炯 国冰磊 李敏 刘炎 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第9期79-87,136,共10页
针对传统推荐算法不能很好地适应数据高规模及高稀疏性的问题,结合深度学习数据建模的方法,提出了一种结合二次多项式回归与神经网络(QPR-NN)的推荐算法。在对已有特征提取方法缺陷分析的基础上,利用二次多项式回归模型将用户对物品的... 针对传统推荐算法不能很好地适应数据高规模及高稀疏性的问题,结合深度学习数据建模的方法,提出了一种结合二次多项式回归与神经网络(QPR-NN)的推荐算法。在对已有特征提取方法缺陷分析的基础上,利用二次多项式回归模型将用户对物品的评分数据进行特征提取及降维,充分挖掘了用户与物品之间的相关性。将特征提取后的数据作为深度学习训练模型的输入,增加输入数据与训练模型之间的匹配度,并将训练得到的模型用于推荐评分预测。在MovieLens与Epinions两组数据集上的实验结果表明:QPR特征提取方法与QPR-NN推荐算法在平分绝对误差与均方根误差评价指标上均优于现有的主流算法,QPR-NN推荐算法可以有效提升推荐准确率。 展开更多
关键词 推荐算法 深度学习 特征提取 二次多项式回归
下载PDF
基于操作历史图的分布式Key-Value数据库一致性检测算法 被引量:9
18
作者 廖彬 张陶 +3 位作者 李敏 于炯 国冰磊 刘炎 《计算机科学》 CSCD 北大核心 2019年第12期213-219,共7页
分布式数据库系统的副本机制在提高系统可靠性及性能的同时,导致了多副本数据管理的一致性问题;数据一致性的实现需要一致性协议模型来进行预防,也需要一致性检测算法对非一致数据进行检测。首先,对读写操作记录之间的时序关系、安全一... 分布式数据库系统的副本机制在提高系统可靠性及性能的同时,导致了多副本数据管理的一致性问题;数据一致性的实现需要一致性协议模型来进行预防,也需要一致性检测算法对非一致数据进行检测。首先,对读写操作记录之间的时序关系、安全一致性及并行一致性原则等概念进行定义;其次,根据操作记录集合中读写操作之间的并行与时序关系,提取出操作记录集合向操作记录图转化的规则,并在此基础上设计了操作记录向历史记录图的转化算法;然后,以历史记录图为输入,设计了违反一致性查找算法,查找并返回图中所有违反安全与并行一致性读操作的集合;最后,基于Cassandra进行实验并将读写一致性设置为ONE,通过YCSB产生并行读写压力测试,与同类算法的对比实验验证了所提算法在功能与效率两方面的优越性。 展开更多
关键词 分布式数据库 Key-Value数据库 一致性原则 一致性检测 DAG图
下载PDF
SCEA:一种适应高维海量数据的并行聚类集成算法 被引量:8
19
作者 廖彬 黄静莱 +3 位作者 王鑫 孙瑞娜 葛晓燕 国冰磊 《电子学报》 EI CAS CSCD 北大核心 2021年第6期1077-1087,共11页
针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并... 针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性. 展开更多
关键词 并行聚类 数据降维 聚类集成 Spark聚类 性能优化
下载PDF
基于聚类层次模型的视频推荐算法 被引量:2
20
作者 金亮 于炯 +4 位作者 杨兴耀 鲁亮 王跃飞 国冰磊 廖彬 《计算机应用》 CSCD 北大核心 2017年第10期2828-2833,2860,共7页
目前推荐系统存在评论数据稀疏、冷启动和用户体验度低等问题,为了提高推荐系统的性能和进一步改善用户体验,提出基于聚类层次模型的视频推荐算法。首先,从相关用户方面着手,通过近邻传播(AP)聚类分析得到相似用户,从而收集相似用户中... 目前推荐系统存在评论数据稀疏、冷启动和用户体验度低等问题,为了提高推荐系统的性能和进一步改善用户体验,提出基于聚类层次模型的视频推荐算法。首先,从相关用户方面着手,通过近邻传播(AP)聚类分析得到相似用户,从而收集相似用户中的历史网络视频数据,进而形成视频推荐集合;其次,利用用户行为的历史数据计算出用户对视频的喜好值,再把视频的喜好值转换成视频的标签权重;最后,通过层次分析模型算出视频推荐集合中用户喜好视频的排序,产生推荐列表。基于Movie Lens Latest Dataset和You Tube视频评论文本数据集,实验结果表明所提算法在均方根误差和决策精度方面均表现出良好的性能。 展开更多
关键词 视频推荐 稀疏性 冷启动 层次模型 聚类分析
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部