期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基线与增量数据分离架构下的分布式连接算法 被引量:6
1
作者 樊秋实 周敏奇 周傲英 《计算机学报》 EI CSCD 北大核心 2016年第10期2102-2113,共12页
在大数据背景下,数据库系统表连接操作的效率急需优化,尤其对于基线与增量数据分离的数据库系统来说,其连接操作更是成为其性能的主要瓶颈.为了有效提升事务处理的性能,在基线与增量数据分离的数据库系统架构中,通常将基线数据存储于磁... 在大数据背景下,数据库系统表连接操作的效率急需优化,尤其对于基线与增量数据分离的数据库系统来说,其连接操作更是成为其性能的主要瓶颈.为了有效提升事务处理的性能,在基线与增量数据分离的数据库系统架构中,通常将基线数据存储于磁盘中,增量数据存储于内存中,进而获得较高的事务处理吞吐量和可扩展性.Hbase、BigTable、OceanBase等系统是典型的基线与增量数据分离的数据库管理系统,但是他们的表连接效率较低,其主要原因包括:每次表连接前必须先合并基线数据和增量数据;数据存储模式更为复杂,导致过大的网络开销.该文提出了一种基线与增量数据分离架构下的排序归并连接优化算法.该算法对连接属性做范围切分,在多个节点上并行做排序归并连接.该算法无需在连接前合并基线数据和增量数据,进而实现对基线和增量数据并行处理,同时也避免了大量非连接结果集数据的基线与增量合并操作.并在开源的数据库OceanBase上实现了该算法,通过一系列实验证明,该算法可以极大提高OceanBase数据库的表连接处理性能. 展开更多
关键词 分布式连接 增量数据 并行处理 排序归并连接
下载PDF
分布式可扩展数据流连接算法
2
作者 王晓桐 房俊华 张蓉 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第5期81-88,共8页
Join-Matrix是一种高性能的连接矩阵模型,方便部署于分布式环境下,支持任意连接谓词的数据流连接操作.由于采取随机分发元组作为路由策略,Join-Matrix可利用对元组内容的不敏感性来有效抵御数据倾斜.为了实现工作节点的负载均衡以及网... Join-Matrix是一种高性能的连接矩阵模型,方便部署于分布式环境下,支持任意连接谓词的数据流连接操作.由于采取随机分发元组作为路由策略,Join-Matrix可利用对元组内容的不敏感性来有效抵御数据倾斜.为了实现工作节点的负载均衡以及网络传输代价的最小化,基于连接矩阵模型设计一种高效的数据划分方案尤为重要.针对数据流连接处理,本文设计并实现了一种新颖的连接算子,可灵活地进行划分方案的自适应调整,以应对实时动态变化的数据分布.具体来说,我们根据数据流流量的采样信息和系统额定负载,通过一个轻量级的决策器制定出一个数据划分方案和相应的数据迁移计划,在保证输出结果完整性与正确性的情况下,实现迁移代价的最小化.本文在多种不同的数据集上进行了大量对比实验,结果证明,在资源利用率、系统吞吐率与时间延迟等方面,该连接算子较对比系统具有更高的性能体现. 展开更多
关键词 数据流连接 Join-Matrix 数据划分 分布式计算
下载PDF
基于评论分析的评分预测与推荐 被引量:10
3
作者 高祎璠 余文喆 +2 位作者 晁平复 郑芷凌 张蓉 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第3期80-90,共11页
推荐系统广泛地应用在网络平台中,推荐模型需要预测用户的喜好,帮助用户找到适合的电影、书籍、音乐等商品.通过对用户评分和评论信息的分析,可以发现用户关注的商品特征,并根据商品的特征,推测用户对该商品的喜好程度.本文提出将评论... 推荐系统广泛地应用在网络平台中,推荐模型需要预测用户的喜好,帮助用户找到适合的电影、书籍、音乐等商品.通过对用户评分和评论信息的分析,可以发现用户关注的商品特征,并根据商品的特征,推测用户对该商品的喜好程度.本文提出将评论中隐含的语义内容与评分相结合,设计并实现了一种新颖的商品推荐模型.首先利用主题模型挖掘评论文本中隐含的主题分布,用主题分布刻画用户偏好和商品画像,在逻辑回归模型上训练主题与打分的关系,最终评分可以被视为是对用户偏好和商品画像的相似程度的量化表示.最后,本文在真实数据上进行了大量对比实验,结果证明该模型比对比系统性能优越且稳定. 展开更多
关键词 推荐 潜在主题 LDA 回归模型 评论分析
下载PDF
DBugHelper:分布式系统Debug协助工具
4
作者 张燕飞 张春熙 +1 位作者 李宇明 张蓉 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第5期153-164,共12页
对于大规模分布式系统的开发而言,其开发周期比较漫长,包括前期的开发、过程中的Debug、后期的维护和测试等.在整个开发周期中,Debug是一个非常关键和重要的环节,如何才能在短时间内找到最可靠的方法来解除bug成为一个重要的挑战.对于... 对于大规模分布式系统的开发而言,其开发周期比较漫长,包括前期的开发、过程中的Debug、后期的维护和测试等.在整个开发周期中,Debug是一个非常关键和重要的环节,如何才能在短时间内找到最可靠的方法来解除bug成为一个重要的挑战.对于系统开发人员来说,bug报告能非常有效地帮助其了解bug的所有特征信息,并找到能修复bug的方法.通过研究发现,许多大规模分布式系统之间具有较强的相关性和相似性,因而其bug的产生情况和修复方法也具有类似特征.开发人员可以利用已存在的修复bug的方案来协助修复与其一致或相近的bug.本文提出一个适用于大规模分布式系统的Debug协助工具——DBugHelper,能为某些大规模分布式系统的开发人员的bug修复提供比较有效、正确的帮助.DBugHelper将最新的bug报告进行文本处理,形成查询向量,并将大量已被修复的bug及其相关信息进行离线处理和缓存,从而为在线查询提供索引机制.通过将大量已修复的bug报告进行离线处理并同时减少在线处理的数据量,从而使其准确并快速地为系统开发人员提供必要的Debug协助工作,以此减少系统开发的周期与成本. 展开更多
关键词 大规模分布式系统 DEBUG bug报告 协助
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部