期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
PHCC:一种处理稀疏变化的封闭数据立方体算法 被引量:2
1
作者 牟雁超 李红燕 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期85-93,共9页
完全数据立方体是一种需要在数据集上对属性列进行上卷聚集运算的复杂模型,而封闭数据立方体是一种对应的高效压缩模型.近年来海量数据管理系统的发展使得在大数据上进行数据立方体的计算成为可能,但是大数据环境中的数据可能稀疏也可... 完全数据立方体是一种需要在数据集上对属性列进行上卷聚集运算的复杂模型,而封闭数据立方体是一种对应的高效压缩模型.近年来海量数据管理系统的发展使得在大数据上进行数据立方体的计算成为可能,但是大数据环境中的数据可能稀疏也可能密集,因此,要求在不同的数据稀疏程度下算法都要有稳定的表现.面对这样的要求,提出了一种基于大数据环境的封闭数据立方体并行化方法,首先通过构造2种树结构进行本地封闭数据子立方体的构造,然后利用位运算的方式在遍历树结构的同时进行封闭数据立方体的判断和聚集运算,最后经过合并得到查询的最终结果.并且通过在大数据中进行对比实验证明混合并行封闭数据立方体(parallel hybrid closed cubing,PHCC)算法能够满足在稀疏数据变化的数据中进行稳定聚集运算的条件. 展开更多
关键词 封闭数据立方体 大数据 树结构 MAPREDUCE 并行化计算
下载PDF
ASIC:一种适用于云数据管理的自适应辅助索引机制 被引量:1
2
作者 牟雁超 苏汉宸 +2 位作者 程序 李红燕 王腾蛟 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期352-360,共9页
随着海量数据呈现几何式增长的趋势,云环境中数据管理系统得以快速发展,同时也对其中的索引机制提出更高的要求.云环境中传统的辅助索引创建机制在一些查询需求下存在不必要的系统开销,为了避免辅助索引在创建过程集中消耗大量系统资源... 随着海量数据呈现几何式增长的趋势,云环境中数据管理系统得以快速发展,同时也对其中的索引机制提出更高的要求.云环境中传统的辅助索引创建机制在一些查询需求下存在不必要的系统开销,为了避免辅助索引在创建过程集中消耗大量系统资源,产生了自适应索引机制的思想.通过对比分析,现有自适应索引机制方面的研究工作并不适用于在云环境下的数据管理系统中进行海量数据的处理.将自适应索引的想法与云环境中辅助索引机制结合,提出了建立在云环境数据管理系统中自适应辅助索引机制,通过充分利用分布式计算资源,将自适应辅助索引表的创建在用户查询过程中进行,同时借助于查询序列使得索引结构适应于查询模式,从而避免了不必要的索引创建开销.通过在真实数据上的实验表明,自适应辅助索引能很好地应用于云环境当中. 展开更多
关键词 自适应 查询 云环境 辅助索引 数据管理
下载PDF
基于协同矩阵分解的社会化标签系统的资源推荐 被引量:6
3
作者 王海雷 牟雁超 俞学宁 《计算机应用研究》 CSCD 北大核心 2013年第6期1739-1741,1750,共4页
应用来自Delicious的数据集,通过对精确度和召回率等指标的测评,研究了协同矩阵分解对社会化标签系统中资源推荐的有效性问题,由于用户、资源、标签之间具有一定的相似性,采用了通过同时分解三者在不同方向的潜在兴趣值,对用户推荐其潜... 应用来自Delicious的数据集,通过对精确度和召回率等指标的测评,研究了协同矩阵分解对社会化标签系统中资源推荐的有效性问题,由于用户、资源、标签之间具有一定的相似性,采用了通过同时分解三者在不同方向的潜在兴趣值,对用户推荐其潜在兴趣方向相近的资源的方法。与协同过滤、图结构分析的结果进行了对比,研究结果表明该方法要优于其他方法。为了证明协同矩阵分解的有效性,对正规化、学习率、UT因子和IT因子等各个变量也进行了参数敏感度分析。 展开更多
关键词 社会化标签 用户 资源 标签 推荐
下载PDF
面向大规模数据集的并行化Top-k Skyline查询算法 被引量:7
4
作者 杨林青 李湛 +4 位作者 牟雁超 樊里略 李红燕 王腾蛟 雷凯 《计算机科学与探索》 CSCD 北大核心 2015年第8期897-905,共9页
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k... 随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k Skyline查询在面对大规模数据集时效率较低,并不适用于大规模数据集。为了解决这个问题,将Top-k Skyline查询与并行化处理相结合,提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS(parallel Top-k Skyline),通过充分利用分布式资源,将原有查询进行有效的并行化处理,同时设计了基于用户偏好的用于缩减结果数据量的筛选规则,满足用户需求。在真实数据集上进行了相关实验,并与现有方法进行了对比,结果表明PTKS在大规模数据集上的查询效率更具有优势,能很好地适用于大规模数据集。 展开更多
关键词 大规模数据集 Top—k SKYLINE 代表性信息 并行化处理 筛选规则
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部