期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的高能物理数据分析系统 被引量:9
1
作者 臧冬松 霍菁 +1 位作者 梁栋 孙功星 《计算机工程》 CAS CSCD 2014年第2期1-5,共5页
将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例... 将MapReduce思想引入到高能物理数据分析中,提出一个基于Hadoop框架的高能物理数据分析系统。通过建立事例的TAG信息数据库,将需要进一步分析的事例数减少2-3个数量级,从而减轻I/O压力,提高分析作业的效率。利用基于TAG信息的事例预筛选模型以及事例分析的MapReduce模型,设计适用于ROOT框架的数据拆分、事例读取、结果合并等MapReduce类库。在北京正负电子对撞机实验上进行系统实现后,将其应用于一个8节点实验集群上进行测试,结果表明,该系统可使4×10-6个事例的分析时间缩短23%,当增加节点个数时,每秒钟能够并发分析的事例数与集群的节点数基本呈正比,说明事例分析集群具有良好的扩展性。 展开更多
关键词 高能物理 大数据 数据分析 MAPREDUCE模型 集群 分布式计算
下载PDF
一种大规模分布式应用性能分析系统 被引量:3
2
作者 臧冬松 Vincent Garonne 孙功星 《计算机工程》 CAS CSCD 2012年第24期37-41,共5页
在网格和云计算环境下,由于平台和网络环境的复杂性,使得对大规模分布式应用的有效监控和性能分析变得非常困难。为此,提出一种基于数据流管理的大规模分布式应用性能分析系统,利用消息队列收集、缓冲和分发追踪消息,使用分布式实时处... 在网格和云计算环境下,由于平台和网络环境的复杂性,使得对大规模分布式应用的有效监控和性能分析变得非常困难。为此,提出一种基于数据流管理的大规模分布式应用性能分析系统,利用消息队列收集、缓冲和分发追踪消息,使用分布式实时处理框架分析和追踪消息。将该系统部署到一个Petabyte级别的分布式数据管理系统中,通过事例演示追踪消息的重要性。应用结果表明,该系统能够满足大规模分布式应用环境下大数据量处理能力和实时性的要求,为监控并分析系统性能、预测用户行为等提供了较好的平台支持。 展开更多
关键词 分布式应用 性能分析 数据流管理 消息跟踪 消息队列 NOSQL数据库
下载PDF
CMS实验中关系数据库的精确关键词查询 被引量:1
3
作者 梁栋 臧冬松 +1 位作者 孙功星 Valentin Kuznetsov 《计算机工程》 CAS CSCD 2014年第1期31-38,共8页
在大型强子对撞机(LHC)上紧凑型缪子螺线管探测器(CMS)实验的复杂数据环境下,有多个关系型数据源记录了关于数据组织和分布的信息。为实现数据查询系统的精确关键词查询功能,通过分析数据库模式图的方法,将关键词查询语言动态翻译成SQL... 在大型强子对撞机(LHC)上紧凑型缪子螺线管探测器(CMS)实验的复杂数据环境下,有多个关系型数据源记录了关于数据组织和分布的信息。为实现数据查询系统的精确关键词查询功能,通过分析数据库模式图的方法,将关键词查询语言动态翻译成SQL语言,设计并实现一个跨数据库平台的关键词查询系统。针对动态翻译过程中存在的二义性问题,提出基于查询实体的模式图分析算法,以及基于最小权重树查找的动态连接算法。实验结果表明,该动态连接算法能为关键词查询正确生成所需数据库表的连接方式,使关键词查询系统具有较高的查询效率,以满足用户实时、精确查询的需求。 展开更多
关键词 关键词查询 查询语言 关系数据库 结构化查询语言 二义性问题
下载PDF
CMS实验元数据发现的数据聚集系统
4
作者 梁栋 臧冬松 +2 位作者 霍菁 孙功星 Valentin Kuznetsov 《计算机工程》 CAS CSCD 2014年第4期57-63,70,共8页
在大型强子对撞机上的紧凑繆子螺线管探测器实验,具有数据量大(PB级规模)、数据类型复杂与数据地理上全球分布的特点。记录上述数据的元数据达到TB级的规模,并且以不同的格式保存在不同的关系和非关系数据源中,通过在这些异构数据源上... 在大型强子对撞机上的紧凑繆子螺线管探测器实验,具有数据量大(PB级规模)、数据类型复杂与数据地理上全球分布的特点。记录上述数据的元数据达到TB级的规模,并且以不同的格式保存在不同的关系和非关系数据源中,通过在这些异构数据源上添加一个缓存层的方法,实现一个提供精确的关键词查询的数据聚集系统。根据多重映射和聚集的方式支持用户的查询,并利用有效的缓存管理策略来提升查询的命中率。实验结果表明,该系统能够通过缓存的方式响应超过70%的用户查询,具有良好的查询性能。 展开更多
关键词 关键词查询 数据聚集 元数据发现 缓存管理 映射 异构数据源
下载PDF
分布式文件元数据管理系统设计 被引量:1
5
作者 徐永士 臧冬松 孙功星 《计算机工程与应用》 CSCD 2012年第7期1-4,98,共5页
简述了分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque作业批处理系统;在这些条件的限制下,详细分析了各种限制因素,并以此为基础给出了目标系统的总体结构及模块化设计。详细阐述了目... 简述了分布式文件元数据管理系统的应用环境和设计目标。目标系统设定应用于高能物理数据分析,关联Torque作业批处理系统;在这些条件的限制下,详细分析了各种限制因素,并以此为基础给出了目标系统的总体结构及模块化设计。详细阐述了目标系统的数据库设计、访问接口设计以及数据同步要点,给出了设计思路,并结合目标系统的记录新增操作、查询操作的测试性能,讨论了进一步的工作。 展开更多
关键词 分布式 文件元数据管理 TORQUE 作业批处理系统
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部