-
题名腾讯数据银行TDBan
- 1
-
-
作者
周海洋
-
机构
腾讯数据平台部
-
出处
《程序员》
2013年第2期28-31,共4页
-
文摘
随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖越来越重。现今的数据处理系统大体上可分为离线处理系统和在线处理系统。在开源系统中,Hadoop和Storm是两个比较有代表性的系统。许多商业公司也推出了自己的大数据产品。
-
关键词
数据银行
在线处理系统
腾讯
数据处理系统
互联网公司
离线处理
数据产品
商业公司
-
分类号
TP311.56
[自动化与计算机技术—计算机软件与理论]
-
-
题名腾讯分布式数据仓库解析
- 2
-
-
作者
郭玮
李均
-
机构
腾讯数据平台部
-
出处
《程序员》
2012年第7期103-107,共5页
-
文摘
TDW(腾讯分布式数据仓库)是在Hadoop和Hive的基础上根据腾讯的业务特点深度定制的,它在稳定性、性能和易用性等方面都有不俗的表现。本文将从应用场景和实践技巧等方面全面解析TDW。
-
关键词
分布式数据仓库
腾讯
解析
稳定性
易用性
定制
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向大数据分析的分布式文件系统关键技术
被引量:75
- 3
-
-
作者
周江
王伟平
孟丹
马灿
古晓艳
蒋杰
-
机构
中国科学院计算技术研究所计算机应用研究中心
中国科学院大学
中国科学院信息工程研究所
腾讯公司数据平台部
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第2期382-394,共13页
-
基金
国家"八六三"高技术研究发展计划基金项目(2013AA013204)
中国科学院先导专项基金项目(XDA06030200)
+1 种基金
国家自然科学基金项目(60903047)
国家科技支撑计划基金项目(2012BAH46B03)
-
文摘
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.
-
关键词
大数据
海量数据存储
分布式文件系统
元数据可扩展性
高可用性
-
Keywords
big data mass data storage distributed file system metadata scalability high availability
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
TP316.4
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Hadoop的高效连接查询处理算法CHMJ
被引量:36
- 4
-
-
作者
赵彦荣
王伟平
孟丹
张书彬
李均
-
机构
中国科学院计算技术研究所
中国科学院国家智能计算机研究开发中心
中国科学院研究生院
腾讯公司数据平台部
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第8期2032-2041,共10页
-
基金
国家自然科学基金(60903047)
-
文摘
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.
-
关键词
大数据
HADOOP
连接查询处理
HashMapJoin
-
Keywords
big data
Hadoop
join query processing
HashMapJoin
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名隐私计算关键技术与创新
被引量:12
- 5
-
-
作者
符芳诚
侯忱
程勇
陶阳宇
-
机构
北京大学信息科学技术学院高可信软件技术重点实验室
腾讯数据平台部数据中心
-
出处
《信息通信技术与政策》
2021年第6期27-37,共11页
-
基金
国家重点研发计划“云计算和大数据”专项(No.2018YFB1004403)资助。
-
文摘
数据已经成为数字经济中重要的生产要素和战略资源。在实际应用中,数据分散在各个机构,由于隐私保护等原因,这些数据很难整合到一起,形成数据孤岛,从而阻碍大数据与人工智能产业的发展。隐私计算可以破解数据孤岛难题,在保障用户隐私的同时赋能多方数据协同应用,助力释放数据融合价值。对隐私计算的关键技术与创新成果,包括隐私集合求交技术、斜向联邦学习、异步并行计算、消息压缩机制、单向通信连接方案、可信执行环境、联合数据分析等进行了研究和分析,并对这些技术与创新在Angel PowerFL通用隐私计算平台中的应用进行了介绍。
-
关键词
隐私计算
联邦学习
联合数据分析
Angel
PowerFL
-
Keywords
privacy preserving computing
federated learning
federated data analysis
Angel PowerFL
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于同态加密和秘密分享的纵向联邦LR协议研究
被引量:2
- 6
-
-
作者
符芳诚
刘舒
程勇
陶阳宇
-
机构
北京大学信息科学技术学院高可信软件技术重点实验室
腾讯TEG数据平台部
腾讯TEG机器学习平台部
-
出处
《信息通信技术与政策》
2022年第5期34-44,共11页
-
文摘
提出了一种新颖的两方纵向联邦逻辑回归协议,并在半诚实安全模型下证明了该协议的安全性,包括模型训练流程和模型推理流程的安全性,且无需对非线性函数使用多项式近似计算,从而保证了联邦逻辑回归协议模型无损。
-
关键词
纵向联邦学习
逻辑回归
同态加密
秘密分享
-
Keywords
vertical federated learning
logistic regression
homomorphic encryption
secret sharing
-
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
-