摘要
【目的】传统的以SQL为中心的技术栈无法有效地应对大数据场景带来的多元异构数据管理、大规模关系网络管理和复杂网络分析等挑战,本文针对新型大数据技术栈展开研究。【方法】通过分析图数据模型的优势,结合图技术的发展和应用现状,提出以图为中心的新型大数据技术栈,并介绍了智能融合数据管理系统PandaDB。【结果】该技术栈在生物数据网络、科技知识图谱等实际应用中得到较好的验证,PandaDB具备良好的结构化、非结构化数据融合管理能力。【局限】该技术栈的大面积推广还存在支撑工具不足、应用生态不够成熟等困难。【结论】以图为中心的新型大数据技术栈会在更多的大数据应用场景中发挥更大的价值。
[Objective] The traditional SQL centric technology stack cannot handle multivariant and heterogeneous data management, large-scale network management, as well as complex network analysis.Therefore, we proposed a new graphic centric technology stack for big data. [Methods] First, we analyzed the advantages of graph-based data model and established a new graph centric technology stack. Then, we developed PandaDB, an intelligent fusion data management system. [Results] The new technology stack performed well in the applications of biological data network and scholar knowledge graph. PandaDB could manage structured and unstructured data fusion. [Limitations] It is difficult to further promote this technology stack due to the lack of supporting tools and complete application ecology. [Conclusions] Our new technology stack will play a greater role in big data applications.
作者
沈志宏
赵子豪
王海波
Shen Zhihong;Zhao Zihao;Wang Haibo(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020年第7期50-65,共16页
Data Analysis and Knowledge Discovery
基金
国家重点研发计划云计算和大数据专项“科学大数据管理系统”(项目编号:2016YFB1000605)
中国科学院计算机网络信息中心与国家自然科学基金委员会合作项目“国家自然科学基金大数据知识管理服务平台”(项目编号:GC-FG4161781)
中国烟草总公司科技重大专项项目“烟草科研数据融合与关联挖掘关键技术研究”(项目编号:110201801019(SJ-01))的研究成果之一。
关键词
图模型
图数据库
数据仓库
技术栈
Graph Model
Graph Database
Data Warehouse
Technolgy Stack