-
题名基于时间线优化医疗海量小文件数据集成技术
被引量:1
- 1
-
-
作者
林德南
朱远燕
王浩
王爽
郑静
-
机构
深圳市医学信息中心
深圳中科金证科技有限公司
-
出处
《中国数字医学》
2014年第8期89-92,共4页
-
基金
基于区域卫生海量医疗数据的实时交互和高效分析处理技术研究(编号:CXZZ20120828161054317)~~
-
文摘
随着越来越多的医院开展数字化建设以及区域医疗应用范围的扩大,大量非结构化、半结构化医疗数据爆发式的增长,传统的技术架构在处理海量数据方面显得越来越乏力。深圳市区域卫生信息化数据交换平台,覆盖了全市60家公立医院、600多家社区卫生机构。平台接入近50个异构系统,现有1700多万份健康档案、30亿条以上诊疗数据,平均每天产生500万以上的小文件。针对深圳市卫生区域信息化建设,海量小文件交换处理效率低下的问题,利用Hadoop平台,提出了采用时间基线归档文件技术和序列文件技术解决小文件存储、检索效率问题的解决方案,经验证实该技术可满足实际业务应用中对数据交换的需要。详细描述了该技术的实现细节,包括根据业务数据规模划定时间基线,根据业务需求定制数据类型、数据结构,将小文件合并分块存储,建立小文件到大文件的映射以及相关数据交换处理流程等,并基于真实数据对该技术进行了评测比较,结果表明上述技术与常规技术相比明显提升了批量处理小文件的效率。
-
关键词
医疗数据
时间基线
批量小文件
数据集成技术
-
Keywords
medical data
time baseline
massive small files
data integration technology
-
分类号
R319
[医药卫生—基础医学]
-