基于时间线优化医疗海量小文件数据集成技术被引量：1

Optimize Medical Massive Small Files Data Integration Technology Based on the Time Baseline

下载PDF

导出

摘要随着越来越多的医院开展数字化建设以及区域医疗应用范围的扩大,大量非结构化、半结构化医疗数据爆发式的增长,传统的技术架构在处理海量数据方面显得越来越乏力。深圳市区域卫生信息化数据交换平台,覆盖了全市60家公立医院、600多家社区卫生机构。平台接入近50个异构系统,现有1700多万份健康档案、30亿条以上诊疗数据,平均每天产生500万以上的小文件。针对深圳市卫生区域信息化建设,海量小文件交换处理效率低下的问题,利用Hadoop平台,提出了采用时间基线归档文件技术和序列文件技术解决小文件存储、检索效率问题的解决方案,经验证实该技术可满足实际业务应用中对数据交换的需要。详细描述了该技术的实现细节,包括根据业务数据规模划定时间基线,根据业务需求定制数据类型、数据结构,将小文件合并分块存储,建立小文件到大文件的映射以及相关数据交换处理流程等,并基于真实数据对该技术进行了评测比较,结果表明上述技术与常规技术相比明显提升了批量处理小文件的效率。 As more and more hospitals being digitized and the scope of regional medical applications being expanded, large amounts of unstructured or semi-structured medical data have seen explosive growth, and the traditional technical architecture for handling massive amounts of data has become increasingly weak. At present, the Shenzhen regional health information data exchange platform covers 60 public hospitals and more than 600 community health agencies in Shenzhen. The platform which is accessing nearly 50 heterogeneous systems presently having more than 16 million copies of existing health records and over 3 billion clinic data, generates an average of more than 5 million small files every day. According to the Shenzhen regional health informatization construction and aiming to solve massive small files exchange process inefficiencies, this paper proposed using the archive technologies and techniques based on the time baseline to solve the problems of small files＆#39; storage and retrieval based on the Hadoop platform. The technology can meet the needs of practical business application for data exchange. This paper described the implementation details of the technology, including the delineation of the time scale based on business data at baseline, customised data types and data structures according to the business needs, small files＆#39; merge and block storage, the establishment of mapping from small files to large files and related data exchange processing, etc. The technical evaluations based on real data were compared, and the results showed that these techniques significantly improved the processing efficiency of massive small files compared with the conventional techniques.

作者林德南朱远燕王浩王爽郑静

机构地区深圳市医学信息中心深圳中科金证科技有限公司

出处《中国数字医学》 2014年第8期89-92,共4页 China Digital Medicine

基金基于区域卫生海量医疗数据的实时交互和高效分析处理技术研究(编号:CXZZ20120828161054317)~~

关键词医疗数据时间基线批量小文件数据集成技术 medical data time baseline massive small files data integration technology

分类号 R319 [医药卫生—基础医学]

引文网络
相关文献

参考文献5

1吴佳峰,徐哲,何必仕,金朝阳.数据挖掘技术在医学影像信息系统中的应用[J].中国数字医学,2012,7(10):85-87. 被引量：3
2卓飞豹,宋斌,雷勇,陈海东.基于多预测器融合的医学时间序列数据预测[J].中国数字医学,2010,5(10):24-26. 被引量：2
3余元龙,苏韶生,程敏婷,张淑娟,何远源,邹雨珊,汤洁芬,缪一雄.数字化医院数据资源开发研究和实践[J].中国数字医学,2012,7(8):108-110. 被引量：5
4周迎,曾凡,黄昊.数据挖掘技术在医院信息化建设中的应用策略[J].中国数字医学,2011,6(4):83-85. 被引量：12
5陈元量.Hadoop小文件处理技术的研究和实现[D].南京:南京邮电大学.2003.

二级参考文献15

1陈戏墨,谢铉洋,李志铭,李曦,李扬彬,龚育昌.基于数据挖掘的PACS智能辅助诊断模型研究[J].计算机工程与设计,2005,26(5):1182-1184. 被引量：3
2Han Jiawei,Kamber M.数据挖掘概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社,2007.
3De Falco I,Della Cioppa A,Iazzetta A,et al.Optimizing Neural Networks for Time Series Prediction.Proc.of the 3rd International Conference on Soft Computing,1998.
4Simon G,Lendasse A,Cottrell M,et al.Double SOM for long-term time series prediction.Workshop on Self-Organizing Maps(WSOM),2003:35-40.
5Simon G,Lendasse A,Cottrell M,et al.Time series forecasting:Obtaining long term trends with serf-organizing maps.Pattern Recognition Letters,2005:1795-1808.
6Espinoza M,Suykens AK,Moor BD.Short Term Chaotic Time Series Prediction using Symmetric LS-SVM Regression.Proc.of the International Symposium on Nonlinear Theory and Applicatiom(NOLTA),2005:606-609.
7Qian B,Rasheed K.Stock Market Prediction with Multiple Classifiers.Appl Intell,2007:25-33.
8http://www.cs.ucr.edu/-eamonn/time_series_data/.
9Jamie MacLennan,ZhaoHui Tang,Bogdan Crivat.Data Mining with SQL Server 2008[M].董艳,程文俊,译北京:机械工业出版社,2010.
10戈欣,吴晓芬,许建荣.数据挖掘技术在放射科医疗管理中的潜在作用[J].中国数字医学,2009,4(1):60-62. 被引量：3

共引文献16

1丁洪生,张同庄,杨伟强.6-PSS虚拟轴机床运动分析[J].北京理工大学学报,2000,20(1):29-32. 被引量：3
2凌志,洪迎玉.基于商业智能的医院决策支持系统研究与实现[J].中国卫生信息管理杂志,2013,10(6):529-533. 被引量：7
3刘方斌,马锡坤,于京杰.纸质病历电子化方案研究与设计[J].中国数字医学,2014,9(2):82-84. 被引量：5
4林琳.基于知识库的手术操作分类ICD-9-CM3系统设计[J].中国数字医学,2014,9(4):62-63. 被引量：5
5刘方斌,于京杰.大型医院信息一体化平台的研究与设计[J].电子设计工程,2014,22(7):25-28. 被引量：3
6朱远燕,林德南,陈妍,杨艳,李云梦,陈汝林.基于医疗大数据的门诊疾病标准匹配算法[J].中国数字医学,2018,13(12):2-5. 被引量：1
7杜敏,罗建伟.基于大数据的医院决策支持系统构建研究[J].中国数字医学,2014,9(12):73-75. 被引量：9
8倪杭建,何必仕,徐哲,朱大荣,钮罗涌.基于灰色马尔可夫模型的医学影像检查量预测[J].中国医疗设备,2015,30(2):25-28. 被引量：1
9谭跃庆.电子病历在精神专科医院的应用[J].临床心身疾病杂志,2015,21(1):143-144. 被引量：1
10殷杰,叶庆,廖家智,秦仁义.基于HIS的手术全过程监管平台的构建与应用[J].中国数字医学,2015,10(9):95-97. 被引量：6

同被引文献4

1孟小峰,王宇,罗道峰,等.OrientX:一个Native XML数据库系统的实现策略[C].重庆:第20届全国数据库学术会议论文集计算机科学.2003.
2Jagadish H V,Al-Khalifa S,Chapman A,et al.TIMBER:A Native XML Database[C].Vldb Journal—the International Journal on Very Large Data Bases.2002:2002.
3The Apache Software Foundation.Apache Hadoop[DB/OL].http://hadoop.apache.org,2015(5).
4医苑.马云投巨资欲实现医疗梦PE分享大健康产业盛宴[J].现代养生,2015,0(6):8-10. 被引量：1

引证文献1

1曹诚,唐卓浩.一种智能医疗云平台的构建方案[J].信息通信,2015,28(7):79-81. 被引量：4

二级引证文献4

1刘忠强,王开义,赵向宇,李民赞.云环境下作物育种信息化模型研究[J].农机化研究,2017,39(3):7-11. 被引量：8
2卫亚兵,彭凯,张锐.一种智能家居系统的设计和应用[J].物联网技术,2018,8(3):107-108. 被引量：1
3王晓丽,施天行,杨思睿,郑园园.面向“互联网+智慧医疗”的区域卫生信息平台研究与设计[J].中国数字医学,2019,14(5):64-66. 被引量：22
4甘绛红.物联网技术在医学三维彩超数据采集中的应用[J].影像研究与医学应用,2018,2(14):251-254.

1李宁,杨卓.海马CA3b亚区的不同锥体细胞表现不同的放电模式[J].天津医药,2008,36(4):279-279.
2王讯,孙树梅,欧阳妮,张亚莉,芮勇宇.秀丽隐杆线虫-泛耐药肺炎克雷伯菌感染模型的建立[J].中国感染控制杂志,2016,15(7):457-460. 被引量：3
3王宇,刘建超,刘丽华.我国临床疾病诊疗数据资源条件与现状[J].中国卫生信息管理杂志,2014,11(2):178-181. 被引量：2
4张保华,李伯勤,张向红,朱传菊,王立言.骨细胞超薄切片技术改进[J].山东医科大学学报,2002,40(1):91-91. 被引量：1
5邵静宜,章晓梅.影响冷冻胚胎移植的因素分析[J].中国现代医生,2009,47(3):48-49. 被引量：6
6王波,吕筠,李立明.生物医学大数据：现状与展望[J].中华流行病学杂志,2014,35(6):617-620. 被引量：30
7王超,陈先来.基于数据挖掘技术的结直肠癌的个性化诊疗系统的研究[J].医学信息（中旬刊）,2011,24(8):3528-3529. 被引量：1
8北医三院医联体启动运行[J].中华医学信息导报,2014,0(19):7-7.
9胡睿.社区推进“收支两条线”缓慢探究[J].中国社区医师,2009,25(4):3-4. 被引量：2
10戴春林,陈小康,顾嘉奇,沈婷.以应用为主导的区域卫生信息化实践与分析[J].中国卫生信息管理杂志,2015,12(1):39-42. 被引量：3

中国数字医学

2014年第8期

浏览历史

内容加载中请稍等...

基于时间线优化医疗海量小文件数据集成技术被引量：1

参考文献5

二级参考文献15

共引文献16

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于时间线优化医疗海量小文件数据集成技术 被引量：1

参考文献5

二级参考文献15

共引文献16

同被引文献4

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于时间线优化医疗海量小文件数据集成技术被引量：1