面向数据融合的多粒度数据溯源方法被引量：4

Method on Multi-granularity Data Provenance for Data Fusion

下载PDF

导出

摘要随着数据量的增加、数据间的关联和交叉,需要通过数据融合来实现数据的价值最大化。然而,由于数据融合过程复杂,为清晰解释数据融合过程,建立数据融合的回溯机制十分必要。虽然对数据溯源的研究很多,但大多是面向查询和工作流的溯源研究,而面向数据融合的溯源研究很少。文中面向数据融合溯源展开研究,提出了一种支持多粒度数据溯源的方法。首先,对数据融合过程进行抽象,以实体为核心构建模式、实体和属性的语义图,将数据融合过程语义化,并提出优化的溯源信息存储模式;然后,基于语义图,分别提出了实体级和属性级的溯源查询算法,以及相应的查询优化策略;最后,通过实验证明了提出的数据溯源方法的有效性。 As the amount of data increases, correlates and crosses between data, the value of data needs to be maximized through data fusion.However, due to the complexity of the data fusion process, to clearly explain the data fusion process, it is necessary to establish a backtracking mechanism for data fusion.Although many researches are focused on data provenance, most of them are based on query and workflow, and few of them are for data fusion.This paper focuses on the provenance of data fusion, and proposes a method to support multi-granularity provenance.Firstly, the data fusion process is abstracted, and the semantic graphs of patterns, entities and attributes are constructed with the entity as the core, and an optimized model for storing storage provenance information is proposed.Secondly, on the basis of the semantic graph, the data provenance query algorithms at the entity level and the attribute level are proposed respectively, and the corresponding query optimization strategy are also proposed.Finally, experiments demonstrate the effectiveness of the proposed data provenance method.

作者杨斐斐沈思妤申德荣聂铁铮寇月 YANG Fei-fei;SHEN Si-yu;SHEN De-rong;NIE Tie-zheng;KOU Yue(College of Computer Science and Engineering,Northeastern University,Shenyang 110169,China)

机构地区东北大学计算机科学与工程学院

出处《计算机科学》 CSCD 北大核心 2022年第5期120-128,共9页 Computer Science

基金国家自然科学基金(62072084,62072086) 国家重点研发计划(2018YFB1003404)。

关键词数据溯源数据融合多粒度 Data provenance Data fusion Multi-granularity

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):231-246. 被引量：135
2王淞,彭煜玮,兰海,罗倩雯,彭智勇.数据集成方法发展与展望[J].软件学报,2020,31(3):893-908. 被引量：23
3薛见新,申德荣,寇月,聂铁铮,于戈.面向数据融合的半环溯源计算方法[J].计算机研究与发展,2016,53(2):316-325. 被引量：5

二级参考文献22

1陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51. 被引量：139
2杨先娣,彭智勇,刘君强,李旭辉.信息集成研究综述[J].计算机科学,2006,33(7):55-59. 被引量：35
3Cui Y, Widom J, Wiener J L. Tracing the lineage of view data in a warehousing environment [J]. ACM Trans on Database Systems, 2000, 25(2): 179-227.
4Green T J, Karvounarakis G, Tannen V. Provenance semirings [C]//Proe of the 27th A(?M SIGMOD Int Couf on Management of Data Symp on Principles of Database Systems. New York: ACM, 2007:31-40.
5Llinas J, Hall D L. An introduction to multi-sensor data fusion [C]//Proc of ISCAS'98. Piscataway, NJ: IEEE, 1998: 537-540.
6Dong X L, Naumann F. Data fusion--Resolving data cooncfcts for integration [J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1654-1655.
7l)ong X L, Gabrilovich E, Heitz G, et al. From data fusion to knowledge fusion [J]. Proceedings of the VLDB Endowment, 2014, 7(10): 881-892.
8Dong X l, Berti-Equille L, Srivastava D. Data fusion: Resolving conflicts from mutiple sources [C] //Proc of the WAIM2013. Berlin: Springer, 2013:64-76.
9Li Xian, Dong X L, Lyons K, et al. Scaling up copy detection [C] //Proc of the 31st IEEE Int Conf on Data Engineering. Piscataway, NJ: IEEE, 89-100.
10Xuan Liu, Xin Luna Dong, Beng Chin Ooi, et al. Online data fusion[J]. Proceedings of the VLDB Endowment, 2011, 4 (11): 932-943.

共引文献156

1任毕云,明伟,吴广怀.基于机器学习及优化算法的振冲碎石桩优化设计[J].中国水运（下半月）,2023,23(10):39-41.
2邱均平,余波,杨思洛.大数据背景下一门交叉学科的兴起——论数据计量学的构建[J].中国图书馆学报,2021,47(5):48-58. 被引量：20
3陈瑶雯,冯文博.新形势下数据集成驱动金融业数字化转型的现状与挑战[J].广西大学学报（哲学社会科学版）,2022,44(4):131-139. 被引量：7
4李广建,陈瑜.知识融合研究的现状分析及建议[J].图书情报工作,2019,63(1):41-51. 被引量：3
5王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.
6高继平,马峥,潘云涛,张玉华.大数据领域代表性专家识别与分析——文献计量学视角[J].科技管理研究,2016,36(16):177-182. 被引量：5
7马晓亭.图书馆多源大数据融合研究:问题与挑战[J].新世纪图书馆,2017(1):28-31. 被引量：11
8黎建辉,沈志宏,孟小峰.科学大数据管理:概念、技术与系统[J].计算机研究与发展,2017,54(2):235-247. 被引量：72
9马旭,王大勇.大数的阶乘与自然对数的超高精度求解[J].计算机与现代化,2017(3):51-53. 被引量：1
10韩震,孙红.基于Hadoop的分布式平台实现[J].软件导刊,2017,16(3):56-58. 被引量：2

同被引文献39

1唐晓波,郑杜,谭明亮.慢性病健康教育知识服务系统模型构建研究[J].情报科学,2019,37(1):134-140. 被引量：29
2袁凯琦,邓扬,陈道源,张冰,雷凯.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018,35(7):1929-1936. 被引量：83
3陈国青,吴刚,顾远东,陆本江,卫强.管理决策情境下大数据驱动的研究和应用挑战——范式转变与研究方向[J].管理科学学报,2018,21(7):1-10. 被引量：158
4王芳,赵洪,马嘉悦,李晓阳,张晓玥.数据科学视角下数据溯源研究与实践进展[J].中国图书馆学报,2019,45(5):79-100. 被引量：38
5刘城宇,杨洪明,赖明勇.农业现代化背景下县域光伏扶贫生态补偿标准评估[J].农业工程学报,2020,36(16):300-309. 被引量：8
6李宣,柳毅.基于双区块链及物联网技术的防伪溯源系统[J].计算机应用研究,2020,37(11):3401-3405. 被引量：29
7王海芳,张笑愚,祖楠楠.基于知识图谱的国内外供应链金融比较研究[J].研究与发展管理,2020,32(5):42-57. 被引量：13
8谢绒娜,李晖,史国振,郭云川,张铭,董秀则.基于区块链的可溯源访问控制机制[J].通信学报,2020,41(12):82-93. 被引量：24
9魏银珍,邓仲华,关玉蓉,胡志华.一种基于区块链与智能合约的科学数据安全溯源方法[J].现代情报,2021,41(1):32-38. 被引量：26
10张学旺,冯家琦,殷梓杰,林金朝.基于区块链的数据溯源可信查询方法[J].应用科学学报,2021,39(1):42-54. 被引量：28

引证文献4

1顾天阳,赵旺,曹林.跨组织医疗健康大数据聚合与案例知识推理方法研究[J].情报科学,2022,40(3):40-44. 被引量：11
2王莹,穆力,宋继红,张容福,李宝海,周冀.基于区块链技术的光伏扶贫资金精准溯源方法[J].电力大数据,2022,25(12):69-76.
3杨彬,高俊涛,王志宝,李菲,马强,江树涛.基于词嵌入的元组级数据溯源方法[J].计算机技术与发展,2023,33(12):49-57.
4李焕.基于区块链的工业互联网数据溯源技术实现[J].自动化与仪器仪表,2024(1):89-92. 被引量：1

二级引证文献12

1王成文,熊励.基于多源数据的突发公共卫生事件医疗服务知识库研究[J].现代情报,2022,42(11):135-149. 被引量：4
2姜晓萍,郭宁.卫生服务数字化转型政策的价值与工具——基于健康医疗大数据的政策分析[J].学海,2023(1):103-113. 被引量：6
3张卫东,陈希鹏,杨斯涵.健康医疗大数据价值挖掘分析框架构建[J].图书情报工作,2023,67(15):35-43. 被引量：3
4陆泉,彭雪莹,陈静.健康中国战略视角下重大慢性病预防知识服务体系构建[J].情报科学,2023,41(6):1-8. 被引量：7
5苏强,季荔.基于随机演化博弈的医疗数据共享协调机制研究[J].情报科学,2023,41(9):37-47. 被引量：2
6唐明康,王科盛,李双双,刘培,彭旭光.基于物联网数据和神经网络的呼吸机故障预测方法研究[J].医疗卫生装备,2023,44(9):8-13.
7毕琪,智路平.算法新闻与媒体管理影响因素研究——基于人机协同视角[J].经营与管理,2023(11):28-36.
8刘昭阁,张瑞金,李向阳,乔立民,吴冲.基于案例源证据推理法的城市安全大数据治理能力成熟度评价[J].系统管理学报,2023,32(6):1243-1254. 被引量：2
9秦泽家.数智时代环境下情报协同驱动全生命周期健康服务体系构建研究[J].情报理论与实践,2024,47(1):65-74. 被引量：2
10陈天怡.基于专利数据挖掘的我国智慧健康服务发展趋势研判[J].现代信息科技,2024,8(8):161-166.

1徐亮,袁萍,李鑫阳,张基恒,田宇.“国资云”政策解读及给运营商网络运维带来的影响和启示[J].通信世界,2022(2):25-28.
2霍运哲.江南丝竹《欢乐歌》记谱版本溯源研究[J].音乐天地,2022(1):48-52.
3马建燕.彰显育人价值,让寓言教学价值最大化[J].小学语文教学,2022(11):9-10.
4李梦怡,贾菲菲,董喆,王宏伟,曹进,孙磊.我国不同产区羊肉中碳、氮同位素比值特征及溯源研究[J].食品安全质量检测学报,2022,13(5):1663-1669. 被引量：5
5王冕,邢玉瑞.近40年中医学“时”概念研究述评[J].中华中医药杂志,2021,36(11):6340-6343. 被引量：2
6朱伟杰,努尔古丽·阿不都苏力.近十年农产品溯源研究现状综述[J].河北农机,2022(5):85-87.
7邵红琪,牛其强,刘雪艳,吴晓辉.“4M1E”要素在科技档案信息化管理中的应用研究[J].科技广场,2021(6):41-48. 被引量：1
8江姝,王金华,程邦,朱秋平.同位素示踪法在广西花山岩画矿物颜料产地溯源中的应用[J].西北大学学报（自然科学版）,2022,52(2):224-231. 被引量：1
9李爽,张政,刘娅娅.基于文本挖掘的西部城市旅游满意度研究——以携程西安和成都为例[J].科技和产业,2022,22(4):326-333.
10梁锺烨,马绚,朱尚明.高校网络攻击溯源体系建设研究[J].计算机科学与应用,2022,12(3):516-526.

计算机科学

2022年第5期

浏览历史

内容加载中请稍等...

面向数据融合的多粒度数据溯源方法被引量：4

参考文献3

二级参考文献22

共引文献156

同被引文献39

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

面向数据融合的多粒度数据溯源方法 被引量：4

参考文献3

二级参考文献22

共引文献156

同被引文献39

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

面向数据融合的多粒度数据溯源方法被引量：4