期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
赋能图书馆效能评估:数据血缘关系驱动的指标管理与应用探析
1
作者 张宁 《图书馆》 2024年第4期53-61,68,共10页
随着数据的不断增长,传统的指标管理方法面临着巨大挑战,在图书情报领域,探索数据血缘关系是数据治理的有效途径之一。文章基于数据血缘关系的概念,以指标管理为例,分析了数据血缘关系在评估指标管理中的应用场景,并设计了相应的技术路... 随着数据的不断增长,传统的指标管理方法面临着巨大挑战,在图书情报领域,探索数据血缘关系是数据治理的有效途径之一。文章基于数据血缘关系的概念,以指标管理为例,分析了数据血缘关系在评估指标管理中的应用场景,并设计了相应的技术路线。通过收集公共文化机构的相关数据,追踪指标之间的依赖关系和数据的流动情况,实现数据关系的有向图表达,并阐述了关键技术,构建了数据血缘关系在指标管理中的原型系统。通过探索数据血缘关系,发现了公共文化评估指标之间复杂而深刻的关系,并以此为基础建立了指标血缘关系,证明了将基于数据血缘关系驱动的方法引入图书馆数据管理的可行性,为数据管理和优化提供了新的视角和途径。 展开更多
关键词 数据血缘关系 指标管理 数据治理 数据管理
下载PDF
面向复杂数据审计需求的数据血缘构建方法
2
作者 潘晓华 金泳 +2 位作者 高扬华 朱心洲 沈诗婧 《计算机应用研究》 CSCD 北大核心 2024年第1期76-82,共7页
针对复杂数据审计需求,现有方法是通过查询分析数据库中每条执行语句信息,数据审计效率低下;目前也有一些手段是使用数据血缘工具进行快速查找,但是这种方式需要侵入系统获取源码,容易造成数据泄露或者被恶意窜改。针对这些问题,提出一... 针对复杂数据审计需求,现有方法是通过查询分析数据库中每条执行语句信息,数据审计效率低下;目前也有一些手段是使用数据血缘工具进行快速查找,但是这种方式需要侵入系统获取源码,容易造成数据泄露或者被恶意窜改。针对这些问题,提出一种面向复杂数据审计需求的数据血缘构建方法,融合日志预处理、数据关系解析、数据对齐等关键技术,通过解析系统运行日志信息以非侵入的方式实现数据血缘图谱的构建,并面向烟草物流出入库环节形成数据审计工具。以烟草物流中13 796个批次货物在流转过程中所对应的155 728条事务日志为测试数据集,从完整性、构建成本、数据审计效率三个方面进行对比实验。结果表明,提出的方法能够在10 s内完成查询任务,占用内存为1.23 MB/百条,明显少于现有方法。相比现有方法,提出的方法可在数据级粒度上进行完整准确的数据血缘构建,且使用基于该方法所构建的数据血缘进行数据审计能够大幅度提升卷烟物流过程中的数据审计效率。 展开更多
关键词 数据血缘 非侵入式 数据审计 卷烟物流 自动化作业
下载PDF
基于数据表相似度计算的数据血缘构建方法
3
作者 潘奇 蔡斯博 魏芳芳 《电脑与电信》 2024年第6期11-15,共5页
大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数... 大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数据管理的关键任务之一,对于数据溯源和数据治理具有重要意义。然而,传统的数据血缘构建方法往往面临着计算复杂度高、准确性差、执行成本高等问题。为克服这些问题,提出一种基于数据表相似度计算的数据血缘构建方法:通过对数据表的命名、表结构和数据字段三要素进行文本特征表示,利用TFIDF计算数据表的相似度,并进一步通过改进的Jaro-WinklerDistances算法验证字段重合度、表名相似度的方法构建数据表血缘关系。结果表明,该算法在数据表血缘关系构建方面效果显著,促进了数据治理工作的顺利开展。 展开更多
关键词 数据血缘 数据治理 数据 表相似度
下载PDF
采用数据血缘的数据热度预测方法 被引量:3
4
作者 金泳 高扬华 +2 位作者 潘晓华 沈诗婧 朱心洲 《计算机应用》 CSCD 北大核心 2023年第S01期119-125,共7页
数据之间存在相互引用关系,在进行数据开发时,通常存在一些具有高热度的数据,此类数据被其他数据大量引用,它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此,对高热度数据进行预测并予以相应保护至关重要。面向基于... 数据之间存在相互引用关系,在进行数据开发时,通常存在一些具有高热度的数据,此类数据被其他数据大量引用,它们的缺陷往往会给整个大数据平台产出的数据结果带来极大影响。因此,对高热度数据进行预测并予以相应保护至关重要。面向基于数据热度的数据分级治理需求,提出一种采用数据血缘的数据热度预测方法。首先通过构建数据系统中的数据血缘捕获数据节点之间的引用关系;然后,提取数据血缘的时间和结构特征,并采用图卷积网络(GCN)进行数据血缘图特征的学习;最后,提出一种数据血缘传播趋势分层读出的方法读出图特征,对数据热度进行预测。在浙江中烟营销系统数据集ZJZY-SL和高能物理现象学相关论文引文数据集(HEP-PH)上的实验结果表明,相较于DeepCCP等方法,所提方法的识别准确率分别提升7.64、2.88个百分点,平均F1分别提升4.7、4.34个百分点。所提方法能充分挖掘数据在被引用早期的数据血缘特征,并预测数据节点未来的热度。 展开更多
关键词 数据血缘 图卷积网络 数据热度 传播趋势 数据治理
下载PDF
基于数据血缘分析的电网企业数据资产价值评估
5
作者 朱青 《信息与电脑》 2023年第13期91-93,共3页
由于数据资产价值评估的指标在结构、层次及来源上各不相同,导致评估结果的准确性较差,提出基于数据血缘分析的电网企业数据资产价值评估。文章创建包含5个一级指标、16个二级指标的电网企业数据资产价值评估指标体系,确定各评估指标权... 由于数据资产价值评估的指标在结构、层次及来源上各不相同,导致评估结果的准确性较差,提出基于数据血缘分析的电网企业数据资产价值评估。文章创建包含5个一级指标、16个二级指标的电网企业数据资产价值评估指标体系,确定各评估指标权重,基于数据血缘分析建立各指标之间的血缘关系,形成评估模型,量化模型输入层的指标数值,运行模型完成电网企业数据资产价值的评估。实例结果表明,电网企业营销服务类系统数据资产价值的评估结果与实际数据价值存在2.85%的误差,证明设计方法具有可操作性。 展开更多
关键词 数据血缘分析 电网企业 数据资产 价值评估
下载PDF
基于元数据映射关系的结构化数据血缘分析方法 被引量:5
6
作者 唐雪飞 樊治强 《现代电子技术》 2022年第16期67-70,共4页
现有的结构化数据的数据血缘分析方法以改造数据库查询语言的执行过程为主,应用局限性较强,对此文中提出一种基于元数据映射关系的结构化数据血缘分析方法。该方法对业务表和字段的元数据信息进行统一维护,支持通过SQL解析、手动配置等... 现有的结构化数据的数据血缘分析方法以改造数据库查询语言的执行过程为主,应用局限性较强,对此文中提出一种基于元数据映射关系的结构化数据血缘分析方法。该方法对业务表和字段的元数据信息进行统一维护,支持通过SQL解析、手动配置等手段构造并存储表和字段的元数据映射关系,以此记录表和字段的数据流向。然后,给出针对特定表和特定字段的血缘分析算法,算法分别基于深度优先搜索和广度优先搜索的思想,对存储的元数据映射关系进行分析,得到对输入表和输入字段有贡献的上游表和上游字段。再以有向图形式展示的分析结果直观地表达结构化数据的起源信息。该方法可以帮助数据分析人员快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。 展开更多
关键词 结构化数据 数据血缘 数据映射关系 数据流向 血缘分析 数据分析
下载PDF
基于数据仓库的数据血缘管理研究 被引量:6
7
作者 金泳 《轻工科技》 2019年第4期81-82,93,共3页
数据仓库的建设过程中,是否对数据血缘进行管理,将在后期运行维护阶段产生重要的影响。本文通过烟草工业数据仓库的建设,针对这一方面进行探索性研究,对数据血缘的相关定义进行介绍,并以数据血缘图作为实践方案,介绍表级、字段级等不同... 数据仓库的建设过程中,是否对数据血缘进行管理,将在后期运行维护阶段产生重要的影响。本文通过烟草工业数据仓库的建设,针对这一方面进行探索性研究,对数据血缘的相关定义进行介绍,并以数据血缘图作为实践方案,介绍表级、字段级等不同级别下的实现,以及数据节点权重的计算方法。 展开更多
关键词 数据仓库 数据血缘 数据节点 图计算
下载PDF
数据血缘可视化分析平台研究与应用 被引量:6
8
作者 叶天琦 沈春锋 《信息技术与标准化》 2020年第11期17-20,共4页
在介绍现有公司数据治理的背景上,分析了现有数据中台的需求,引入了数据血缘可视化的思想,详细介绍了其功能结构的数据血缘采集、数据血缘解析、数据血缘展现、数据血缘应用四个部分和技术架构的数据加工层、数据存储层、数据展现层,最... 在介绍现有公司数据治理的背景上,分析了现有数据中台的需求,引入了数据血缘可视化的思想,详细介绍了其功能结构的数据血缘采集、数据血缘解析、数据血缘展现、数据血缘应用四个部分和技术架构的数据加工层、数据存储层、数据展现层,最终形成了平台化的解决方案,从而提高监察数据加工过程的效率。 展开更多
关键词 数据血缘 可视化 数据中台 数据治理
下载PDF
基于数据血缘构建数据分析方法 被引量:9
9
作者 李春梅 张星 +3 位作者 耿慧拯 杨亭亭 张鑫月 郭斯栩 《中国新通信》 2020年第20期50-51,共2页
大数据时代的到来,使得各行各业的发展都面临巨大的挑战,而数据的价值也在这样的大背景下迅速提升,如何挖掘数据并将数据的价值最大化也成为数据分析的关键内容。建立数据之间的血缘关系,利用标签智能化的手段,建立词条血缘数据库,将数... 大数据时代的到来,使得各行各业的发展都面临巨大的挑战,而数据的价值也在这样的大背景下迅速提升,如何挖掘数据并将数据的价值最大化也成为数据分析的关键内容。建立数据之间的血缘关系,利用标签智能化的手段,建立词条血缘数据库,将数据进行关联、组织与分析是最能体现数据价值的直接方法。本文将从数据血缘的定义为切入点,分析如何构建基于数据血缘的数据分析方法。 展开更多
关键词 数据血缘 数据分析 标签智能化 词条血缘数据
下载PDF
面向自然资源管理的血缘分析技术研究
10
作者 王训霞 徐贵阳 赵占荣 《测绘与空间地理信息》 2023年第7期68-71,共4页
强化自然资源管理能力,履行自然资源“两统一”核心职责,提升国土空间治理能力和治理体系现代化水平,是实现高质量发展的必然要求。面对自然资源数据体量庞大、多源异构、关系错综复杂的特点,笔者基于数据血缘分析技术研究面向自然资源... 强化自然资源管理能力,履行自然资源“两统一”核心职责,提升国土空间治理能力和治理体系现代化水平,是实现高质量发展的必然要求。面对自然资源数据体量庞大、多源异构、关系错综复杂的特点,笔者基于数据血缘分析技术研究面向自然资源数据治理,探索自然资源全生命周期管理方法。通过数据分析,建立标准规范理论,构建自然资源数据之间的血缘关系,利用熵减分析方法向上追溯,对数据字段进行标签化,从而跟踪数据演绎轨迹,试图反映自然资源从资源保护、开发利用到治理修复的整个过程,为提升自然资源管理精细化水平提供支撑。 展开更多
关键词 自然资源 数据血缘 数据治理 全生命周期管理
下载PDF
基于数据全生命周期的数据资产价值评估方法及应用 被引量:11
11
作者 李冬青 刘吟啸 +1 位作者 邓镭 李铭洋 《大数据》 2023年第3期39-55,共17页
数据资产价值评估是现代数据资产管理和运营以及数据流通的基础。基于数据全生命周期理论,从第一性原则出发,通过评估单张数据资产表的成本、数据管理以及数据应用价值,实现对单张数据资产表的系统性评估。利用数据仓库和图算法等技术,... 数据资产价值评估是现代数据资产管理和运营以及数据流通的基础。基于数据全生命周期理论,从第一性原则出发,通过评估单张数据资产表的成本、数据管理以及数据应用价值,实现对单张数据资产表的系统性评估。利用数据仓库和图算法等技术,以层为单位,每层分摊,血缘路径继承,精确计算得到单张数据资产表的成本价值;然后利用层次分析法得到数据资产非经济因素权重,进而得到数据资产阶梯价值;最后通过实例分析验证了新方法的合理性和可行性。 展开更多
关键词 数据资产 数据资产价值评估 数据仓库 数据血缘
下载PDF
基于“四库合一”的地质大数据管理研究及应用 被引量:1
12
作者 王宏 于雪鸥 +2 位作者 乔东玉 曾涛 赵聪浩 《能源与环保》 2023年第5期110-116,共7页
在地质大数据背景下,伴随着地质工作的深入开展,形成了从地质数据到地质信息、从地质信息到地质知识、从地质知识到地质应用,再到新地质数据的不断循环的地质大数据链。为了更好地适应地质信息化和地质大数据发展趋势,地质大数据的管理... 在地质大数据背景下,伴随着地质工作的深入开展,形成了从地质数据到地质信息、从地质信息到地质知识、从地质知识到地质应用,再到新地质数据的不断循环的地质大数据链。为了更好地适应地质信息化和地质大数据发展趋势,地质大数据的管理应以地质大数据链为主线进行驱动,对管理流程进行改造。面向地质数据长效治理,提出了基于“四库合一”的数据管控体系,根据地质数据性质和在数据链循环中所处的各个阶段,分别采用原始库、工作库、成果库进行管理,并构建了地质数据血缘模型,由元数据库进行管理,能够记录数据在地质大数据链循环中的演变,实现各业务领域地质数据在地质大数据链循环中的管控。 展开更多
关键词 地质大数据 地质数据血缘 地质数据管控 “四库合一”
下载PDF
基于数据中台的应用数据全链路提速研究
13
作者 王东龙 《信息技术与信息化》 2023年第5期121-124,共4页
针对数据中台数据服务时效性无法满足企业数据应用产品需要的问题,提出一种面向应用的数据全链路数据处理提速的方法并应用于实践中。首先,是强化数据血缘采集,贯通任务、表级和字段级血缘;其次,是通过逆推算法实现关键数据链路绘制,并... 针对数据中台数据服务时效性无法满足企业数据应用产品需要的问题,提出一种面向应用的数据全链路数据处理提速的方法并应用于实践中。首先,是强化数据血缘采集,贯通任务、表级和字段级血缘;其次,是通过逆推算法实现关键数据链路绘制,并识别关键链路和数据卡点;再次,根据不同数据卡点类型分别采取针对性的优化;然后,开发数据链路提速工具;最后,研究成果应用于营销调度系统等14个重点数据产品的相关数据服务提速,大大提升了数据生产效率,平均提效超60%。实验结果表明,所提方法不仅可以实现应用数据全链路提速,同时对数据服务开发具有积极的指导意义。 展开更多
关键词 数据中台 数据链路 数据血缘 数据服务
下载PDF
面向烟草行业研发应用的大数据分析平台 被引量:5
14
作者 张海涛 薛翔 《计算机应用与软件》 北大核心 2021年第6期18-22,93,共6页
烟草研发体系具有业务广泛、数据庞杂等特点,影响大数据分析技术在烟草研发领域的推广应用。构建面向烟草行业研发应用的大数据分析平台,遵循全局数据应用的整合思维,封装多源异构的烟草研发数据的采集与存储过程;采用应用场景驱动与数... 烟草研发体系具有业务广泛、数据庞杂等特点,影响大数据分析技术在烟草研发领域的推广应用。构建面向烟草行业研发应用的大数据分析平台,遵循全局数据应用的整合思维,封装多源异构的烟草研发数据的采集与存储过程;采用应用场景驱动与数据分层融合策略,完成数据主题化规范化管理;设计并开发数据分析过程可视化编排器,简化数据资产价值挖掘过程。该平台能够让“非数据专家用户”更专注于烟草研发业务,有利于推动大数据分析技术在烟草研发体系中的应用。 展开更多
关键词 烟草研发体系 数据自动汇聚 数据血缘分析 数据主题分析 可视化编排器
下载PDF
基于人工智能的元数据关系研究 被引量:2
15
作者 吴文炤 李炳森 +2 位作者 聂玲 程红星 梁子寒 《电力信息与通信技术》 2022年第9期43-50,共8页
随着国家电网有限公司两级数据中台在各单位的应用落地,业务应用出现数据盘点自动化程度不高、数据隐性关联关系发现难、精度参差不齐、数据价值未得到充分挖掘等突出数据问题。基于此,文章提出一种基于人工智能的元数据关系探查方法。... 随着国家电网有限公司两级数据中台在各单位的应用落地,业务应用出现数据盘点自动化程度不高、数据隐性关联关系发现难、精度参差不齐、数据价值未得到充分挖掘等突出数据问题。基于此,文章提出一种基于人工智能的元数据关系探查方法。首先,基于数据使用行为状态信息的智能数据关联分析技术,通过业务系统定时扫描评估;其次,基于关联图计算技术的数据血缘分析探查技术建立统一高维数据视图,全面分析构建数据关系和数据血缘流向,并以数字化审计场景为例,进行特征处理,构建数据资产清单。研究成果切实解决人力成本高、元数据质量差等问题,提高数据的规范化管理水平,全面提升公司数据管理能力。 展开更多
关键词 人工智能 数据关系 SQL解析 数据血缘 特征处理
下载PDF
基于交通BIM模型的数据管理平台思路设计
16
作者 肖马娜 《运输经理世界》 2024年第22期35-37,共3页
为充分发挥BIM技术在交通管理方面的应用价值,基于交通BIM模型应用现状,提出交通BIM模型数据管理平台设计思路,包括交通BIM模型标准应用、技术应用、BIM模型功能设计等方面,以期为交通BIM模型在交通领域的深入应用推广提供参考。
关键词 交通BIM模型 数模分离 数据血缘 数据管理平台
原文传递
手机阅读平台仓库管理模块的设计与实现 被引量:1
17
作者 周鹤 朱晓民 赵锐 《电信工程技术与标准化》 2016年第2期84-87,共4页
本文针对手机阅读数据仓库计算和存储的特点,设计并实现了符合手机阅读基地Hadoop Hive数据仓库自身特点的数据仓库管理系统,保证数据信息的准确性、一致性、完善性,缩短数据清理周期,提高数据质量,实现对信息数据资源的有效利用与信息... 本文针对手机阅读数据仓库计算和存储的特点,设计并实现了符合手机阅读基地Hadoop Hive数据仓库自身特点的数据仓库管理系统,保证数据信息的准确性、一致性、完善性,缩短数据清理周期,提高数据质量,实现对信息数据资源的有效利用与信息数据管理流程的再优化。主要功能是仓库基本信息管理、调度任务的查询与监控、数据流与血缘分析以及数据依赖分析等。 展开更多
关键词 HadoopHive 数据 调度监控 数据血缘
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部