期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于统计推理的不一致数据清洗方法 被引量:2
1
作者 张安珍 胡生吉 夏秀峰 《计算机应用研究》 CSCD 北大核心 2024年第10期2987-2992,共6页
不一致数据修复是数据清洗领域的一个重要研究方向,现有方法大多是基于完整性约束规则的,采用最小代价原则进行修复,然而,代价最小的修复方案通常是不正确的,导致现有修复方法的准确率较低。针对现有方法准确率较低的问题,提出了一种基... 不一致数据修复是数据清洗领域的一个重要研究方向,现有方法大多是基于完整性约束规则的,采用最小代价原则进行修复,然而,代价最小的修复方案通常是不正确的,导致现有修复方法的准确率较低。针对现有方法准确率较低的问题,提出了一种基于统计推理的不一致数据清洗方法BayesOUR,兼顾修复的代价与质量,提高修复准确性。BayesOUR主要分为三个阶段:首先根据完整性约束规则进行错误检测;然后利用贝叶斯网络推理所有可能的一致性修复方案概率;最后选择概率最大的修复方案进行数据清洗。真实数据上的实验结果表明,该方法与目前领先的方法相比,能够显著提高不一致数据修复的准确性。 展开更多
关键词 不一致数据 贝叶斯网络 统计推理
下载PDF
规则与概率相结合的不一致数据子集修复方法 被引量:1
2
作者 张安珍 司佳宇 +2 位作者 梁天宇 朱睿 邱涛 《软件学报》 EI CSCD 北大核心 2024年第9期4448-4468,共21页
不一致数据子集修复问题是数据清洗领域的重要研究问题,现有方法大多是基于完整性约束规则的,采用最小删除元组数量原则进行子集修复.然而,这种方法没有考虑删除元组的质量,导致修复准确性较低.为此,提出规则与概率相结合的子集修复方法... 不一致数据子集修复问题是数据清洗领域的重要研究问题,现有方法大多是基于完整性约束规则的,采用最小删除元组数量原则进行子集修复.然而,这种方法没有考虑删除元组的质量,导致修复准确性较低.为此,提出规则与概率相结合的子集修复方法,建模不一致元组概率使得正确元组的平均概率大于错误元组的平均概率,求解删除元组概率和最小的子集修复方案.此外,为了减小不一致元组概率计算的时间开销,提出一种高效的错误检测方法,减小不一致元组规模.真实数据和合成数据上的实验结果验证所提方法的准确性优于现有最好方法. 展开更多
关键词 不一致数据 函数依赖 子集修复 概率图网络
下载PDF
面向数据集成的一种高效一致性查询方法 被引量:3
3
作者 张晓刚 杨路明 潘久辉 《电子学报》 EI CAS CSCD 北大核心 2014年第8期1474-1479,共6页
一阶查询的SQL可表达性使得基于数据库修复的一阶查询重写方法在解决不一致数据库上的一致性查询问题上更具实际应用价值,但现有方法生成的一致性查询重写的执行效率不够理想.本文重点考虑在数据集成环境下如何有效地提高一致性查询的... 一阶查询的SQL可表达性使得基于数据库修复的一阶查询重写方法在解决不一致数据库上的一致性查询问题上更具实际应用价值,但现有方法生成的一致性查询重写的执行效率不够理想.本文重点考虑在数据集成环境下如何有效地提高一致性查询的执行效率,同样针对合取查询类Cforest提出了基于OR-database集成模式的一致性查询重写算法ConsRewrite_OR.基于线性工作度量的查询代价分析以及Oracle 10g上的TPC-H模拟实验都充分地说明本文算法产生的一致性查询与Fuxman的查询重写相比在集成数据库上具有更好的执行效率. 展开更多
关键词 一致性查询 完整性约束 修复 查询重写 不一致集成数据
下载PDF
基于代价模型的不一致XML数据修复启发式计算 被引量:1
4
作者 吴爱华 王先胜 +1 位作者 谈子敬 汪卫 《软件学报》 EI CSCD 北大核心 2009年第4期918-929,共12页
在实际应用中,为不一致的XML文档计算最优修复意义重大.但求解最优修复是一个NP完全问题,特别是在XML文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表... 在实际应用中,为不一致的XML文档计算最优修复意义重大.但求解最优修复是一个NP完全问题,特别是在XML文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表,在一遍扫描原始XML文档的情况下寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案.实验结果表明,该算法的时间复杂度不超过冲突类的3次方,即便是在不一致数据量很大、噪声比例很大以及涉及多类语义约束时,也能较快地完成修复. 展开更多
关键词 不一致 不一致数据 修复 一致的查询回答 XML数据清洗 不完整数据
下载PDF
数据集成环境下一种高效一致性聚集查询 被引量:2
5
作者 张晓刚 杨路明 潘久辉 《计算机学报》 EI CSCD 北大核心 2014年第9期1936-1946,共11页
对于不一致数据库上的一致性聚集查询问题,Fuxman扩展基于合取查询类C_(forest)的一阶查询重写方法并给出了查询重写算法RewriteCount和RewriteAgg来分别处理包含不同聚集函数的查询.算法产生的重写聚集查询能够使用SQL语句表达,但是其... 对于不一致数据库上的一致性聚集查询问题,Fuxman扩展基于合取查询类C_(forest)的一阶查询重写方法并给出了查询重写算法RewriteCount和RewriteAgg来分别处理包含不同聚集函数的查询.算法产生的重写聚集查询能够使用SQL语句表达,但是其性能却不够理想.文中重点考虑在数据集成环境下如何有效地提高一致性聚集查询的整体性能,通过OR-database集成模式有效地隔离集成数据库的一致性部分和非一致新部分,并在此基础上同样针对合取查询类C_(forest)上的分组聚集查询提出了基于OR-database的一致性查询重写算法RewriteCount_OR(主要处理Count函数)和RewriteAgg_OR(主要处理Max,Min和Sum函数),后面的查询代价比较及模拟实验都表明:与Fuxman的一致性聚集查询方法相比,文中的一致性聚集查询方法在OR-database集成数据库上具有明显的性能优势. 展开更多
关键词 一致性查询 聚集查询 完整性约束 修复 查询重写 不一致集成数据
下载PDF
LKJ基础数据中信号机公里标与距离不一致问题分析 被引量:4
6
作者 彭继新 《铁道通信信号》 2020年第2期21-22,26,共3页
列车运行监控装置(LKJ)基础数据中,信号机公里标与信号机间距离是控制列车安全运行的基础,当提报的LKJ基础数据中信号机公里标与距离不一致时,会出现LKJ临时限速控制异常的情况。本文针对此类情况进行原因分析,并提出解决方法。
关键词 列车运行监控装置 信号机公里标 信号机间距离 数据不一致.
下载PDF
基于标记的不一致数据查询处理框架
7
作者 吴爱华 《上海海事大学学报》 北大核心 2013年第1期84-89,共6页
为能在函数依赖范围内准确定位查询结果中的不一致数据,采用查询重写的方法建立基于标记的不一致数据查询处理框架.该框架是RDBMS与用户之间的一类中间件,以标记区分源数据和查询结果中的可信和不可信部分,可以避免信息丢失;能将任意传... 为能在函数依赖范围内准确定位查询结果中的不一致数据,采用查询重写的方法建立基于标记的不一致数据查询处理框架.该框架是RDBMS与用户之间的一类中间件,以标记区分源数据和查询结果中的可信和不可信部分,可以避免信息丢失;能将任意传统SQL查询翻译成能返回带信任标记的查询结果的SQL查询集,由已有的RDBMS响应.该系统能够内嵌到现有数据库应用系统中,且用户无须掌握新查询语言.实验表明,该系统不仅在信息保存上与相关工作相比有很大优势,而且时间性能与传统查询相比相差无几. 展开更多
关键词 不一致数据 数据质量 完整性约束 一致的查询回答 标记
下载PDF
最大依赖集在不一致数据检测中的应用
8
作者 戴超凡 李沛 王文倩 《计算机工程与应用》 CSCD 北大核心 2019年第15期89-95,共7页
针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法... 针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法的枚举过程,提高了算法对连续属性的适用性,给出动态值域调整和依赖提升算法的算法流程和伪代码,并对算法的收敛性和时间复杂度进行分析。最后通过对照实验,对比了依赖提升算法和基于CFDs的检测方法的检测精度和时间代价,验证了算法的有效性。 展开更多
关键词 条件函数依赖(CFDs) 不一致数据 最大依赖集(MDS) 动态值域调整
下载PDF
不一致数据上精确决策树生成算法 被引量:5
9
作者 王鹤澎 王宏志 +1 位作者 李建中 高宏 《软件学报》 EI CSCD 北大核心 2017年第11期2814-2824,共11页
近年来,随着现实生活中数据量的不断增大,不一致数据的出现也越发频繁,这使得人工修正不一致数据变得更加耗时.而且,人工修正数据方法本身也存在着不可避免的人为操作错误,因此,这种修正方法不再可行.如何不提前修复不一致数据,直接在... 近年来,随着现实生活中数据量的不断增大,不一致数据的出现也越发频繁,这使得人工修正不一致数据变得更加耗时.而且,人工修正数据方法本身也存在着不可避免的人为操作错误,因此,这种修正方法不再可行.如何不提前修复不一致数据,直接在不一致数据上进行分类,是该文的核心研究内容.对决策树生成算法的目标函数进行改进,使其能够直接对不一致数据进行分类,并得到较好的分类结果.对约束条件中的特征对分类结果的影响进行了多方面衡量,从而调整该特征的影响因子,使得决策树的节点分割更加精确,分类效果更优. 展开更多
关键词 不一致数据 决策树 分类 海量数据
下载PDF
不一致弱可用数据近似计算可行性判定问题
10
作者 刘雪莉 李建中 《智能计算机与应用》 2018年第2期1-6,13,共7页
给定一个查询结果的一致性程度阈值,可行性判定判断不一致数据上查询结果的一致性程度是否大于给定的阈值。若不是,则查询结果对用户来说是没有意义的,此查询不可行。对于数据量大,查询开销较大的应用中,若是能在查询之前预估查询结果... 给定一个查询结果的一致性程度阈值,可行性判定判断不一致数据上查询结果的一致性程度是否大于给定的阈值。若不是,则查询结果对用户来说是没有意义的,此查询不可行。对于数据量大,查询开销较大的应用中,若是能在查询之前预估查询结果的准确度,则能在很大程度上节省查询的开销以及用户的时间。在查询密集型场景,判定查询的可行性具有重要的意义。查询可行性的判定等价于预估查询结果的一致性。本文采用抽样方法预估查询结果的一致性。抽样算法分别对一致的数据部分和不一致的数据部分采样,使得保证抽出的样本大概率下满足查询条件并且服从不一致数据的分布。根据抽出的样本,本文给出了估计一致性程度的算法,证明了一致性程度的估计是渐进无偏的。 展开更多
关键词 不一致弱可用数据 聚集查询 上下界 近似
下载PDF
大数据图像识别技术在解决江苏烟草专销数据不一致问题中的应用
11
作者 王子豪 郭文卓 《电子世界》 2018年第18期67-68,共2页
本文以大数据图像识别技术的发展为背景,结合江苏烟草数据中心的实际建设情况,以江苏烟草专卖-营销两个业务系统中关于部分零售户的基础数据不一致问题为研究点,展现了利用大数据图像识别技术带来的处理专销数据不一致问题的灵活性以及... 本文以大数据图像识别技术的发展为背景,结合江苏烟草数据中心的实际建设情况,以江苏烟草专卖-营销两个业务系统中关于部分零售户的基础数据不一致问题为研究点,展现了利用大数据图像识别技术带来的处理专销数据不一致问题的灵活性以及高效性。 展开更多
关键词 烟草 数据 图像识别 专销数据不一致处理
下载PDF
医院信息系统中数据不一致现象的主要成因分析及解决方法的探索与实践
12
作者 汤娟华 卞军武 《江苏卫生事业管理》 2014年第5期107-108,共2页
文章就各业务系统数据不一致的原因做了分析,并且在实践中努力探索找到一些解决数据不一致的方法。
关键词 医院信息化 数据不一致 探索与实践
下载PDF
不一致数据最大概率子集修复算法
13
作者 夏秀峰 司佳宇 张安珍 《沈阳航空航天大学学报》 2023年第1期48-57,共10页
针对关系型数据中的不一致错误,现有子集修复方法通常以最小删除元组数量为优化目标求解最优修复方案,以减少对原始数据的更改。但当数据中的错误较多时,该方法的准确率将降低。提出了一种最大概率子集修复方法,利用属性之间的关联关系... 针对关系型数据中的不一致错误,现有子集修复方法通常以最小删除元组数量为优化目标求解最优修复方案,以减少对原始数据的更改。但当数据中的错误较多时,该方法的准确率将降低。提出了一种最大概率子集修复方法,利用属性之间的关联关系及概率统计信息对元组的正确性概率进行建模,将最小删除元组的正确性概率之和作为优化目标进行最优子集修复,并给出了高效的最大概率子集修复近似算法。真实数据集和合成数据集上的实验结果表明,最大概率子集修复方法的准确率优于当前最好方法。 展开更多
关键词 不一致数据 最大概率 子集修复 数据清洗 机器学习
下载PDF
基于数据依赖的数据修复研究进展 被引量:9
14
作者 胡艳丽 张维明 +2 位作者 罗旭辉 肖卫东 汤大权 《计算机科学》 CSCD 北大核心 2009年第10期11-15,共5页
介绍了数据依赖理论及如何基于数据依赖修复不一致数据,提高数据质量。首先介绍了数据依赖理论;给出了数据修复的语义假设及对应的修复操作;总结了基于数据依赖修复不一致数据的方法;最后讨论了基于数据依赖修复不一致数据的未来发展方向。
关键词 数据依赖 不一致数据 修复 数据清洗 数据质量
下载PDF
DR-RDC:基于校准否定约束集的数据修复方法 被引量:3
15
作者 卢菁 党延领 刘丛 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1083-1088,共6页
数据不一致是关系数据库中普遍存在的问题,利用约束规则进行数据修复是解决该问题的有效方法.现有修复方法主要利用函数依赖和条件函数依赖,所考虑的约束规则不能包含大于或小于的语义约束,且忽视了约束规则之间可能存在的冲突及其对数... 数据不一致是关系数据库中普遍存在的问题,利用约束规则进行数据修复是解决该问题的有效方法.现有修复方法主要利用函数依赖和条件函数依赖,所考虑的约束规则不能包含大于或小于的语义约束,且忽视了约束规则之间可能存在的冲突及其对数据集的符合程度.本文考虑否定约束,提出了基于校准否定约束集的数据修复方法(DR-RDC),首先利用符合度记分函数计算出每个否定约束对数据集的符合度分数,并排序,剔除小于阈值的否定约束,再使用关联矩阵对否定约束进行冲突消除,得出校准否定约束集,将其作用于原始数据集,检测出冲突元组对的否定约束放入证据规则集,冲突元组对放入冲突元组集.根据证据规则的符合度分数由高到低地选取证据规则对数据集进行修复,将条件概率最大的属性值作为冲突属性的修复值,直到冲突元组集不违反任一否定约束.实验验证了DR-RDC所获得的精确度优于数据语义置信度方法,DR-RDC比使用原始否定约束集在数据修复方面有显著改善. 展开更多
关键词 数据修复 数据不一致 否定约束 关联矩阵 证据规则
下载PDF
时态数据质量规则的研究及检测 被引量:1
16
作者 黄慧 李海林 《小型微型计算机系统》 CSCD 北大核心 2021年第7期1539-1546,共8页
作为检测数据集中不一致数据的方法,函数依赖受到了广泛的关注.近年来,硬约束、等值约束、编辑规则、差分约束等被相继提出,用于发现更多的不一致数据.然而,这些约束规则仅适用于静态数据集中不一致数据的检测,而实际应用中,存在着大量... 作为检测数据集中不一致数据的方法,函数依赖受到了广泛的关注.近年来,硬约束、等值约束、编辑规则、差分约束等被相继提出,用于发现更多的不一致数据.然而,这些约束规则仅适用于静态数据集中不一致数据的检测,而实际应用中,存在着大量随时间演化的动态数据,已有的规则忽略了具有时态语义数据的描述.该文首先提出了时态数据质量规则的形式化表达,为了提升检测效率,给出一套规则相关的性质,利用性质去除规则集中冗余规则;其次给出了不一致数据检测算法,并通过剪枝的策略对算法优化,再利用算法和不一致数据查询语言获取冲突数据;最后,通过实验验证,本文提出的方法能够检测出更多的不一致数据,经过优化后的算法执行效率较高. 展开更多
关键词 时态数据质量规则 性质 检测算法 不一致数据查询语言
下载PDF
数据挖掘中的数据预处理技术 被引量:12
17
作者 刘越江 黄今慧 《科技情报开发与经济》 2003年第5期170-171,共2页
阐述了数据集成的预处理技术及必要性,讨论了不完整数据、含噪声数据、不一致数据的清理方法。
关键词 数据挖掘 数据预处理技术 数据集成 不完整数据 含噪声数据 不一致数据
下载PDF
大规模异构的政府统计报表信息抽取与集成融合研究 被引量:7
18
作者 赵洪 王芳 《情报学报》 CSSCI CSCD 北大核心 2020年第9期938-948,共11页
政府统计数据作为国家的"战略金矿",充分挖掘其内在价值,使之更好地服务于政府及公众,已成为当前智慧政务和新型智库发展中大数据系统建设的必然要求。但政府统计报表的半结构化和大规模异构特点,使得统计数据之间无法直接关... 政府统计数据作为国家的"战略金矿",充分挖掘其内在价值,使之更好地服务于政府及公众,已成为当前智慧政务和新型智库发展中大数据系统建设的必然要求。但政府统计报表的半结构化和大规模异构特点,使得统计数据之间无法直接关联及聚合,影响了统计数据资源的深度挖掘与开发。鉴于此,本文针对已有研究的不足,在分析政府统计报表语义构成要素的基础上,结合其信息抽取与集成融合的应用目标,将处理任务分解为表格语义结构解析、表头语义关系识别、数值信息抽取表示、指标术语消冗转换及不一致统计数据消歧等五个逻辑过程,并定义了各过程的作用与主要任务,且研究构建了面向该任务的总体技术框架及其处理流程。大规模真实数据集上的应用结果表明,本研究方法能够较为有效地实现异构型政府统计报表的抽取与集成融合,具备较好的实际价值,同时也为其他基于半结构化表格的大数据建设与应用研究提供参考借鉴。 展开更多
关键词 政府统计报表 异构资源 信息抽取 集成融合 不一致数据消歧
下载PDF
一种缺省规则挖掘算法
19
作者 刘志民 范杰 +1 位作者 杨珠 庞彦军 《河北工程大学学报(自然科学版)》 CAS 2008年第1期96-99,共4页
针对不一致数据库,定义属性权重及缺省规则加权支持度概念,在此基础上给出一种缺省规则挖掘算法。
关键词 ROUGH集 不一致数据 属性权重 缺省规则 加权支持度
下载PDF
ArcObjects结合ArcMap实现重复要素去除
20
作者 王磊 刘宇 《企业技术开发(下半月)》 2010年第7期75-76,87,共3页
GIS数据被称为GIS的血液,它作为GIS操作的直接对象,在GIS应用中起着至关重要的作用。在目前GIS行业中数据的采集和处理占到GIS市场的65%-85%,而在数据的采集和处理过程中往往会遇到一个重要的问题就是如何删除GIS重复要素。在国家... GIS数据被称为GIS的血液,它作为GIS操作的直接对象,在GIS应用中起着至关重要的作用。在目前GIS行业中数据的采集和处理占到GIS市场的65%-85%,而在数据的采集和处理过程中往往会遇到一个重要的问题就是如何删除GIS重复要素。在国家第二次土地调查的项目中重复要素不但会影响到数据的精度和准确性,而且会引起海量GIS数据的冗余、重复存储和不一致等严重的问题。在ArcGis中可以手动或者借助ArcGis自带的扩展——Spatial ETL Tool来完成。但是对于大量的重复要素来说上述两种做法不但工作量大而且对重复要素的判断删除太过于主观。数据处理结果好坏完全依赖于数据处理者的工作经验和对GIS数据的理解,判断和处理能力。本次试验通过利用AO(ArcObjcots)对象编程,在ArcGis软件的基础上进行二次开发,可以解决上述问题,而代码还具有通用性,对点、线、面都适合。 展开更多
关键词 ARCGIS 重复要素 数据冗余和不一致 拓扑规则
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部