-
题名不一致数据最大概率子集修复算法
- 1
-
-
作者
夏秀峰
司佳宇
张安珍
-
机构
沈阳航空航天大学计算机学院
-
出处
《沈阳航空航天大学学报》
2023年第1期48-57,共10页
-
基金
国家自然科学基金(项目编号:62102271)。
-
文摘
针对关系型数据中的不一致错误,现有子集修复方法通常以最小删除元组数量为优化目标求解最优修复方案,以减少对原始数据的更改。但当数据中的错误较多时,该方法的准确率将降低。提出了一种最大概率子集修复方法,利用属性之间的关联关系及概率统计信息对元组的正确性概率进行建模,将最小删除元组的正确性概率之和作为优化目标进行最优子集修复,并给出了高效的最大概率子集修复近似算法。真实数据集和合成数据集上的实验结果表明,最大概率子集修复方法的准确率优于当前最好方法。
-
关键词
不一致数据
最大概率
子集修复
数据清洗
机器学习
-
Keywords
inconsistent data
maximum probability
subset repair
data cleaning
machine learning
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名规则与概率相结合的不一致数据子集修复方法
- 2
-
-
作者
张安珍
司佳宇
梁天宇
朱睿
邱涛
-
机构
沈阳航空航天大学计算机学院
-
出处
《软件学报》
EI
2024年第9期4448-4468,共21页
-
基金
国家自然科学基金青年基金(62102271,62002245)
辽宁省教育厅基础研究项目(JYT2020027)。
-
文摘
不一致数据子集修复问题是数据清洗领域的重要研究问题,现有方法大多是基于完整性约束规则的,采用最小删除元组数量原则进行子集修复.然而,这种方法没有考虑删除元组的质量,导致修复准确性较低.为此,提出规则与概率相结合的子集修复方法,建模不一致元组概率使得正确元组的平均概率大于错误元组的平均概率,求解删除元组概率和最小的子集修复方案.此外,为了减小不一致元组概率计算的时间开销,提出一种高效的错误检测方法,减小不一致元组规模.真实数据和合成数据上的实验结果验证所提方法的准确性优于现有最好方法.
-
关键词
不一致数据
函数依赖
子集修复
概率图网络
-
Keywords
inconsistent data
functional dependency
subset repair
probabilistic graph network
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-