-
题名基于正则推断的数据格式规则生成方法
- 1
-
-
作者
李旭
田源
邓红梅
赵淑颖
高俊涛
-
机构
中国石油冀东油田分公司勘察设计与信息化研究院
东北石油大学计算机与信息技术学院
-
出处
《东北石油大学学报》
CAS
北大核心
2023年第6期112-124,I0008,共14页
-
基金
东北石油大学特色领域团队专项(2022TSTD-03)。
-
文摘
为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性,分析公共子序列对格式规则质量的影响;基于编码成本构造目标函数,利用整数规划方法对候选规则的组合优化问题建模,推荐较优数据质量规则给数据治理者。真实数据集和模拟数据集实验结果表明:该方法生成的规则质量比同类方法平均提高70%,验证算法的可行性和有效性。该方法可以提升制定和管理数据格式规则的效率。
-
关键词
数据质量规则
数据格式规则
正则表达式
正则推断
-
Keywords
data quality rules
data format rules
regular expressions
regular inference
-
分类号
TP391.7
[自动化与计算机技术—计算机应用技术]
-