期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于正则推断的数据格式规则生成方法
1
作者 李旭 田源 +2 位作者 邓红梅 赵淑颖 高俊涛 《东北石油大学学报》 CAS 北大核心 2023年第6期112-124,I0008,共14页
为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性... 为解决手工制定数据质量规则费时费力且容易出错的问题,基于正则推断理论,研究从正样本推断自动生成数据格式规则的方法,提出多尺度样本增强、循环模式和公共子序列抽取的样例泛化策略,构造格式规则候选空间,证明多尺度样本增强的合理性,分析公共子序列对格式规则质量的影响;基于编码成本构造目标函数,利用整数规划方法对候选规则的组合优化问题建模,推荐较优数据质量规则给数据治理者。真实数据集和模拟数据集实验结果表明:该方法生成的规则质量比同类方法平均提高70%,验证算法的可行性和有效性。该方法可以提升制定和管理数据格式规则的效率。 展开更多
关键词 数据质量规则 数据格式规则 正则表达式 正则推断
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部