期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于马尔科夫毯的近似函数依赖挖掘算法 被引量:1
1
作者 夏秀峰 刘朝辉 张安珍 《沈阳航空航天大学学报》 2023年第4期8-18,共11页
近似函数依赖挖掘方法通过放宽函数依赖成立条件,允许一定比例的违反,保证原本成立的函数依赖在噪声数据中仍然可以被挖掘出来。然而,现有的发现算法在放宽函数依赖成立条件之后,容易挖掘出大量左部属性数量较多的虚假函数依赖,导致挖... 近似函数依赖挖掘方法通过放宽函数依赖成立条件,允许一定比例的违反,保证原本成立的函数依赖在噪声数据中仍然可以被挖掘出来。然而,现有的发现算法在放宽函数依赖成立条件之后,容易挖掘出大量左部属性数量较多的虚假函数依赖,导致挖掘结果的准确率显著降低。为了解决这一问题,提出基于马尔科夫毯的近似函数依赖挖掘算法,利用马尔科夫毯剪枝左部属性搜索空间,缩小决定项的候选集合,并通过向下泛化算法减少了误差的计算次数,同时降低了复杂度。在保证不丢失真实函数依赖的前提下,避免了近似函数依赖过拟合,从而提高了挖掘结果的准确率。实验结果表明,该方法在真实数据集和合成数据集上的准确率优于现有的近似函数依赖挖掘方法。 展开更多
关键词 函数依赖 近似函数依赖挖掘 马尔科夫毯 噪声数据 采样 左部属性
下载PDF
基于近似函数依赖的关系数据属性权重评估方法 被引量:4
2
作者 张霄雁 孟祥福 +2 位作者 马宗民 张文博 张霄鹏 《计算机科学》 CSCD 北大核心 2013年第2期172-176,共5页
在现实应用中,一些关系数据的规范化程度不高,往往存在数据冗余和不一致现象。为了有效评估此类数据中的属性重要程度,提出了一种基于近似函数依赖的属性权重评估方法。该方法基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从... 在现实应用中,一些关系数据的规范化程度不高,往往存在数据冗余和不一致现象。为了有效评估此类数据中的属性重要程度,提出了一种基于近似函数依赖的属性权重评估方法。该方法基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性之间的近似函数依赖关系,进而求出近似候选码和近似关键字,在此基础上根据属性支持度计算属性权重。实验结果和分析表明,提出的属性权重评估方法能够合理地获取关系数据中的属性重要程度,算法具有较好的稳定性和较高的执行效率。 展开更多
关键词 关系数据 近似函数依赖 属性权重 最小平凡函数依赖
下载PDF
概率数据库中近似函数依赖挖掘算法 被引量:6
3
作者 苗东菁 刘显敏 李建中 《计算机研究与发展》 EI CSCD 北大核心 2015年第12期2857-2865,共9页
一个近似函数依赖(approximate functional dependency,AFD)是一个几乎成立的函数依赖,目前大部分工作仅限于从一般数据上挖掘近似函数依赖.有时数据是被组织成概率数据的形式,为了从挖掘概率数据中挖掘出可用的近似函数依赖,定义了概... 一个近似函数依赖(approximate functional dependency,AFD)是一个几乎成立的函数依赖,目前大部分工作仅限于从一般数据上挖掘近似函数依赖.有时数据是被组织成概率数据的形式,为了从挖掘概率数据中挖掘出可用的近似函数依赖,定义了概率近似函数依赖,它不同于任何一种以往的定义,并给出了在不确定数据中,置信概率的动态规划求解算法,由于动态规划算法复杂度较高,导出了候选依赖的概率下界来进行剪枝,随后给出了基于字典序的挖掘方法以及相应的剪枝策略,最后,在真实和合成的数据集上进行充分的实验,说明了挖掘算法的可扩展性和剪枝策略的高效性,并展示了有趣的挖掘结果. 展开更多
关键词 近似函数依赖 数据挖掘 概率数据库 数据质量 不一致性
下载PDF
基于近似函数依赖的查询评估改进
4
作者 陈国青 唐晓辉 《工程数学学报》 CSCD 北大核心 2007年第6期951-956,共6页
查询评估和近似函数依赖是数据查询和管理中非常重要的两个研究方向。在本文中,基于已经挖掘的近似函数依赖,一个关系被分解成等价的几个子关系。同时,一些基本的查询表达式也相应的被重写,这些重写的查询表达式在执行时所需的时间成本... 查询评估和近似函数依赖是数据查询和管理中非常重要的两个研究方向。在本文中,基于已经挖掘的近似函数依赖,一个关系被分解成等价的几个子关系。同时,一些基本的查询表达式也相应的被重写,这些重写的查询表达式在执行时所需的时间成本更少。这一方法能让我们以更加有效的方式来处理一些查询问题。 展开更多
关键词 查询评估 查询表达式 分解 近似函数依赖
下载PDF
基于文档属性单元松弛的XML近似查询方法 被引量:5
5
作者 孟祥福 严丽 +1 位作者 张文博 马宗民 《计算机研究与发展》 EI CSCD 北大核心 2010年第11期1936-1946,共11页
为解决普通用户对XML文档的近似查询问题,提出了一种基于文档属性单元松弛的XML近似查询方法.该方法将XML文档中的叶子结点和属性结点作为属性单元处理,基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性单元之间的近... 为解决普通用户对XML文档的近似查询问题,提出了一种基于文档属性单元松弛的XML近似查询方法.该方法将XML文档中的叶子结点和属性结点作为属性单元处理,基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性单元之间的近似函数依赖关系,进而求出近似候选码和近似关键字.在此基础上,根据属性单元支持度将属性单元按重要程度排列并据此对初始查询条件进行松弛,最不重要的属性单元最先松弛并且松弛程度最大.利用松弛后的查询条件对XML文档进行查询,可得到与初始查询条件近似的查询结果.实验结果和分析表明:提出的XML近似查询方法能够很好地满足用户的查询意图,具有较高的执行效率. 展开更多
关键词 XML文档 结构连接 近似查询 属性单元松弛 近似函数依赖
下载PDF
基于数据质量规则的缺失结果解释约减 被引量:2
6
作者 张奥千 宋韶旭 王建民 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期221-229,共9页
由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释"为什么没有why-not"的问题.然而,枚举得到的解释数量庞大,用户无法逐一浏览确认缺失数据.实际上,这些可能的解释中有许... 由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释"为什么没有why-not"的问题.然而,枚举得到的解释数量庞大,用户无法逐一浏览确认缺失数据.实际上,这些可能的解释中有许多是不合理的,如何约减解释数量存在挑战.根据真实数据试验,利用数据中存在的唯一性约束来进行约减,生成的解释数量仍有几十万个.研究利用数据质量规则(如函数依赖)来高效约减缺失结果的解释.首先,提出一种基于函数依赖的解释约减算法FDR(functional dependencies-based reduction).其次,为了辅助用户浏览生成的解释,进一步研究利用近似函数依赖对解释进行排序.真实数据实验表明,FDR方法能够比现有的方法减少2~5个数量级的解释(从几十万个减少至几千个甚至几十个);利用近似函数依赖排序的Top-1解释精确率达到90%以上. 展开更多
关键词 数据质量 依赖规则 缺失结果解释 函数依赖 近似函数依赖
下载PDF
Web表格的实体列发现算法 被引量:1
7
作者 张丽方 王宁 齐飞 《计算机工程》 CAS CSCD 北大核心 2017年第12期165-172,共8页
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表... 针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。 展开更多
关键词 WEB表格 实体列 近似函数依赖 语义恢复 规范化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部