-
题名基于马尔科夫毯的近似函数依赖挖掘算法
被引量:1
- 1
-
-
作者
夏秀峰
刘朝辉
张安珍
-
机构
沈阳航空航天大学计算机学院
-
出处
《沈阳航空航天大学学报》
2023年第4期8-18,共11页
-
基金
国家自然科学基金(项目编号:62102271)。
-
文摘
近似函数依赖挖掘方法通过放宽函数依赖成立条件,允许一定比例的违反,保证原本成立的函数依赖在噪声数据中仍然可以被挖掘出来。然而,现有的发现算法在放宽函数依赖成立条件之后,容易挖掘出大量左部属性数量较多的虚假函数依赖,导致挖掘结果的准确率显著降低。为了解决这一问题,提出基于马尔科夫毯的近似函数依赖挖掘算法,利用马尔科夫毯剪枝左部属性搜索空间,缩小决定项的候选集合,并通过向下泛化算法减少了误差的计算次数,同时降低了复杂度。在保证不丢失真实函数依赖的前提下,避免了近似函数依赖过拟合,从而提高了挖掘结果的准确率。实验结果表明,该方法在真实数据集和合成数据集上的准确率优于现有的近似函数依赖挖掘方法。
-
关键词
函数依赖
近似函数依赖挖掘
马尔科夫毯
噪声数据
采样
左部属性
-
Keywords
functional dependency
approximate functional dependency discovery
Markov blanket
noise data
sampling
left attribute
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于近似函数依赖的关系数据属性权重评估方法
被引量:4
- 2
-
-
作者
张霄雁
孟祥福
马宗民
张文博
张霄鹏
-
机构
辽宁工程技术大学电子与信息工程学院
东北大学信息科学与工程学院
山东建筑大学信息与电气工程学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第2期172-176,共5页
-
基金
国家青年科学基金项目(61003162)
中国煤炭工业协会科学技术研究指导性计划项目(MTKJ2009-242
+2 种基金
MTKJ2010-337
MTKJ2011-335)
辽宁省科技厅计划项目(201104090)资助
-
文摘
在现实应用中,一些关系数据的规范化程度不高,往往存在数据冗余和不一致现象。为了有效评估此类数据中的属性重要程度,提出了一种基于近似函数依赖的属性权重评估方法。该方法基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性之间的近似函数依赖关系,进而求出近似候选码和近似关键字,在此基础上根据属性支持度计算属性权重。实验结果和分析表明,提出的属性权重评估方法能够合理地获取关系数据中的属性重要程度,算法具有较好的稳定性和较高的执行效率。
-
关键词
关系数据
近似函数依赖
属性权重
最小平凡函数依赖
-
Keywords
Relational data, Approximate functional dependence, Attribute weight, Minimal trivial functional dependence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名概率数据库中近似函数依赖挖掘算法
被引量:6
- 3
-
-
作者
苗东菁
刘显敏
李建中
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第12期2857-2865,共9页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2012CB316200
2012CB316202)
国家自然科学基金项目(61402130)
-
文摘
一个近似函数依赖(approximate functional dependency,AFD)是一个几乎成立的函数依赖,目前大部分工作仅限于从一般数据上挖掘近似函数依赖.有时数据是被组织成概率数据的形式,为了从挖掘概率数据中挖掘出可用的近似函数依赖,定义了概率近似函数依赖,它不同于任何一种以往的定义,并给出了在不确定数据中,置信概率的动态规划求解算法,由于动态规划算法复杂度较高,导出了候选依赖的概率下界来进行剪枝,随后给出了基于字典序的挖掘方法以及相应的剪枝策略,最后,在真实和合成的数据集上进行充分的实验,说明了挖掘算法的可扩展性和剪枝策略的高效性,并展示了有趣的挖掘结果.
-
关键词
近似函数依赖
数据挖掘
概率数据库
数据质量
不一致性
-
Keywords
approximate functional dependency(AFD)
data mining
probabilistic database
data quality
inconsistency
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于近似函数依赖的查询评估改进
- 4
-
-
作者
陈国青
唐晓辉
-
机构
清华大学经济管理学院
-
出处
《工程数学学报》
CSCD
北大核心
2007年第6期951-956,共6页
-
基金
国家自然科学基金(70231010/70321001)
清华大学现代管理研究中心资助.
-
文摘
查询评估和近似函数依赖是数据查询和管理中非常重要的两个研究方向。在本文中,基于已经挖掘的近似函数依赖,一个关系被分解成等价的几个子关系。同时,一些基本的查询表达式也相应的被重写,这些重写的查询表达式在执行时所需的时间成本更少。这一方法能让我们以更加有效的方式来处理一些查询问题。
-
关键词
查询评估
查询表达式
分解
近似函数依赖
-
Keywords
query evaluation
query expression
decomposition
approximate functional dependencies
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于文档属性单元松弛的XML近似查询方法
被引量:5
- 5
-
-
作者
孟祥福
严丽
张文博
马宗民
-
机构
东北大学信息科学与工程学院
东北大学软件学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第11期1936-1946,共11页
-
基金
国家自然科学基金项目(60873010)
教育部新世纪优秀人才支持计划项目(NCET-05-0288)~~
-
文摘
为解决普通用户对XML文档的近似查询问题,提出了一种基于文档属性单元松弛的XML近似查询方法.该方法将XML文档中的叶子结点和属性结点作为属性单元处理,基于一致集的概念导出最大集,生成最小非平凡函数依赖集,从而找出属性单元之间的近似函数依赖关系,进而求出近似候选码和近似关键字.在此基础上,根据属性单元支持度将属性单元按重要程度排列并据此对初始查询条件进行松弛,最不重要的属性单元最先松弛并且松弛程度最大.利用松弛后的查询条件对XML文档进行查询,可得到与初始查询条件近似的查询结果.实验结果和分析表明:提出的XML近似查询方法能够很好地满足用户的查询意图,具有较高的执行效率.
-
关键词
XML文档
结构连接
近似查询
属性单元松弛
近似函数依赖
-
Keywords
XML document
structure join
approximate query
attribute unit extension
approximate functional dependence
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于数据质量规则的缺失结果解释约减
被引量:2
- 6
-
-
作者
张奥千
宋韶旭
王建民
-
机构
清华大学软件学院
清华信息科学与技术国家实验室(筹)
信息系统安全教育部重点实验室(清华大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第S1期221-229,共9页
-
基金
国家自然科学基金项目(61202008)
国家"八六三"高技术研究发展计划基金项目(2012AA040911)
-
文摘
由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释"为什么没有why-not"的问题.然而,枚举得到的解释数量庞大,用户无法逐一浏览确认缺失数据.实际上,这些可能的解释中有许多是不合理的,如何约减解释数量存在挑战.根据真实数据试验,利用数据中存在的唯一性约束来进行约减,生成的解释数量仍有几十万个.研究利用数据质量规则(如函数依赖)来高效约减缺失结果的解释.首先,提出一种基于函数依赖的解释约减算法FDR(functional dependencies-based reduction).其次,为了辅助用户浏览生成的解释,进一步研究利用近似函数依赖对解释进行排序.真实数据实验表明,FDR方法能够比现有的方法减少2~5个数量级的解释(从几十万个减少至几千个甚至几十个);利用近似函数依赖排序的Top-1解释精确率达到90%以上.
-
关键词
数据质量
依赖规则
缺失结果解释
函数依赖
近似函数依赖
-
Keywords
data quality
data dependencies
non-answer explanation
functional dependency
approximate functional dependency
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web表格的实体列发现算法
被引量:1
- 7
-
-
作者
张丽方
王宁
齐飞
-
机构
北京交通大学计算机与信息技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第12期165-172,共8页
-
基金
国家自然科学基金(61370060)
-
文摘
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。
-
关键词
WEB表格
实体列
近似函数依赖
语义恢复
规范化
-
Keywords
Web table
entity column
approximate functional dependency
semantic recovery
normalization
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-