期刊文献+
共找到1,281篇文章
< 1 2 65 >
每页显示 20 50 100
基于相关性分析的不完整数据函数依赖挖掘方法
1
作者 尹诗宁 张安珍 夏秀峰 《计算机应用研究》 CSCD 北大核心 2024年第5期1368-1373,共6页
函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分... 函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分布,通过相关性分析捕捉属性之间的关联关系,避免枚举所有可能性,以挖掘具有统计学意义的FD。实验结果表明,该方法可以更准确地定位到有意义的FD,与最先进的FD发现方法相比,F_(1)分数平均提高1.5倍。 展开更多
关键词 函数依赖 相关性分析 完整数据
下载PDF
邻域信息修正的不完整数据多填充集成分类方法 被引量:1
2
作者 朱先远 严远亭 张燕平 《计算机工程与应用》 CSCD 北大核心 2023年第23期125-135,共11页
不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。... 不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。针对该问题,提出一种邻域信息修正不完整数据多填充集成分类方法。该方法通过嵌入修正填充模块来优化填充过程,利用纯度和邻域半径筛选出待修正填充的近邻数据样本,并根据这些近邻数据样本对缺失值进行修正填充,进一步提升填充精度。同时,融合了多种经典填充算法优势,利用多填充的数据多样性,通过引入集成学习提升分类精确度。实验结果表明,该方法对基准数据集上的缺失值填充效果、数据分类精确度都优于对比方法,同时在真实不完整数据集上也表现出更好的分类精确度。 展开更多
关键词 完整数据分类 修正填充 邻域信息 集成学习
下载PDF
基于二进制位运算的不完整数据分类与检测
3
作者 郭强 魏建宇 马文彬 《科学与信息化》 2023年第5期77-80,共4页
数据清洗包括缺失值的检测、分类和估计填充三个步骤.缺失数据估计填充之前,需完成缺失值的检测与分类,本文采用基于二进制位运算的不完整数据分类检测方法,通过对不完整数据分类检测,提高不完整数据处理的准确性和效率.
关键词 完整数据 位运算 分类 检测
下载PDF
粒子群改进模糊C均值的不完整数据聚类
4
作者 邴兆虹 黄丽茜 《数字技术与应用》 2023年第9期16-18,共3页
在实际应用中,由于各种原因,采集出来的数据可能是不完整的,比如,数据模糊不清或者是数据丢失。因此在数据库中会经常出现不完整数据,而且没有办法获得数据的真实值[1],如果不对缺失数据作出相应的处理,对后续工作会造成严重影响。为解... 在实际应用中,由于各种原因,采集出来的数据可能是不完整的,比如,数据模糊不清或者是数据丢失。因此在数据库中会经常出现不完整数据,而且没有办法获得数据的真实值[1],如果不对缺失数据作出相应的处理,对后续工作会造成严重影响。为解决不完整数据聚类的问题,国内外学者根据现有的聚类方法提出了各种新策略。1模糊聚类对于不完整数据的处理方法主要分为两种:一种是通过估算填充缺失值,即用相对应的已知属性值的平均值等方法来替换缺失属性值;另一种方法是直接删除缺失属性。对不完整数据进行模式识别最早开始于20世纪60年代,例如,基于概率的估算、EM算法[2]等。 展开更多
关键词 完整数据 数据聚类 模式识别 缺失值 模糊C均值 数据丢失 粒子群 缺失属性
下载PDF
用于不完整数据的选择性贝叶斯分类器 被引量:11
5
作者 陈景年 黄厚宽 +1 位作者 田凤占 付树军 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1324-1330,共7页
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多... 选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些. 展开更多
关键词 贝叶斯方法 分类 特征选择 完整数据 X2统计量
下载PDF
基于压缩的海量不完整数据近似查询方法 被引量:7
6
作者 王妍 刘赓浩 +1 位作者 王俊陆 宋宝燕 《计算机研究与发展》 EI CSCD 北大核心 2016年第3期571-581,共11页
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法... 随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性. 展开更多
关键词 完整数据 近似查询 数据压缩 索引 编码字典
下载PDF
不完整数据集的信息熵集成分类算法 被引量:6
7
作者 赵姝 吕靖 +1 位作者 张燕平 张以文 《模式识别与人工智能》 EI CSCD 北大核心 2014年第3期193-198,共6页
集成方法是处理包含缺失属性数据集分类问题的一种简单有效的方法,但目前针对不完整数据的集成分类算法在衡量各子分类器的权重时只考虑对应的数据子集的维数和大小.考虑到不完整数据集的缺失属性对类别的贡献度,使用信息熵衡量缺失属... 集成方法是处理包含缺失属性数据集分类问题的一种简单有效的方法,但目前针对不完整数据的集成分类算法在衡量各子分类器的权重时只考虑对应的数据子集的维数和大小.考虑到不完整数据集的缺失属性对类别的贡献度,使用信息熵衡量缺失属性之间的差异,提出一种新的针对不完整数据的集成学习分类算法———信息熵集成分类算法(EECA).应用以BP神经网络为基础分类器的集成分类器在UCI数据集上进行实验.实验结果表明,EECA比简单使用缺失属性的多少计算子分类器权重的方法更有效,最终结果准确度更高. 展开更多
关键词 信息熵 完整数据 集成学习 信息熵集成分类算法
下载PDF
基于符号语义的不完整数据聚集查询处理算法 被引量:7
8
作者 张安珍 李建中 高宏 《软件学报》 EI CSCD 北大核心 2020年第2期406-420,共15页
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义... 研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 展开更多
关键词 完整数据 近似查询处理 数据修复 结果估计 数据可用性
下载PDF
一种有效的不完整数据分类器 被引量:5
9
作者 陈景年 黄厚宽 +1 位作者 田凤占 邱桃荣 《计算机科学》 CSCD 北大核心 2008年第9期162-164,共3页
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的... 在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的研究具有重要意义。通过分析以往在分类过程中对不完整数据的处理方法,提出了一种不完整数据分类器:DBCI。在DBCI的训练过程中,将缺失值的频数按比例地分配到其它观测值的频数中。因此,不完整数据集所包含的信息可以得到充分利用。在12个标准的不完整数据集上的实验结果表明,与分类效果显著的不完整数据分类器RBC相比,DBCI具有更高的分类效率和更稳定的性能,并且它的分类准确率可以与RBC相媲美。 展开更多
关键词 分类 贝叶斯方法 完整数据
下载PDF
基于决策树的不完整数据的处理 被引量:6
10
作者 张靖 姚珍 唐雪飞 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第1期116-118,共3页
基于数据采集过程中常常存在一些不完整数据,以及不完整数据总是和样本空间中其他完整数据存在一定的相似性,提出了一种基于决策树的不完整数据的处理方法。在对不完整数据处理方法的比较、分析的基础上,采用一种有效的决策树方法对不... 基于数据采集过程中常常存在一些不完整数据,以及不完整数据总是和样本空间中其他完整数据存在一定的相似性,提出了一种基于决策树的不完整数据的处理方法。在对不完整数据处理方法的比较、分析的基础上,采用一种有效的决策树方法对不完整数据处理。实例验证证明该决策树方法在不完整数据处理方面有很好的效果。 展开更多
关键词 决策树 完整数据 处理
下载PDF
一种基于不完整数据的朴素贝叶斯分类器 被引量:4
11
作者 陈景年 黄厚宽 +1 位作者 田凤占 乔珠峰 《计算机工程》 EI CAS CSCD 北大核心 2006年第17期86-88,共3页
贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑... 贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。通过分析著名的基于不完整数据的RBC分类器的不足,在BC(BoundandCollapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。 展开更多
关键词 完整数据 贝叶斯分类器 EM算法 BC办法
下载PDF
海量不完整数据的核心数据选择问题的研究 被引量:6
12
作者 刘永楠 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2018年第4期915-930,共16页
在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数... 在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数据上选择一部分用户感兴趣的核心数据集合,来提高不完整数据的可用性.完整度较高,规模较小,在用户感兴趣的属性上给出更多完整信息的核心数据集合,能够支持高效的查询处理,提高查询结果的准确性和完整性.该文形式化了核心数据选择问题,证明了这至少是一个NP-难问题.由于需要同时优化核心数据集合的完整度、集合的规模以及对于感兴趣属性的覆盖性,现有的基于集合覆盖问题的方法无法解决文中提出的问题.该文提出了一个采用贪心策略,具有理论保证的近似核心数据选择算法ACS.ACS首先判断当前的数据集合是否存在一个满足覆盖性要求的子集合.当这样的子集合存在时,ACS尽量选择完整的元组来组成核心数据集合,当使用完整元组无法满足覆盖性的要求时,ACS选择较少的不完整元组.ACS通过限制选择的次数来获得一个集合大小的上界是运行次数常数倍的子集合,并且保证了对于感兴趣的属性的覆盖比例.通过理论分析可知,ACS能够在近似线性的时间内,找到一个大小至多在给定的大小对数因子内的近似核心数据集合,其中被覆盖的感兴趣的属性的比例至少为(1-1/e),包含的不完整元组的个数至多为给定的核心数据集合的大小,其中e是自然对数的底数.通过在DBLP和NBA球员信息这两个真实数据集合上的实验,表明了所提出的算法ACS的有效性和高效性;通过在规模更大的合成数据上的实验,表明了ACS的良好的扩展性. 展开更多
关键词 数据质量 数据完整 完整数据 核心数据选择 近似算法
下载PDF
运用SAS对不完整数据集进行多重填补——SAS 9中的多重填补及其统计分析过程(一) 被引量:16
13
作者 曹阳 张罗漫 《中国卫生统计》 CSCD 北大核心 2004年第1期56-58,63,共4页
关键词 SAS 完整数据 多重填补 SAS9 多重填补 统计分析 实验研究
下载PDF
瞬变电磁法利用不完整数据进行一维反演的可行性分析 被引量:2
14
作者 武军杰 邓晓红 +2 位作者 张杰 王兴春 杨毅 《物探化探计算技术》 CAS CSCD 2012年第5期559-565,501,共7页
为充分利用已经采集获得的并不完整的瞬变电磁衰减曲线,以一维三层理论模型以及实测数据为例进行了计算,计算结果说明,在不能获得整条衰减曲线时,利用部份时段进行反演获取一定的的地质信息,是一种可行的补救措施。试验的前提是瞬变响... 为充分利用已经采集获得的并不完整的瞬变电磁衰减曲线,以一维三层理论模型以及实测数据为例进行了计算,计算结果说明,在不能获得整条衰减曲线时,利用部份时段进行反演获取一定的的地质信息,是一种可行的补救措施。试验的前提是瞬变响应曲线是正常的符合衰减规律的曲线,而对于畸变的曲线是不适合的。 展开更多
关键词 瞬变电磁 完整数据 反演 可行性
下载PDF
构造性覆盖下不完整数据修正填充方法 被引量:4
15
作者 严远亭 吴亚亚 +1 位作者 赵姝 张燕平 《智能系统学报》 CSCD 北大核心 2019年第6期1225-1232,共8页
不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。... 不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 展开更多
关键词 完整数据 缺失值填充 邻域信息 数据挖掘 机器学习 填充方法 单一填充 多重填充
下载PDF
利用增益率构建混合型选择性不完整数据分类器 被引量:2
16
作者 陈景年 黄厚宽 +1 位作者 徐力 伊传环 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期117-120,共4页
鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作基础上利用信息增益率构建了一种用于不完整数据的混合型的选择性贝叶斯分类器:GBSD.在12个标准的不完... 鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作基础上利用信息增益率构建了一种用于不完整数据的混合型的选择性贝叶斯分类器:GBSD.在12个标准的不完整数据集上的实验结果表明,GBSD不仅能大幅度减少属性数目,而且比已有工作更能有效改善分类准确率和效率. 展开更多
关键词 信息增益率 贝叶斯方法 分类 特征选择 完整数据
下载PDF
一种基于特征选择的不完整数据分类方法 被引量:2
17
作者 陈景年 黄厚宽 +1 位作者 田凤占 薛小平 《计算机工程与应用》 CSCD 北大核心 2007年第31期23-24,38,共3页
特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不... 特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题。有鉴于此,提出了一种用于不完整数据的选择性贝叶斯分类器。在12个标准的不完整数据集上的实验结果表明,给出的选择性分类器不仅分类准确率显著高于非常有效地用于不完整数据的RBC分类器,而且分类性能更加稳定。 展开更多
关键词 特征选择 分类 贝叶斯方法 完整数据
下载PDF
基于不完整数据的异常信号检测方法 被引量:2
18
作者 马捷 钟子发 史英春 《计算机工程》 CAS CSCD 北大核心 2011年第14期88-90,93,共4页
针对异常电磁信号检测中常见的输入数据存在参数缺失的问题,提出一种基于不完整数据的异常信号检测方法。该方法借鉴几何数学的思想,通过将缺失数据与正常数据进行比对,分析出缺失数据异常的可能性,给出该数据的异常概率计算方法。通过... 针对异常电磁信号检测中常见的输入数据存在参数缺失的问题,提出一种基于不完整数据的异常信号检测方法。该方法借鉴几何数学的思想,通过将缺失数据与正常数据进行比对,分析出缺失数据异常的可能性,给出该数据的异常概率计算方法。通过该异常概率能直接检测出部分异常信号,并给出剩余不完整数据的异常可能性的排序,从而有利于在资源有限时优先处理异常概率高的信号,达到处理资源优化配置的目的。实验结果表明,该方法能给出缺失数据点的异常概率。 展开更多
关键词 完整数据 缺失数据处理 异常信号检测 异常概率
下载PDF
数据清理中不完整数据的清理方法 被引量:7
19
作者 陈伟 丁秋林 《微型机与应用》 北大核心 2005年第2期44-45,55,共3页
针对数据源中出现的不完整数据,提出一种有效的清理方法。
关键词 数据清理 完整数据 清理方法 数据质量 算法库 规则库 常量替代法
下载PDF
一种利用不完整数据检测交通异常的方法 被引量:4
20
作者 王玉玲 任永功 《计算机科学》 CSCD 北大核心 2016年第S1期425-429,共5页
城市化进程的加快带来了严重的交通问题,检测交通异常成为数据挖掘领域的热点之一。传统道路管理主要是应用视频监控,使得处理交通问题的效率受限。鉴于上述原因,提出了一种利用不完整数据检测交通异常的方法(Traffic Anomaly Detection... 城市化进程的加快带来了严重的交通问题,检测交通异常成为数据挖掘领域的热点之一。传统道路管理主要是应用视频监控,使得处理交通问题的效率受限。鉴于上述原因,提出了一种利用不完整数据检测交通异常的方法(Traffic Anomaly Detection,TAD)。首先,利用相关性聚类从手机数据中获取车辆密度信息,降低处理不完整数据的计算开销;然后,设计一个自适应无参数检测算法,根据手机呼叫量变化率捕捉车辆的分散式动态异常,以解决道路状况不确定性难题;最后,提出异常轨迹算法来追踪异常分布路线并预测影响范围,提高异常检测效率。实验结果表明,TAD方法在不同的实验环境下能够有效地检测交通异常,与现有算法相比,所提算法在有效性和伸缩性上效果更好。 展开更多
关键词 异常检测 完整数据 手机数据 异常轨迹
下载PDF
上一页 1 2 65 下一页 到第
使用帮助 返回顶部