期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于概率密度的自适应k近邻缺失值填充方法
1
作者 梁路 林俊跃 霍颖翔 《华南师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期80-90,共11页
基于k近邻的缺失值填充方法通常使用样本间的距离来度量样本的相似性,在计算距离时,没有区分样本各属性的权重,即所有属性对距离的贡献是一样的。然而,在非均匀分布的不平衡数据集中,样本的异质性往往体现在取值不常见的属性上,即样本... 基于k近邻的缺失值填充方法通常使用样本间的距离来度量样本的相似性,在计算距离时,没有区分样本各属性的权重,即所有属性对距离的贡献是一样的。然而,在非均匀分布的不平衡数据集中,样本的异质性往往体现在取值不常见的属性上,即样本之间的相似性受属性取值概率影响,此时用传统的距离公式来度量相似性是不够准确的。因此,文章针对非均匀分布的不平衡数据集提出了一种自适应k近邻缺失值填充方法(AkNNI):首先,引入属性的概率密度,动态调整各个属性的重要性,凸显稀疏值与缩小频繁值在距离计算上的贡献,从而更好地表达样本的异质性以及捕捉样本之间的相似性;然后,针对高缺失率下数据集中完备样本稀少的情况,综合考虑了样本的相似性和完整性,设计了新的k近邻的选择流程。实验选取了6个非均匀分布数据集,对比了AkNNI方法与其他5种经典填充方法的填充效果,验证了填充后的数据集在k近邻分类器的分类效果,深入探索了3种评估指标的相互关系。实验结果表明AkNNI方法具有更高的填充准确度和分类准确度:在6种缺失值填充算法中,AkNNI方法在各个数据集上取得的平均RMSE最低、平均皮尔逊相关系数最高以及平均分类准确率最高。同时,在高缺失率下,AkNNI方法在各个数据集上仍能保持较低的RMSE、较高的皮尔逊相关系数和较高的分类准确度。 展开更多
关键词 欧氏距离 K近邻 缺失填充 概率密度 非均匀分布
下载PDF
QENNI:一种缺失值填充的新方法 被引量:5
2
作者 张师超 朱曼龙 黄樑昌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2010年第1期72-76,共5页
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该... 针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(quadrant-encapsidated-nearest-neighbor-based imputation),它仅仅使用缺失数据象限方向的最近邻数据填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。另外,此算法对于低维数据集可以是无参的,即消除了对参数的依赖。实验结果表明,QENNI算法的填充准确性要优于kNNI算法。 展开更多
关键词 缺失 缺失填充 kNNI补值算法 QENNI补值算法
下载PDF
基于马氏距离的缺失数据填充算法 被引量:6
3
作者 刘星毅 檀大耀 +1 位作者 曾春华 韦小铃 《微计算机信息》 2010年第9期225-226,215,共3页
最近邻算法由于操作简单,效果显著,无论在科研还是实际生活中都具有广泛应用。文章首先解释了基于欧式距离的最近邻算法在计算两个记录之间距离方面的不足,然后提出了基于马氏距离的最近邻算法,真实数据集的实验结果显示,改进后的最近... 最近邻算法由于操作简单,效果显著,无论在科研还是实际生活中都具有广泛应用。文章首先解释了基于欧式距离的最近邻算法在计算两个记录之间距离方面的不足,然后提出了基于马氏距离的最近邻算法,真实数据集的实验结果显示,改进后的最近邻算法能取得较好的成绩。 展开更多
关键词 最近邻算法 数据缺失填充 马氏距离
下载PDF
基于Map-Reduce的大数据缺失值填充算法 被引量:18
4
作者 金连 王宏志 +1 位作者 黄沈滨 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期312-321,共10页
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性... 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 展开更多
关键词 缺失填充 概率推理 MAP-REDUCE
下载PDF
APT-KNN:一种面向分类问题的高效缺失值填充算法 被引量:12
5
作者 徐宇明 陈诚 +1 位作者 熊赟 朱扬勇 《计算机应用与软件》 CSCD 2011年第4期135-139,共5页
分类是一种常见的数据挖掘方法,而属性值缺失是分类过程中常见的一类数据质量问题,缺失值填充可以减少属性值缺失造成的分类错误。缺失值填充首先要求准确率高,在许多实际应用当中,缺失值填充还必须保证较高的计算效率。提出了一种填充... 分类是一种常见的数据挖掘方法,而属性值缺失是分类过程中常见的一类数据质量问题,缺失值填充可以减少属性值缺失造成的分类错误。缺失值填充首先要求准确率高,在许多实际应用当中,缺失值填充还必须保证较高的计算效率。提出了一种填充缺失属性值算法APT-KNN,APT-KNN算法利用属性与属性之间的相互关系,根据与目标最相似的几个实例属性值来估计缺失值,以保证填充结果具有更高的准确性,同时设计了一种优化的AntiPole树索引结构,提高了缺失属性值的填充效率。实验表明,APT-KNN方法与现有的几种缺失属性填充方法相比,具有更高的准确率和填充效率。 展开更多
关键词 分类 缺失填充 索引 数据挖掘 数据准备
下载PDF
缺失值填充:基于信息增益的方法 被引量:8
6
作者 张红霞 《计算机工程与设计》 CSCD 北大核心 2006年第24期4810-4812,共3页
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程... 在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程。目前已有的一些填充算法,如基于粗糙集的和基于最近邻法的算法等,在一定程度上能够处理缺失值问题。与以上方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的。 展开更多
关键词 机器学习 缺失填充 信息增益 分类准确率
下载PDF
基于信息增益的数据库缺失值填充算法 被引量:4
7
作者 覃泽 《微计算机信息》 北大核心 2007年第04X期180-181,186,共3页
在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问... 在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程.目前已有的一些填充算法在一定程度上能够处理缺失值问题.与已有的方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的. 展开更多
关键词 数据挖掘 缺失填充 信息增益 分类准确率
下载PDF
有序填充微阵列缺失数据
8
作者 周秀梅 李作春 覃泽 《计算机工程与应用》 CSCD 北大核心 2009年第22期111-113,共3页
针对欧式距离填充算法不足和微阵列数据集中缺失数据比率过大问题,提出了使用马氏距离有序填充微阵列的最近邻算法,能充分使用数据集中所有有效信息填充缺失数据,真实基因数据集的实验结果显示改进后的最近邻算法明显优于存在算法。
关键词 马氏距离 缺失数据填充 填充顺序
下载PDF
代价敏感的缺失数据有序填充算法
9
作者 苏毅娟 钟智 《计算机工程》 CAS CSCD 北大核心 2009年第17期92-93,96,共3页
缺失数据填充效果会对学习算法和挖掘算法的后续处理过程产生影响。针对代价敏感决策树方法没有同时考虑填充顺序和填充代价的问题,提出一种有序填充缺失数据的算法,综合考虑经济因素和建立填充器所需的有效信息。实验结果表明其预测准... 缺失数据填充效果会对学习算法和挖掘算法的后续处理过程产生影响。针对代价敏感决策树方法没有同时考虑填充顺序和填充代价的问题,提出一种有序填充缺失数据的算法,综合考虑经济因素和建立填充器所需的有效信息。实验结果表明其预测准确率和分类准确率高于现有算法。 展开更多
关键词 代价敏感学习 缺失数据填充 填充顺序
下载PDF
一种大域数据流中缺失值的填充方法 被引量:4
10
作者 赵飞 刘奇志 +1 位作者 张剡 柏文阳 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期32-39,共8页
在网络流量监控等数据流应用场景中,数据流中的IP地址等属性的值域往往很大,对于连续到达的数据流,管理系统一般不存储全体数据集,而是维护一个较小规模的数据概要.对于这类大域数据流中的缺失数据,难以采用邻近值填充等传统方法进行填... 在网络流量监控等数据流应用场景中,数据流中的IP地址等属性的值域往往很大,对于连续到达的数据流,管理系统一般不存储全体数据集,而是维护一个较小规模的数据概要.对于这类大域数据流中的缺失数据,难以采用邻近值填充等传统方法进行填充,也不能轻易删除.最小计数概要是一种轻量级的数据流概要,适合大域数据流的概要维护.本文基于最小计数概要及其维护技术,提出最小频率概要,并根据这两种概要填充大域数据流中的缺失数据.该填充方法首先设计一组两两独立的Hash函数族,将一段时间内大域数据流的属性值(如网络流量)映射并累加到非大域二维表数据结构中,形成大域数据流的计数概要(如一段时间内网络总流量),与此同时,在二维表中存储计数概要伴随的频率概要(即数据流到达次数,如数据包的个数),然后根据最小计数概要与最小频率概要之比对大域数据流的缺失值(如某个数据包的流量)进行填充.采用模拟大域数据集在通用软硬件环境下进行大量实验,结果表明,基于最小计数/频率概要的填充方法可获得较高的精度,而且填充误差随数据属性值定义域的变化呈非单调性变化,另外,随着数据量的增加,填充误差虽然越来越大,但是变化越来越缓慢,最终趋于一个稳定值.对于给定误差参数ε,本文设计的填充算法时空界限为1/ε,部分应用的时间界限为1. 展开更多
关键词 大域数据流 不确定性 缺失填充 最小计数概要
下载PDF
独立RNN和胶囊网络的维吾尔语事件缺失元素填充 被引量:4
11
作者 王县县 禹龙 +1 位作者 田生伟 王瑞锦 《自动化学报》 EI CAS CSCD 北大核心 2021年第4期903-912,共10页
提出了注意力机制独立循环神经网络和胶囊网络并行的维吾尔语事件缺失元素填充模型(Att_IndRNN_CapsNet).首先,抽取18项事件和事件元素的内部特征,作为结合注意力机制的独立循环神经网络模型的输入,进一步获取高阶特征;同时,引入词嵌入... 提出了注意力机制独立循环神经网络和胶囊网络并行的维吾尔语事件缺失元素填充模型(Att_IndRNN_CapsNet).首先,抽取18项事件和事件元素的内部特征,作为结合注意力机制的独立循环神经网络模型的输入,进一步获取高阶特征;同时,引入词嵌入技术将事件触发词和候选元素映射为词向量,通过胶囊网络挖掘事件和事件元素的上下文语义特征;然后,将两种特征融合,作为分类器的输入,进而完成事件缺失元素的填充.实验结果表明,该方法用于维吾尔语事件缺失元素填充准确率为86.94%,召回率为84.14%,衡量模型整体性能的F1值为85.52%,从而证明了该方法在维吾尔语事件缺失元素填充上的有效性. 展开更多
关键词 注意力机制 胶囊网络 事件抽取 独立循环神经网络 缺失元素填充
下载PDF
网络试飞数据缺失值填充方法
12
作者 王鹏 《中国科技信息》 2022年第8期44-46,共3页
随着网络数据结构的快速应用,对网络包中试飞数据的完整性越来越重视,研究网络包中试飞数据缺失值填充方法。在卸载分流数据完成后对网络包数据预处理后的物理量进行填充,首先根据网络包中试飞数据参数的类型特点,利用心跳字来查找缺失... 随着网络数据结构的快速应用,对网络包中试飞数据的完整性越来越重视,研究网络包中试飞数据缺失值填充方法。在卸载分流数据完成后对网络包数据预处理后的物理量进行填充,首先根据网络包中试飞数据参数的类型特点,利用心跳字来查找缺失值所在的时间点;然后对不同类型的参数采取不同的填充方法,对于int16类型、Uint16类型和float类型的参数利用基于统计的处理方法来进行缺失值填充,对于bool型或者byte型的参数,先判断缺失值时间点的前后数值是否相同,若不相同,则分别使用基于相关性系数分类的聚类处理方法和基于极限学习机的分类方法来进行缺失值填充;最后提出了两个网络包中试飞数据缺失值填充算法,并对其分析对比。 展开更多
关键词 极限学习机 缺失填充 网络包 填充方法 数据预处理 数据结构 聚类处理 流数据
下载PDF
一种基于极限学习机的缺失数据填充方法 被引量:9
13
作者 杨毅 卢诚波 《计算机应用与软件》 CSCD 2016年第10期243-246,共4页
数据处理过程中经常会遇到不完备数据需要填充的问题,寻求简单有效的缺失数据填充方法非常重要。针对该情况,提出一种基于极限学习机ELM(Extreme Learning Machine)的缺失数据填充方法,通过极限学习机网络建模,建立需要填充的缺失属性... 数据处理过程中经常会遇到不完备数据需要填充的问题,寻求简单有效的缺失数据填充方法非常重要。针对该情况,提出一种基于极限学习机ELM(Extreme Learning Machine)的缺失数据填充方法,通过极限学习机网络建模,建立需要填充的缺失属性与其他属性的非线性映射模型。实验结果表明:该方法具有非常好的填充效果。 展开更多
关键词 极限学习机 缺失数据填充 UCI机器学习数据库
下载PDF
基于距离最大化和缺失数据聚类的填充算法 被引量:9
14
作者 赵星 王逊 黄树成 《电子设计工程》 2018年第1期20-24,28,共6页
通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个... 通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数据。 展开更多
关键词 数据清洗 缺失数据填充 K-means填充算法 距离最大化
下载PDF
基于生成对抗网络的飞机燃油数据缺失值填充方法 被引量:12
15
作者 郭毅博 牛猛 +6 位作者 王海迪 陈艳华 薛均晓 袁玥 侯立硕 徐明亮 潘俊 《浙江大学学报(理学版)》 CAS CSCD 北大核心 2021年第4期402-409,共8页
飞机传感器采集的燃油数据是后续燃油测量的基础。在飞行过程中,由传感器采集的数据因存在部分缺失值,如直接进行后续处理将影响燃油测量精度。现有的缺失值填充方法存在两方面问题,一方面易忽视飞机燃油时序数据在时间维度上的上下文... 飞机传感器采集的燃油数据是后续燃油测量的基础。在飞行过程中,由传感器采集的数据因存在部分缺失值,如直接进行后续处理将影响燃油测量精度。现有的缺失值填充方法存在两方面问题,一方面易忽视飞机燃油时序数据在时间维度上的上下文依赖关系;另一方面缺少完整的样本数据集进行模型训练。基于此,提出了一种基于生成对抗网络的缺失值填充方法,从而有效解决了传统方法难以处理的时序数据历史隐含规律及样本不完整的问题,且填充效果较其他算法更佳。 展开更多
关键词 缺失填充方法 生成对抗网络 Seq2seq模型 循环神经网络
下载PDF
基于注意力机制的城市多元空气质量数据缺失值填充 被引量:1
16
作者 马思远 焦佳辉 +1 位作者 任晟岐 宋伟 《计算机工程与科学》 CSCD 北大核心 2023年第8期1354-1364,共11页
空气污染严重影响着人类的身体健康与社会的可持续发展,但传感器获取的多元变量空气质量数据往往存在缺失值,这为数据的分析与处理带来了困扰。目前,许多对某一种空气成分变化的分析方法只依赖于此属性的时间数据与空间数据,忽略了在相... 空气污染严重影响着人类的身体健康与社会的可持续发展,但传感器获取的多元变量空气质量数据往往存在缺失值,这为数据的分析与处理带来了困扰。目前,许多对某一种空气成分变化的分析方法只依赖于此属性的时间数据与空间数据,忽略了在相同时间区间内其他空气成分对此属性变化趋势的影响,且在离散型缺失数据的填充上难以达到理想的效果。提出了一种时间注意力深度学习模型(TAM)。该模型使用注意力机制来关注不同时间戳之间的相关性与不同特征时间序列之间的相关性,并结合短期历史数据来填充多元变量空气质量数据中的缺失读数。使用北京市的空气质量数据对所提出的模型进行评估,实验结果表明,相比较于其他10种基线模型,TAM具有一定优势。 展开更多
关键词 空气质量 缺失填充 注意力机制 深度学习
下载PDF
基于DBSCAN的缺失值填充算法研究 被引量:7
17
作者 冯宪凯 黄树成 《计算机与数字工程》 2020年第7期1572-1575,1686,共5页
通过改进基于DBSCAN缺失值填充算法,实现对缺失值记录的填充。文中借助于图的强连通分量思想,改进算法可以对多密度数据集进行聚类。在使用欧几里得公式计算距离缺失值记录和聚类的相似度时,通过利用三角不等式原理,极大减少了距离的计... 通过改进基于DBSCAN缺失值填充算法,实现对缺失值记录的填充。文中借助于图的强连通分量思想,改进算法可以对多密度数据集进行聚类。在使用欧几里得公式计算距离缺失值记录和聚类的相似度时,通过利用三角不等式原理,极大减少了距离的计算量。实验结果表明,改进的算法不仅能够有效地填充缺失值记录,还拥有更好的运行效率。 展开更多
关键词 多密度聚类 缺失填充 DBSCAN 强连通分量
下载PDF
基于缺失值迭代预测填充的协同过滤推荐算法 被引量:4
18
作者 卢棪 刘应安 《计算机与数字工程》 2016年第6期992-996,共5页
推荐系统是目前在电子商务中用的较为广泛的一种技术。伴随着数据量的增大,评分矩阵的稀疏性成为了一大难题。对于评分数据较为稀疏的矩阵,提出了一种基于缺失值迭代预测填充的协同过滤算法。这种算法以迭代的方式对评分矩阵填充,直到... 推荐系统是目前在电子商务中用的较为广泛的一种技术。伴随着数据量的增大,评分矩阵的稀疏性成为了一大难题。对于评分数据较为稀疏的矩阵,提出了一种基于缺失值迭代预测填充的协同过滤算法。这种算法以迭代的方式对评分矩阵填充,直到缺失值个数恒定在某一数值。而在迭代的过程中,每一次用于填充计算的相似度度量又是依据均值填充后的相似度来动态计算的。说明该算法即可以降低数据稀疏性,又提高了用户相似度计算精度的问题。实验研究表明,利用该算法能够提高评分矩阵的密度,并降低了系统的推荐误差。 展开更多
关键词 推荐系统 协同过滤 迭代 预测 相似度计算 缺失填充 数据密度
下载PDF
基于优化最大偏差相似性准则的KNN缺失数据填充算法 被引量:2
19
作者 阮嘉琨 蔡延光 +1 位作者 蔡颢 王建成 《自动化与信息工程》 2020年第2期8-15,26,共9页
根据高速公路交通数据的特点,采用基于最大偏差相似性准则(MDSC)与KNN填充算法对缺失交通数据进行填充。针对KNN填充算法可能产生伪邻近点问题,提出利用MDSC对不完整的交通数据中缺失的属性样本和完整值数据样本进行聚类,以避免伪邻近... 根据高速公路交通数据的特点,采用基于最大偏差相似性准则(MDSC)与KNN填充算法对缺失交通数据进行填充。针对KNN填充算法可能产生伪邻近点问题,提出利用MDSC对不完整的交通数据中缺失的属性样本和完整值数据样本进行聚类,以避免伪邻近点发生;并利用基于骨干粒子群算法对MDSC参数优化。实验结果表明:基于优化MDSC的KNN填充算法的RMSE值更小,效果更优。 展开更多
关键词 智能交通 高速公路 缺失数据填充 聚类算法
下载PDF
基于聚类和LSTM的电力分钟冻结数据缺失值填充方法 被引量:12
20
作者 卢继哲 刘宣 +3 位作者 唐悦 阿辽沙·叶 侯帅 叶方彬 《控制工程》 CSCD 北大核心 2022年第4期611-616,共6页
在用电信息采集系统中,由于采集和配电设备的海量接入,终端获取的分钟冻结数据普遍存在缺失。针对该问题,提出一种基于聚类的时间序列预测方法填充缺失值。该方法利用终端获取的分钟冻结数据具有时序自相似和关联性特征,首先对终端聚类... 在用电信息采集系统中,由于采集和配电设备的海量接入,终端获取的分钟冻结数据普遍存在缺失。针对该问题,提出一种基于聚类的时间序列预测方法填充缺失值。该方法利用终端获取的分钟冻结数据具有时序自相似和关联性特征,首先对终端聚类,使具有相似时序特征的终端在同一分组,针对长时间序列具有的高维特征造成聚类困难的问题,使用自编码器降维,提高聚类性能;然后,对各分组建立基于长短期记忆(LSTM)单元的神经网络模型预测缺失值。实验结果表明该方法能有效利用终端时间序列的特性,验证了基于自编码器的聚类可提升预测性能。 展开更多
关键词 用电信息采集系统 分钟冻结数据 缺失填充 聚类 LSTM
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部