期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于马氏距离的缺失数据填充算法 被引量:6
1
作者 刘星毅 檀大耀 +1 位作者 曾春华 韦小铃 《微计算机信息》 2010年第9期225-226,215,共3页
最近邻算法由于操作简单,效果显著,无论在科研还是实际生活中都具有广泛应用。文章首先解释了基于欧式距离的最近邻算法在计算两个记录之间距离方面的不足,然后提出了基于马氏距离的最近邻算法,真实数据集的实验结果显示,改进后的最近... 最近邻算法由于操作简单,效果显著,无论在科研还是实际生活中都具有广泛应用。文章首先解释了基于欧式距离的最近邻算法在计算两个记录之间距离方面的不足,然后提出了基于马氏距离的最近邻算法,真实数据集的实验结果显示,改进后的最近邻算法能取得较好的成绩。 展开更多
关键词 最近邻算法 数据缺失填充 马氏距离
下载PDF
有序填充微阵列缺失数据
2
作者 周秀梅 李作春 覃泽 《计算机工程与应用》 CSCD 北大核心 2009年第22期111-113,共3页
针对欧式距离填充算法不足和微阵列数据集中缺失数据比率过大问题,提出了使用马氏距离有序填充微阵列的最近邻算法,能充分使用数据集中所有有效信息填充缺失数据,真实基因数据集的实验结果显示改进后的最近邻算法明显优于存在算法。
关键词 马氏距离 缺失数据填充 填充顺序
下载PDF
代价敏感的缺失数据有序填充算法
3
作者 苏毅娟 钟智 《计算机工程》 CAS CSCD 北大核心 2009年第17期92-93,96,共3页
缺失数据填充效果会对学习算法和挖掘算法的后续处理过程产生影响。针对代价敏感决策树方法没有同时考虑填充顺序和填充代价的问题,提出一种有序填充缺失数据的算法,综合考虑经济因素和建立填充器所需的有效信息。实验结果表明其预测准... 缺失数据填充效果会对学习算法和挖掘算法的后续处理过程产生影响。针对代价敏感决策树方法没有同时考虑填充顺序和填充代价的问题,提出一种有序填充缺失数据的算法,综合考虑经济因素和建立填充器所需的有效信息。实验结果表明其预测准确率和分类准确率高于现有算法。 展开更多
关键词 代价敏感学习 缺失数据填充 填充顺序
下载PDF
一种基于极限学习机的缺失数据填充方法 被引量:9
4
作者 杨毅 卢诚波 《计算机应用与软件》 CSCD 2016年第10期243-246,共4页
数据处理过程中经常会遇到不完备数据需要填充的问题,寻求简单有效的缺失数据填充方法非常重要。针对该情况,提出一种基于极限学习机ELM(Extreme Learning Machine)的缺失数据填充方法,通过极限学习机网络建模,建立需要填充的缺失属性... 数据处理过程中经常会遇到不完备数据需要填充的问题,寻求简单有效的缺失数据填充方法非常重要。针对该情况,提出一种基于极限学习机ELM(Extreme Learning Machine)的缺失数据填充方法,通过极限学习机网络建模,建立需要填充的缺失属性与其他属性的非线性映射模型。实验结果表明:该方法具有非常好的填充效果。 展开更多
关键词 极限学习机 缺失数据填充 UCI机器学习数据
下载PDF
基于距离最大化和缺失数据聚类的填充算法 被引量:9
5
作者 赵星 王逊 黄树成 《电子设计工程》 2018年第1期20-24,28,共6页
通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个... 通过对基于K-means聚类的缺失值填充算法的改进,文中提出了基于距离最大化和缺失数据聚类的填充算法。首先,针对原填充算法需要提前输入聚类个数这一缺点,设计了改进的K-means聚类算法:使用数据间的最大距离确定聚类中心,自动产生聚类个数,提高聚类效果;其次,对聚类的距离函数进行改进,采用部分距离度量方式,改进后的算法可以对含有缺失值的记录进行聚类,简化原填充算法步骤。通过对STUDENT ALCOHOL CONSUMPTION数据集的实验,结果证明了该算法能够在提高效率的同时,有效地填充缺失数据。 展开更多
关键词 数据清洗 缺失数据填充 K-means填充算法 距离最大化
下载PDF
基于优化最大偏差相似性准则的KNN缺失数据填充算法 被引量:2
6
作者 阮嘉琨 蔡延光 +1 位作者 蔡颢 王建成 《自动化与信息工程》 2020年第2期8-15,26,共9页
根据高速公路交通数据的特点,采用基于最大偏差相似性准则(MDSC)与KNN填充算法对缺失交通数据进行填充。针对KNN填充算法可能产生伪邻近点问题,提出利用MDSC对不完整的交通数据中缺失的属性样本和完整值数据样本进行聚类,以避免伪邻近... 根据高速公路交通数据的特点,采用基于最大偏差相似性准则(MDSC)与KNN填充算法对缺失交通数据进行填充。针对KNN填充算法可能产生伪邻近点问题,提出利用MDSC对不完整的交通数据中缺失的属性样本和完整值数据样本进行聚类,以避免伪邻近点发生;并利用基于骨干粒子群算法对MDSC参数优化。实验结果表明:基于优化MDSC的KNN填充算法的RMSE值更小,效果更优。 展开更多
关键词 智能交通 高速公路 缺失数据填充 聚类算法
下载PDF
一种基于模糊C均值聚类的稀疏数据缺失值填充方法 被引量:4
7
作者 张楷卉 李鹏 《黑龙江大学自然科学学报》 CAS 2019年第6期750-756,共7页
缺失数据处理通常基于统计学的方法,在数据预处理阶段对缺失值进行填补,其效率和准确性并不高。因此,提出了一种基于模糊C均值(FCM)聚类的嵌入式填充方法(FCMSI)。此算法通过平均比率法(ARM)对稀疏数据进行初始化填充;采用局部距离策略... 缺失数据处理通常基于统计学的方法,在数据预处理阶段对缺失值进行填补,其效率和准确性并不高。因此,提出了一种基于模糊C均值(FCM)聚类的嵌入式填充方法(FCMSI)。此算法通过平均比率法(ARM)对稀疏数据进行初始化填充;采用局部距离策略对FCM进行改进,并对数据进行聚类;将缺失数据作为变量,在每次聚类迭代后的簇内采用协同过滤(CF)的思想对变量值进行替换,直到结果收敛。利用UCI标准数据集进行对比实验,并采用三种不同评价指标衡量,验证了FCMSI方法比传统填充方法性能显著提高。 展开更多
关键词 缺失数据填充 稀疏数据 模糊C均值聚类 协同过滤
下载PDF
基于改进神经过程的缺失数据填充算法 被引量:3
8
作者 孙晓丽 郭艳 +1 位作者 李宁 宋晓祥 《中国科学院大学学报(中英文)》 CSCD 北大核心 2021年第2期280-287,共8页
缺失数据填充是数据分析处理领域的一个重要研究课题。特别是在采集数据量较少的情况下,缺失数据填充的难度极大。针对这个问题,提出一种基于改进神经过程模型的缺失数据填充算法,该算法可有效提升小数据集背景下的缺失数据填充性能。首... 缺失数据填充是数据分析处理领域的一个重要研究课题。特别是在采集数据量较少的情况下,缺失数据填充的难度极大。针对这个问题,提出一种基于改进神经过程模型的缺失数据填充算法,该算法可有效提升小数据集背景下的缺失数据填充性能。首先,将观测到的时间序列进行单一表示,由神经网络得到各自的表征向量;其次,通过神经过程模型获得数据的分布函数,并在训练阶段引入修正系数α,从而根据数据缺失率更加精确地确定训练数据的采样率;最后,加入填充过程,通过训练好的模型估计数据缺失值。为检验算法性能,在海洋表面温度数据集以及北京PM2.5含量数据集上进行仿真实验,结果表明该算法在小数据集背景下具有良好的填充效果。与其他算法相比,所提算法在高缺失率的情况下具有更低的均方根误差。 展开更多
关键词 缺失数据填充 时间序列 改进神经过程 修正系数
下载PDF
基于改进RNN的多变量时间序列缺失数据填充算法 被引量:4
9
作者 孙晓丽 郭艳 +1 位作者 李宁 宋晓祥 《信息技术与网络安全》 2019年第11期47-53,共7页
随着大数据时代的来临,多变量时间序列的应用价值得到了越来越多的关注。然而,缺失数据的存在严重影响了对多变量时间序列的进一步开发利用。针对这个问题,提出了基于改进递归神经网络的多变量缺失数据填充算法,该算法通过衰减机制可以... 随着大数据时代的来临,多变量时间序列的应用价值得到了越来越多的关注。然而,缺失数据的存在严重影响了对多变量时间序列的进一步开发利用。针对这个问题,提出了基于改进递归神经网络的多变量缺失数据填充算法,该算法通过衰减机制可以获得更多有用的隐藏信息,从而更好地完成对多变量缺失数据的填充。首先,对多变量数据进行预处理,得到网络的输入向量;其次,在长短时记忆(Long-Short-Term Memory,LSTM)单元的基础上引入衰减机制,提出了两种改进的缺失数据填充模型。改进后的模型能够更多更好地获取长时间间隔的隐藏信息,并对输入进行相应的衰减处理。为检验算法的性能,在上海空气质量数据集以及多传感器数据融合活动识别系统(Activity Recognition system based on Multisensor data fusion,AReM)数据集上进行了仿真实验。结果表明,相比于其他算法,所提算法能够更好地实现多变量时间序列的缺失数据填充。 展开更多
关键词 缺失数据填充 多变量时间序列 LSTM 衰减机制 上海空气质量数据 AReM数据
下载PDF
基于分类的加速EM缺失数据填充算法 被引量:2
10
作者 孙华艳 李业丽 +1 位作者 字云飞 韩旭 《北京印刷学院学报》 2019年第2期61-65,共5页
在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根... 在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根据挖掘目的的不同选择不同的特性,然后利用增量式EM(IEM)算法按E步M步迭代反复求精,快速有效地得出填充缺失数据的最优值;该算法大大加快了收敛速度,加强了聚类的稳定性,数据填充效果显著。 展开更多
关键词 KNN分类 EM算法 增量式EM算法 收敛速度 稳定聚类 缺失数据填充
下载PDF
基于分类的加速EM缺失数据填充算法 被引量:1
11
作者 孙华艳 李业丽 +3 位作者 字云飞 韩旭 管欣鑫 周楚风 《北京印刷学院学报》 2018年第9期98-102,共5页
在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根... 在数据挖掘的整个过程中,EM算法因其数值计算的稳定性、实现上的简单性,可靠的全局收敛性,被广泛应用于处理数据不完整问题。针对EM算法收敛速度慢,算法高度依赖初始值的选择,使用KNN算法的分类结果作为EM算法的初始使用范围,KNN算法根据挖掘目的的不同选择不同的特性,然后利用增量式EM(IEM)算法按E步M步迭代反复求精,快速有效地得出填充缺失数据的最优值;该算法大大加快了收敛速度,加强了聚类的稳定性,数据填充效果显著。 展开更多
关键词 KNN分类 EM算法 增量式EM算法 收敛速度 稳定聚类 缺失数据填充
下载PDF
基于深度学习的不完整大数据填充算法 被引量:12
12
作者 卜范玉 陈志奎 张清辰 《微电子学与计算机》 CSCD 北大核心 2014年第12期173-176,共4页
提出一种基于深度学习的不完整大数据填充算法.算法首先以自动编码机为基础建立填充自动编码机.在此基础上,构建深度填充网络模型,分析不完整大数据的深度特征并根据逐层训练思想和反向传播算法计算网络参数.最后利用深度填充网络来还... 提出一种基于深度学习的不完整大数据填充算法.算法首先以自动编码机为基础建立填充自动编码机.在此基础上,构建深度填充网络模型,分析不完整大数据的深度特征并根据逐层训练思想和反向传播算法计算网络参数.最后利用深度填充网络来还原不完整大数据,对缺失值进行填充.实验表明,提出的算法能够有效提高不完整大数据的填充精度. 展开更多
关键词 深度学习 缺失数据填充 自动编码机 数据
下载PDF
基于张量分解的多维数据填充算法 被引量:2
13
作者 朱彦君 吴向阳 《计算机工程》 CAS CSCD 2014年第5期45-48,共4页
在多维数据分析和处理中,经常会出现部分数据丢失或者部分数据未知的情况,如何利用已知数据的潜在结构对这些缺失数据进行填充是一个亟待解决的问题。目前对于缺失数据填充的研究大多是针对矩阵或者向量形式的低维数据,而对于三维以上... 在多维数据分析和处理中,经常会出现部分数据丢失或者部分数据未知的情况,如何利用已知数据的潜在结构对这些缺失数据进行填充是一个亟待解决的问题。目前对于缺失数据填充的研究大多是针对矩阵或者向量形式的低维数据,而对于三维以上高维数据填充的研究则很少。针对该问题,提出一种基于张量分解的多维数据填充算法,利用张量分解中CP分解模型的结构特性和分解的唯一性,实现对多维数据中缺失数据的有效填充。通过实验对以三维形式存储的部分数据缺失图像进行填充修复,并与CP-WOPT算法进行比较,结果表明,该算法具有较高的准确度以及较快的运行速度。 展开更多
关键词 缺失数据填充 张量分解 多维数据填充 多维数据分析 多维数据处理 图像修复
下载PDF
基于真值发现的加油站车辆号牌缺损数据填充方法
14
作者 彭新亮 程力 +3 位作者 王轶 马博 赵凡 周喜 《计算机应用与软件》 北大核心 2019年第8期41-46,74,共7页
由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺... 由于数据采集设备的不完善以及数据在传输过程中的不可靠性等原因,致使加油站车辆加油数据中经常会产生数据的丢失和错误,降低了车辆加油数据的完整性,严重影响了后续的数据分析工作。目前虽然已有许多算法可以解决连续型数值数据的缺损问题,但是它们并不适用于车辆号牌这种离散型分类数据。提出一种基于改进TruthFinder算法的缺损值填充框架。基于真值发现算法,考虑到离散数据相似度的计算方式,改进原算法对数据值支持度的计算模型。通过在真实加油站车辆数据集上的实验,相较于原算法及更加通用的Voting算法,正确率分别提升了7%和23%。该方法能部分解决类似加油站车辆加油数据这种多源离散型数据的缺损值填充问题,大大提高了此数据的可用性。 展开更多
关键词 数据清洗 车辆加油数据 缺失数据填充 真值发现
下载PDF
不完全数据集上的半参组群差异检测
15
作者 张师超 《浙江师范大学学报(自然科学版)》 CAS 2010年第3期241-247,共7页
组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境... 组群差异检测广泛应用于医药、社会网络等领域.现有的组群差异检测都是建立在数据集没有缺失的情况下,因此讨论并给出了在数据集缺失的情况下进行组群差异检测的方法.首先,使用一种新颖的缺失数据填充方法填充缺失数据,然后在半参环境下使用经验似然方法对得到的完全数据集估计出置信区间,进而进行组群差异检测. 展开更多
关键词 缺失数据填充 经验似然 组群差异检测 不完全数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部