期刊文献+
共找到341篇文章
< 1 2 18 >
每页显示 20 50 100
基于概率密度的自适应k近邻缺失值填充方法
1
作者 梁路 林俊跃 霍颖翔 《华南师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期80-90,共11页
基于k近邻的缺失值填充方法通常使用样本间的距离来度量样本的相似性,在计算距离时,没有区分样本各属性的权重,即所有属性对距离的贡献是一样的。然而,在非均匀分布的不平衡数据集中,样本的异质性往往体现在取值不常见的属性上,即样本... 基于k近邻的缺失值填充方法通常使用样本间的距离来度量样本的相似性,在计算距离时,没有区分样本各属性的权重,即所有属性对距离的贡献是一样的。然而,在非均匀分布的不平衡数据集中,样本的异质性往往体现在取值不常见的属性上,即样本之间的相似性受属性取值概率影响,此时用传统的距离公式来度量相似性是不够准确的。因此,文章针对非均匀分布的不平衡数据集提出了一种自适应k近邻缺失值填充方法(AkNNI):首先,引入属性的概率密度,动态调整各个属性的重要性,凸显稀疏值与缩小频繁值在距离计算上的贡献,从而更好地表达样本的异质性以及捕捉样本之间的相似性;然后,针对高缺失率下数据集中完备样本稀少的情况,综合考虑了样本的相似性和完整性,设计了新的k近邻的选择流程。实验选取了6个非均匀分布数据集,对比了AkNNI方法与其他5种经典填充方法的填充效果,验证了填充后的数据集在k近邻分类器的分类效果,深入探索了3种评估指标的相互关系。实验结果表明AkNNI方法具有更高的填充准确度和分类准确度:在6种缺失值填充算法中,AkNNI方法在各个数据集上取得的平均RMSE最低、平均皮尔逊相关系数最高以及平均分类准确率最高。同时,在高缺失率下,AkNNI方法在各个数据集上仍能保持较低的RMSE、较高的皮尔逊相关系数和较高的分类准确度。 展开更多
关键词 欧氏距离 K近邻 缺失值填充 概率密度 非均匀分布
下载PDF
空间自回归模型下不完整大数据缺失值插补算法
2
作者 刘晓燕 翟建国 《吉林大学学报(信息科学版)》 CAS 2024年第2期312-317,共6页
针对不完整大数据因其自身结构具有不规则性,导致在进行缺失值插补时计算量大、插补精度低的问题,提出空间自回归模型下不完整大数据缺失值插补算法。利用迁移学习算法在动态权重下过滤出原始数据中冗余数据,区分异常和正常数据,提取残... 针对不完整大数据因其自身结构具有不规则性,导致在进行缺失值插补时计算量大、插补精度低的问题,提出空间自回归模型下不完整大数据缺失值插补算法。利用迁移学习算法在动态权重下过滤出原始数据中冗余数据,区分异常和正常数据,提取残缺数据,采用最小二乘回归对残缺数据实施修补。将缺失值插补分为3种类型,分别为一阶空间自回归模型插补、空间自回归模型插补和多重插补法。根据实际情况将修补后数据插补到合适的位置,实现不完整大数据缺失值插补。实验结果表明,所提方法具有良好的缺失值插补能力。 展开更多
关键词 迁移学习 不完整大数据 缺失值插补 空间回归模型 数据修正
下载PDF
基于迁移学习的非结构化大数据缺失值插补算法
3
作者 颜远海 杨莉云 《吉林大学学报(信息科学版)》 CAS 2024年第2期372-377,共6页
针对数字信息产生的海量、多角度的非结构化大数据,由于外界干扰、数据结构损坏等因素造成其信息丢失问题,提出了基于迁移学习的非结构化大数据缺失值插补算法。通过迁移学习算法,预测非结构化大数据缺失部位,利用朴素贝叶斯算法分类数... 针对数字信息产生的海量、多角度的非结构化大数据,由于外界干扰、数据结构损坏等因素造成其信息丢失问题,提出了基于迁移学习的非结构化大数据缺失值插补算法。通过迁移学习算法,预测非结构化大数据缺失部位,利用朴素贝叶斯算法分类数据特征,度量属性间权重值,明确数据类别特征差异向量,辨别特征差异程度。采用核回归模型对数据缺失部分实施非线性映射,经过多项式变化编码,描述数据的跨空间互补条件,完成非结构化大数据缺失值插补。实验结果表明,所提算法可以有效完成非结构化大数据缺失值插补,具有较好的插补效果,能提高插补精度。 展开更多
关键词 迁移学习 非结构化大数据 缺失值插补 缺失值预测 核回归函数
下载PDF
无监督缺失值预测的运动目标检测算法
4
作者 傅饶 房建东 赵于东 《计算机工程与应用》 CSCD 北大核心 2024年第4期220-228,共9页
针对运动目标检测过程中由于背景复杂、目标易发生遮挡而产生的漏检问题,提出一种基于无监督缺失值预测的运动目标检测算法。将漏检的目标视为标签数据中的缺失值,根据待检测目标的类别和数量,利用无监督的生成对抗插补网络(generative ... 针对运动目标检测过程中由于背景复杂、目标易发生遮挡而产生的漏检问题,提出一种基于无监督缺失值预测的运动目标检测算法。将漏检的目标视为标签数据中的缺失值,根据待检测目标的类别和数量,利用无监督的生成对抗插补网络(generative adversarial imputation networks,GAIN),通过已获取的标签数据对缺失值进行预测,以牺牲较少的精确率为代价大幅提高召回率。在小样本的牛只特征部位数据集上的实验结果表明,在标签数据缺失率低于40%的情况下,缺失值预测的准确率约为95%,对于不同程度的被遮挡目标,检测的平均F1分数为0.92。该方法在小样本条件下,对运动目标具有较好的检测性能,可减小实际应用中的不确定性,以及算法对样本数据的依赖性,改善运动目标检测过程中的漏检问题。 展开更多
关键词 小样本 无监督学习 生成对抗插补网络 缺失值预测 运动目标检测
下载PDF
基于条件生成对抗插补网络的双重判别器缺失值插补算法
5
作者 粟佳 于洪 《计算机应用》 CSCD 北大核心 2024年第5期1423-1427,共5页
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN... 应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。 展开更多
关键词 条件生成对抗插补网络 缺失值插补 不完备性 特征关系 双重判别器
下载PDF
基于DSGAN-OD模型的文物感知数据缺失值插补方法研究
6
作者 袁小佩 朱容波 +1 位作者 王俊 刘浩 《中南民族大学学报(自然科学版)》 CAS 2024年第4期485-493,共9页
高质量的文物感知数据对文物保护具有重要意义,然而,由于文物所处自然环境条件恶劣,感知数据中不可避免地存在缺失值,同时文物中同一类缺失数据具有样本少的特点.现有的缺失值处理方法没有充分考虑文物数据中的噪声干扰以及小样本数据... 高质量的文物感知数据对文物保护具有重要意义,然而,由于文物所处自然环境条件恶劣,感知数据中不可避免地存在缺失值,同时文物中同一类缺失数据具有样本少的特点.现有的缺失值处理方法没有充分考虑文物数据中的噪声干扰以及小样本数据间的时空关联性,导致缺失值插补的精确度较低.为此,提出了一种基于半监督生成对抗网络的缺失值插补模型(DSGAN-OD).该模型首先通过降噪自编码器(DAE)对多维数据进行降噪与降维预处理,然后针对生成对抗网络的无监督属性导致文物数据当中的分类标签信息不能被充分利用的不足,将DAE获得的低维表达向量作为半监督生成对抗网络(SemiGAN)的学习样本来获得缺失数据集的特征.同时,填充顺序决策(OD)方法根据数据间的时空关联性确定缺失值填充顺序,最后按照该顺序利用SemiGAN生成的完整数据对缺失值依次插补.在UCI标准数据集和文物温湿度数据上的实验结果表明:与现有的基于生成对抗网络的插补方法GAIN、随机森林插补法以及基于链式规则的多次插补法MICE相比,提出的缺失值插补模型DSGAN-OD的精确度分别提升了21%、48.2%及45.1%. 展开更多
关键词 缺失值插补 文物安防 DSGAN-OD模型 填充顺序决策
下载PDF
面向销售数据的多项缺失值关联性的增量填补
7
作者 刘智 李涛 袁冲 《计算机系统应用》 2024年第4期288-295,共8页
数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中... 数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中对缺失值进行独立填补,会减少缺失值信息的利用,从而对缺失值填补的准确度造成较大的影响.针对以上问题,本文以销售领域为研究目标,根据销售行为的多维度特征,利用不同模型输出值的空间分布特征特性,探索多项缺失值的填补更新机制,研究面向销售数据多项缺失值增量填补方法,根据特征相关性,对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补.该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题,并结合多模型融合,对多项缺失值进行有效填补.最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性. 展开更多
关键词 缺失值处理 增量填补 多模型混合 Stacking算法 药店销售
下载PDF
基于AP聚类的时序数据缺失值有序填充算法
8
作者 王强 周金宇 金超武 《计算机仿真》 2024年第8期521-525,共5页
为提高数据的完整性,便于从数据中获得更多有价值的信息,提出基于AP聚类的时序数据缺失值有序填充算法。为提高数据质量,将数据分为不同子集,根据标准差思想对数据作归一化处理,将数值控制在固定区间,减少数据的不平衡性;分别构建吸引... 为提高数据的完整性,便于从数据中获得更多有价值的信息,提出基于AP聚类的时序数据缺失值有序填充算法。为提高数据质量,将数据分为不同子集,根据标准差思想对数据作归一化处理,将数值控制在固定区间,减少数据的不平衡性;分别构建吸引度与归属度更新矩阵,确保消息正常传递,达到近邻传播目的;设计不完整信息系统,将不同数据间的相似度作为聚类依据;获取聚类邻域的半径参数,通过数据点密度指标确定聚类中心,将相邻数据聚集在一起;利用熵值概念,根据数据相似度计算加权系数,确定缺失数据属性值,实现缺失值有序填充。实验结果表明,所提方法能够将具有相同属性特征的数据聚集在一起,即使数据缺失率较高,也能达到很高的填充准确率。 展开更多
关键词 近邻聚类算法 时序数据 缺失值 有序填充 不完整信息系统
下载PDF
基于改进随机森林的哮喘病缺失值填充方法
9
作者 巩凤杰 周从华 《计算机与数字工程》 2024年第8期2284-2288,2335,共6页
哮喘病数据中包含大量缺失值使得哮喘病难以精确预测。将现有的随机森林算法应用于填补哮喘病缺失数据时,在预填充环节忽略了医疗特征之间的相关性,在数据填充过程中未能及时更新数据,使得数据无法到最新状态。针对上述问题,提出一种改... 哮喘病数据中包含大量缺失值使得哮喘病难以精确预测。将现有的随机森林算法应用于填补哮喘病缺失数据时,在预填充环节忽略了医疗特征之间的相关性,在数据填充过程中未能及时更新数据,使得数据无法到最新状态。针对上述问题,提出一种改进的随机森林算法,预填充阶段,利用Pearson相关性分析构造填充更准确的回归方程,改变随机森林算法中的预填充方法,构造预填充矩阵提高算法填充效率,填充阶段,利用随机森林算法逐列填充特性,加入基于局部数据的循环更新机制,一列填充完成时便更新回归方程参数,进一步更新预填充矩阵中所有参数,保证数据的同步性。实验表明,改进的随机森林算法相比其他算法填充效果更好,能有效地提高哮喘病诊断精度。 展开更多
关键词 哮喘病 随机森林算法 缺失值处理 预填充矩阵 循环更新机制
下载PDF
临床试验中缺失值的处理方法探讨
10
作者 黎剑锋 张静怡 +2 位作者 李立康 刘颖欣 黎国威 《协和医学杂志》 CSCD 北大核心 2024年第5期1165-1172,共8页
在临床试验中,因各种原因导致数据缺失属常见现象。缺失值的存在可造成原数据集信息损失,降低研究结果的稳健性和有效性。因此,如何正确处理缺失值是临床试验中必须重视且谨慎对待的问题。本文介绍了临床试验中缺失值的发生原因、类型... 在临床试验中,因各种原因导致数据缺失属常见现象。缺失值的存在可造成原数据集信息损失,降低研究结果的稳健性和有效性。因此,如何正确处理缺失值是临床试验中必须重视且谨慎对待的问题。本文介绍了临床试验中缺失值的发生原因、类型及常见处理方法,旨在提高研究人员对缺失值的认识,减少缺失值处理方法的误用。需注意的是,临床试验中应对缺失值的最佳方法是严格预防和/或减少数据缺失的发生,而非事后处理。 展开更多
关键词 临床试验 缺失值 删除法 插补法
下载PDF
缺失值场景下的多元时间序列异常检测算法
11
作者 曾子辉 李超洋 廖清 《计算机科学》 CSCD 北大核心 2024年第7期108-115,共8页
时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景... 时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景中更加常见的含缺失值的时间序列异常检测任务,提出了一种基于注意力重新表征的时间序列异常检测算法MMAD(Missing Multivariate Time Series Anomaly Detection)。具体来说,MMAD首先将包含缺失值的时间序列数据通过时间位置编码对时间序列中不同时间戳的空间关联进行建模,然后通过掩码注意力表征模块学习不同时间戳之间数据的关联关系并将其表征为一个高维的嵌入式编码矩阵,从而将包含缺失值的多元时间序列表示为不含缺失值的高维表征,最后引入条件标准化流对该表征进行重建,以重建概率作为异常评分,重建概率越小代表样本越异常。在3个经典时间序列数据集上进行实验,结果表明,相比其他基线方法,MMAD性能平均提升了11%,验证了MMAD在缺失值场景下进行多元时间序列异常检测的有效性。 展开更多
关键词 多元时间序列 异常检测 缺失值场景 注意力机制 神经网络
下载PDF
含有测量误差与缺失值的纵向数据亚组分析方法的模拟研究
12
作者 薛雅心 秦国友 《中国卫生统计》 CSCD 北大核心 2024年第1期12-17,共6页
目的 研究可以同时处理协变量含有测量误差和响应变量含有缺失值的纵向数据下的亚组分析方法。方法 基于阈值回归模型进行亚组分析;利用重复测量之间的独立性来处理测量误差,并引入逆概率加权来处理缺失值,从而构造一个新的广义渐近无... 目的 研究可以同时处理协变量含有测量误差和响应变量含有缺失值的纵向数据下的亚组分析方法。方法 基于阈值回归模型进行亚组分析;利用重复测量之间的独立性来处理测量误差,并引入逆概率加权来处理缺失值,从而构造一个新的广义渐近无偏估计方程。结果 计算机随机模拟显示该估计方法在处理测量误差和缺失数据方面具有良好的效果,相比于未修正测量误差或缺失数据的广义估计方程方法具有更小的偏倚和均方误差。结论 亚组分析中,当协变量存在测量误差、响应变量存在缺失值时,通常需要考虑对测量误差和缺失值进行处理,以便得到可靠的参数估计。 展开更多
关键词 亚组分析 纵向数据 广义估计方程 测量误差 缺失值
下载PDF
临床研究中基于患者报告结局的缺失值问题及对策
13
作者 史晨 闫泽霖 +2 位作者 马嘉骏 李新旭 欧春泉 《护理学报》 2024年第18期35-39,共5页
目的整合患者报告结局(patient-reported outcomes,PRO)的缺失值问题及对策,为尽可能降低PRO数据缺失所带来的影响提供解决思路和参考。方法检索国内外相关文献,从数据缺失的原因及其影响、可行的预防措施、对缺失值的处理及规范报道等... 目的整合患者报告结局(patient-reported outcomes,PRO)的缺失值问题及对策,为尽可能降低PRO数据缺失所带来的影响提供解决思路和参考。方法检索国内外相关文献,从数据缺失的原因及其影响、可行的预防措施、对缺失值的处理及规范报道等几个方面归纳PRO的缺失值问题。结果对缺失数据产生原因及其严重影响的充分认识,严谨的研究设计,规范的实施流程等可降低PRO数据缺失的风险;对无法避免的缺失数据进行合理处理和分析,并透明报告,也能得出可信的结论。结论随着科学研究的不断发展,PRO数据应被更合理、更有效地利用。 展开更多
关键词 患者报告结局 缺失值 量表 临床研究
下载PDF
基于aFCM-KNN的风电功率缺失值填补
14
作者 李一凡 黄景涛 关海平 《计算机仿真》 2024年第8期52-57,共6页
风电实时运行数据在采集、传输和存储过程中的缺失值问题,给基于运行数据的风电功率预测等应用带来困难。针对以上问题,提出一种基于自适应模糊聚类的近邻填补算法aFCM-KNN。鉴于风电数据自身具有的强随机性和波动性,基于FCM算法根据风... 风电实时运行数据在采集、传输和存储过程中的缺失值问题,给基于运行数据的风电功率预测等应用带来困难。针对以上问题,提出一种基于自适应模糊聚类的近邻填补算法aFCM-KNN。鉴于风电数据自身具有的强随机性和波动性,基于FCM算法根据风速对风电数据进行工况聚类,为解决FCM需人为设定聚类个数受主观影响较大的问题,依据风电数据分布特征设计了一个自适应确定聚类个数的策略;考虑到聚类后直接填补容易受噪声的影响,基于KNN算法根据缺失值所在样本的近邻点对每个子簇内的缺失值进行填补,进一步提高了填补精度。在实际数据上的测试分析表明,与其它六种常用填补算法相比,该方法的填补准确率更高。 展开更多
关键词 风电功率 缺失值填补 模糊均聚类 近邻算法
下载PDF
基于类的余弦距离聚类缺失值填补方法研究
15
作者 夏婷婷 林康 +1 位作者 张潇予 刘海忠 《河南科技》 2024年第8期28-35,共8页
【目的】为了解决欧氏距离计算相似性带来的高维度问题,提出了基于类的余弦距离聚类缺失值填补方法。【方法】首先将不完整数据集分为两个不同的组(G1和GIM);其次通过聚类中心对GIM组中的缺失数据进行预填补;再次利用余弦距离计算相关性... 【目的】为了解决欧氏距离计算相似性带来的高维度问题,提出了基于类的余弦距离聚类缺失值填补方法。【方法】首先将不完整数据集分为两个不同的组(G1和GIM);其次通过聚类中心对GIM组中的缺失数据进行预填补;再次利用余弦距离计算相关性;最后选择与G1组中距离最小的数据来填补缺失值。【结果】实验结果表明,该方法在类别和混合数据集上均优于其他插补方法。【结论】该方法显著提高了准确率、召回率、F1-score及插补效果。 展开更多
关键词 不完整数据 缺失值插补 聚类 余弦距离
下载PDF
基于数据挖掘的人力资源数据缺失值填补方法
16
作者 曹旭 《自动化技术与应用》 2024年第6期133-136,155,共5页
现有人力资源数据缺失值填补方法均方根误差大、填补命中率低等问题。提出一种基于数据挖掘的人力资源数据缺失值填补方法。采用分裂Bregman迭代算法消除人力资源数据中存在的噪声,根据人力资源数据的时间序列特征,挖掘数据中存在的隐... 现有人力资源数据缺失值填补方法均方根误差大、填补命中率低等问题。提出一种基于数据挖掘的人力资源数据缺失值填补方法。采用分裂Bregman迭代算法消除人力资源数据中存在的噪声,根据人力资源数据的时间序列特征,挖掘数据中存在的隐藏变量。根据特征对缺失值进行检测。通过FCMSI算法根据缺失值检测结果对缺失值进行填补,采用平均比率法首次填充人力资源数据,通过模糊C均值聚类算法对填充后的数据进行聚类处理,其次在协同过滤思想的基础上进一步对人力资源数据的缺失值进行填补。实验结果表明,所提方法的均方根误差小、填补命中率高。 展开更多
关键词 数据挖掘 人力资源数据 分裂Bregman迭代算法 平均比率法 缺失值填补
下载PDF
基于因果分析的能源系统缺失值补充研究
17
作者 房旭 《软件导刊》 2024年第1期103-107,共5页
针对传统行业中传感器因周围环境导致数据丢失或缺失的困境,提出在未知数据分布情况下基于因果分析对能源系统中的多变量数据进行深度学习的方法,并利用其结果对缺失值进行补充。首先,对样本进行再均衡;其次,基于LSTM的多变量构建模型,... 针对传统行业中传感器因周围环境导致数据丢失或缺失的困境,提出在未知数据分布情况下基于因果分析对能源系统中的多变量数据进行深度学习的方法,并利用其结果对缺失值进行补充。首先,对样本进行再均衡;其次,基于LSTM的多变量构建模型,利用因果分析优化其深度学习的优化器,去除在学习过程中不被期望的影响因子,削弱特征值与稳定偏转之间的伪相关,并结合安慰剂效应排除稳定偏转对特征值的影响;再次,将特征值与有害因子相减,获得去除有害因子的值进而优化模型得到更优结果。这种方法解决了在机器学习过程中对头部数据的欠拟合和对尾部数据的过拟合问题。在多变量的能源系统数据集中进行实验,结果表明,该方法在将缺失值插补收敛到真实值的问题上精度更高。 展开更多
关键词 因果分析 神经网络 长尾分布 缺失值插补
下载PDF
面向多维特性数据的缺失值检测及填补方法对比 被引量:1
18
作者 乔非 翟晓东 王巧玲 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第12期1972-1982,共11页
针对传统缺失值检测方法缺少对多维特性数据全面立体的分析及难以从众多缺失值填补算法中选择合适方法的问题,通过设计缺失值检测方法,在目前常见的数据点缺失度基础上,首次提出数据总体缺失度和加权数据总体缺失度的概念,实现对数据集... 针对传统缺失值检测方法缺少对多维特性数据全面立体的分析及难以从众多缺失值填补算法中选择合适方法的问题,通过设计缺失值检测方法,在目前常见的数据点缺失度基础上,首次提出数据总体缺失度和加权数据总体缺失度的概念,实现对数据集缺失程度的全面检测,进而通过实验对比分析不同缺失值填补方法性能。实验结果表明,在不同缺失度的情况下,不同缺失值填补算法的性能不同,所提出的方法可为缺失值填补算法的选择提供有效依据。 展开更多
关键词 数据预处理 缺失值检测 缺失 缺失值填补方法
下载PDF
基于注意力机制的城市多元空气质量数据缺失值填充 被引量:1
19
作者 马思远 焦佳辉 +1 位作者 任晟岐 宋伟 《计算机工程与科学》 CSCD 北大核心 2023年第8期1354-1364,共11页
空气污染严重影响着人类的身体健康与社会的可持续发展,但传感器获取的多元变量空气质量数据往往存在缺失值,这为数据的分析与处理带来了困扰。目前,许多对某一种空气成分变化的分析方法只依赖于此属性的时间数据与空间数据,忽略了在相... 空气污染严重影响着人类的身体健康与社会的可持续发展,但传感器获取的多元变量空气质量数据往往存在缺失值,这为数据的分析与处理带来了困扰。目前,许多对某一种空气成分变化的分析方法只依赖于此属性的时间数据与空间数据,忽略了在相同时间区间内其他空气成分对此属性变化趋势的影响,且在离散型缺失数据的填充上难以达到理想的效果。提出了一种时间注意力深度学习模型(TAM)。该模型使用注意力机制来关注不同时间戳之间的相关性与不同特征时间序列之间的相关性,并结合短期历史数据来填充多元变量空气质量数据中的缺失读数。使用北京市的空气质量数据对所提出的模型进行评估,实验结果表明,相比较于其他10种基线模型,TAM具有一定优势。 展开更多
关键词 空气质量 缺失值填充 注意力机制 深度学习
下载PDF
基于潜在因子模型在子空间上的缺失值注意力聚类算法
20
作者 王啸飞 鲍胜利 陈炯环 《计算机应用》 CSCD 北大核心 2023年第12期3772-3778,共7页
针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题,提出一种基于潜在因子模型(LFM)在子空间上的缺失值注意力聚类算法。首先,通过LFM将原始数据空间映射到低维子空间,降低样本的稀疏程度;其... 针对传统聚类算法在对缺失样本进行数据填充过程中存在样本相似度难度量且填充数据质量差的问题,提出一种基于潜在因子模型(LFM)在子空间上的缺失值注意力聚类算法。首先,通过LFM将原始数据空间映射到低维子空间,降低样本的稀疏程度;其次,通过分解原空间得到的特征矩阵构建不同特征间的注意力权重图,优化子空间样本间的相似度计算方式,使样本相似度的计算更准确、泛化性更好;最后,为了降低样本相似度计算过程中过高的时间复杂度,设计一种多指针的注意力权重图进行优化。在4个按比例随机缺失的数据集上进行实验。在Hand-digits数据集上,相较于面向高维特征缺失数据的K近邻插补子空间聚类(KISC)算法,在数据缺失比例为10%的情况下,所提算法的聚类准确度(ACC)提高了2.33个百分点,归一化互信息(NMI)提高了2.77个百分点,在数据缺失比例为20%的情况下,所提算法的ACC提高了0.39个百分点,NMI提高了1.33个百分点,验证了所提算法的有效性。 展开更多
关键词 潜在因子模型 缺失值 注意力机制 聚类算法 子空间
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部