基于迁移学习的非结构化大数据缺失值插补算法

Missing Value Interpolation Algorithm of Unstructured Big Data Based on Transfer Learning

下载PDF

导出

摘要针对数字信息产生的海量、多角度的非结构化大数据,由于外界干扰、数据结构损坏等因素造成其信息丢失问题,提出了基于迁移学习的非结构化大数据缺失值插补算法。通过迁移学习算法,预测非结构化大数据缺失部位,利用朴素贝叶斯算法分类数据特征,度量属性间权重值,明确数据类别特征差异向量,辨别特征差异程度。采用核回归模型对数据缺失部分实施非线性映射,经过多项式变化编码,描述数据的跨空间互补条件,完成非结构化大数据缺失值插补。实验结果表明,所提算法可以有效完成非结构化大数据缺失值插补,具有较好的插补效果,能提高插补精度。 Due to the complexity of digital information,massive and multi-angle unstructured big data,and external interference,data structure damage and other factors cause its information loss,a missing value interpolation algorithm for unstructured big data based on transfer learning is proposed.Through the migration learning algorithm,the missing parts of unstructured big data are predicted,and the naive Bayesian algorithm is used to classify data features,to measure the weight value between attributes,to clarify the feature difference vector of data categories,and to identify the degree of feature difference.The kernel regression model is used to implement nonlinear mapping for the missing part of the data,and the polynomial change coding is used to describe the cross-space complementary condition of the data,completing the interpolation of the missing value of unstructured big data.The experimental results show that the proposed algorithm can effectively complete the interpolation of missing values of unstructured large data,has good interpolation effect and can improve the interpolation accuracy.

作者颜远海杨莉云 YAN Yuanhai;YANG Liyun(College of Data Science,Guangzhou Huashang College,Zengcheng 511300,China)

机构地区广州华商学院数据科学学院

出处《吉林大学学报（信息科学版）》 CAS 2024年第2期372-377,共6页 Journal of Jilin University（Information Science Edition）

基金创新强校工程基金资助项目(2017KQNCX266)。

关键词迁移学习非结构化大数据缺失值插补缺失值预测核回归函数 transfer learning unstructured big data imputation of missing values missing value prediction kernel regression function

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1雷明阳,陈静杰,欧晓勇,裴瑛慧.基于张量分解的智能电表电压数据缺失填补算法[J].电网与清洁能源,2021,37(12):8-15. 被引量：10
2郭毅博,牛猛,王海迪,陈艳华,薛均晓,袁玥,侯立硕,徐明亮,潘俊.基于生成对抗网络的飞机燃油数据缺失值填充方法[J].浙江大学学报（理学版）,2021,48(4):402-409. 被引量：11
3刘云,郑文凤,张轶.对称加权算法对数据矩阵补全的优化研究[J].四川大学学报（自然科学版）,2021,58(4):73-80. 被引量：1
4李培冠,於志勇,黄昉菀.基于稀疏表示的电力负荷数据补全[J].计算机科学,2021,48(2):128-133. 被引量：6
5陈传毅,戴卫军.基于贝叶斯网的高维数据隐藏模式挖掘[J].计算机仿真,2021,38(1):287-290. 被引量：1
6谢佳鑫,俞卫琴.张量加权Schatten范数交通数据补全估计[J].公路交通科技,2021,38(12):122-130. 被引量：3
7冯磊,王石刚,梁庆华.基于GAKNN方法的配电站时间序列缺失数据补全方法[J].电力自动化设备,2021,41(12):187-192. 被引量：7
8崔阳阳,赵洪山,曲岳晗,宋玮,蒲靓,米增强.基于残差U型网络的低压台区电力缺失数据补全方法[J].电力系统自动化,2022,46(9):83-90. 被引量：7
9方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2):87-92. 被引量：32
10邱德俊,周洋,仲静文,贾玉豪.基于空间邻近点与极限学习机的大坝位移缺失数据补齐[J].水力发电,2021,47(12):98-101. 被引量：12

二级参考文献90

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：18
2钟小强,陈杰,蒋敏敏,郑晓晖.基于深度学习的台区线损分析方法[J].电网技术,2020,44(2):769-774. 被引量：50
3李双平,张斌.基于小波与谱分析的大坝变形预报模型[J].岩土工程学报,2015,37(2):374-378. 被引量：13
4韩卫国,王劲峰,胡建军.交通流量数据缺失值的插补方法[J].交通与计算机,2005,23(1):39-42. 被引量：24
5杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
6陈泽淮,张尧,武志刚.RBF神经网络在中长期负荷预测中的应用[J].电力系统及其自动化学报,2006,18(1):15-19. 被引量：46
7张其文,李明.一种缺失数据的填补方法[J].兰州理工大学学报,2006,32(2):102-104. 被引量：7
8Baraldi A.N. Enders C. K. An introduction to modern missing data analyses[J]. Journal of School Psychology. 2010(48 ) :5 - 37.
9Angiulli F. lanni G. Palopoli L. On the complexity of inducing categorical and quantitative association rules [J]. Theoretical Computer Science. 2004(314) :217 - 249.
10Huang,C. C. , A Case - Based Reasoning Model for Supporting Feature Weight and Missing Value Completion [ J ], Industrial and Information Management, NCKU. 2005.

共引文献82

1李富盛,陈伟松,钱斌,郭斌,肖勇,周密,罗奕.面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J].中国电机工程学报,2022,42(S01):95-105. 被引量：6
2"基于家庭收入的保障性住房标准研究"课题组,朱建平,王婷婷,刘晶.基于家庭收入的保障性住房标准研究[J].统计研究,2011,28(10):22-27. 被引量：7
3杨贵军,蔡娟,赵晓云.高相关性辅助变量择优回归插补法[J].统计与信息论坛,2012,27(6):8-13. 被引量：6
4李莹,王仲君,赵华玲.基于贝叶斯推断的HIV非线性混合效应联合模型研究[J].统计研究,2012,29(7):86-90. 被引量：2
5高峰,迟春梅.决策表中属性的重排[J].山东大学学报（工学版）,2013,43(5):6-12.
6李杰,张晓玲.随机试验设计中缺失值插补方法研究[J].大理学院学报（综合版）,2013,12(10):1-5. 被引量：3
7景亚萍,邵培基,李成刚.基于EM-NB算法的网络调查缺失数据处理方法[J].技术经济,2014,33(6):72-76. 被引量：1
8江楠,徐秦.数据流聚类算法在数据处理中的应用[J].电子科技,2015,28(1):155-157. 被引量：2
9罗来鹏.基于关联模式的电信客户致电实证分析[J].中原工学院学报,2014,25(6):85-88.
10王洪峰,陈立勇.云计算环境下基于张量分解的缺失关联规则挖掘算法[J].重庆邮电大学学报（自然科学版）,2015,27(3):397-403. 被引量：5

1李志伟,苏宇,张舜,王青春.基于卷积神经网络的轮胎花纹噪声值预测[J].轮胎工业,2023,43(12):756-761.
2许思楠,张济明,戴一鸣,王铮,张磊,郭剑秋,齐小娟,常秀丽,卢大胜,邬春华,周志俊.10岁学龄儿童尿中对羟基苯甲酸酯浓度与肥胖的关系[J].环境与职业医学,2023,40(7):782-787.
3谢昭颖,沈润平,黄安奇,邢雅洁,王云宇,刘晓利.基于改进S-G滤波和非监督分类局部核回归的中国LAI时序数据融合研究[J].地球信息科学学报,2023,25(11):2249-2267. 被引量：1
4刘晓燕,翟建国.空间自回归模型下不完整大数据缺失值插补算法[J].吉林大学学报（信息科学版）,2024,42(2):312-317.
5阮呈隆,李康平,李正辉,黄淳驿.分布式光伏集群功率短期预测的空间互补特性初探[J].电力系统自动化,2024,48(3):42-50.
6张浩海,王昊,丁耀杰.基于DA多重插补法和电力物联网的电能数据缺失修复方法[J].电子设计工程,2024,32(8):101-105.
7田野,王大鹏,刘荣权,钟佳晨.基于内核时变回归模型的电能预测分析与研究[J].现代电子技术,2023,46(24):109-114.
8张琦,潘可,朱凯.基于基因优先级排序的活跃模块识别方法[J].计算机科学,2023,50(S02):142-149.
9钟惠珍.大学生学习意义感的类别特征及与学业成绩的关系:基于潜在剖面分析[J].中国成人教育,2024(4):22-28.
10张晓鹏,秦亮曦.一种不平衡数据多策略处理及组合分类算法[J].计算机应用与软件,2024,41(4):242-250.

吉林大学学报（信息科学版）

2024年第2期

浏览历史

内容加载中请稍等...

基于迁移学习的非结构化大数据缺失值插补算法

参考文献12

二级参考文献90

共引文献82

相关作者

相关机构

相关主题

浏览历史