摘要
对云计算下多维数据缺失特征填补,可提高数据利用率。当前通过近邻规则对高维数据缺失进行填补时,利用关联规则实现数据项的分类完成缺失数据填补,并没有对数据进行去噪,缺失数据填补的精度低,且填补过程复杂。提出一种基于信息熵的多维数据缺失特征填补方法。对多维数据中特征信息比较丰富的区域进行确定,计算双边滤波函数空间域及频率域的权重;并把标准差代入双边滤波因子计算中,获得双边滤波因子值,同时法向移动多维数据中特征比较丰富的区域内数据点,获得去噪之后的数据,以达到降噪目的;利用信息熵法与评估指标间相关性研究结合,得到加权广义的信息熵,对数据相关性的权重系数进行计算,并用计算中的微小区间替换缺失数据;设置搜索数据特征相关性的步长,利用加权的广义信息熵第一次为全局最小值时的信息熵,小于等于初始集合中信息熵这一特征,确定缺失数据区间,实现简便高精度缺失数据的填补。仿真结果表明,该方法可实现高精度,低复杂度的缺失数据填补。
This article proposes a padding method for missing feature during data transmission based on informa- tion entropy. The space domain of bilateral filtering function and weight of frequency domain are calculated, and standard deviation is substituted into calculation of bilateral filtering factor, then the factor value is acquired. The weighting generalized information entropy is used to calculate weight coefficient of data dependency, and minute inter- val during the calculation is used to replace missing data. The generalized information entropy is used as information entropy of global minimum firstly. Thus, the padding of missing data with high precision is achieved. Simulation re- suits show that the method can achieve high precise padding and improves integrity degree of data transmission.
出处
《计算机仿真》
北大核心
2018年第2期262-265,共4页
Computer Simulation
关键词
多维数据
缺失
填补
Cloud computing
Data transmission
Missing feature
Padding method