针对水声目标信号复杂、样本获取难度大且富含不确定信息的问题,研究了一种新的证据K类近邻识别算法(Evidence K Nearest Neighbor,EK-NN)。首先在水声目标的各类训练样本中,根据特征距离大小选取待识别目标的K近邻,并构造其基本置信指...针对水声目标信号复杂、样本获取难度大且富含不确定信息的问题,研究了一种新的证据K类近邻识别算法(Evidence K Nearest Neighbor,EK-NN)。首先在水声目标的各类训练样本中,根据特征距离大小选取待识别目标的K近邻,并构造其基本置信指派函数。然后使用证据理论中的Dempster-Shafer(D-S)规则对各类别下的近邻证据进行组合,最后再应用冲突置信的比例分配规则5(Redistribute Conflicting mass proportionally rule5,PCR5)将所有类别的组合证据进行融合,并根据融合结果和所设立的分类规则来判断目标的类别属性。根据水声目标实测数据,将新算法与其他几种常见的水声目标识别算法进行了对比分析,结果表明新算法能有效提高识别的准确率。展开更多
针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的...针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的数据集按照完整性的大小依次找到它们在完备数据集中相应的k个近邻,根据误差平方和最小的原则,求出k个近邻相应的权值,用k个近邻及相应的权值重构出缺失的数据点。将该算法应用在不同缺失率下的两种化工过程数据中并与望最大化主成分分析(EM-PCA)法和平均值(MA)两种传统的数据恢复算法相比较,该算法的恢复数据误差最小,并且计算速度相比EM-PCA算法平均提高了2倍。实验结果表明,局部加权重构的化工过程数据恢复算法可以有效地对数据进行恢复,提高了数据的利用率,适用于非线性化工过程缺失数据的恢复。展开更多
This paper focuses on improving decision tree induction algorithms when a kind of tie appears during the rule generation procedure for specific training datasets. The tie occurs when there are equal proportions of the...This paper focuses on improving decision tree induction algorithms when a kind of tie appears during the rule generation procedure for specific training datasets. The tie occurs when there are equal proportions of the target class outcome in the leaf node's records that leads to a situation where majority voting cannot be applied. To solve the above mentioned exception, we propose to base the prediction of the result on the naive Bayes (NB) estimate, k-nearest neighbour (k-NN) and association rule mining (ARM). The other features used for splitting the parent nodes are also taken into consideration.展开更多
文摘针对水声目标信号复杂、样本获取难度大且富含不确定信息的问题,研究了一种新的证据K类近邻识别算法(Evidence K Nearest Neighbor,EK-NN)。首先在水声目标的各类训练样本中,根据特征距离大小选取待识别目标的K近邻,并构造其基本置信指派函数。然后使用证据理论中的Dempster-Shafer(D-S)规则对各类别下的近邻证据进行组合,最后再应用冲突置信的比例分配规则5(Redistribute Conflicting mass proportionally rule5,PCR5)将所有类别的组合证据进行融合,并根据融合结果和所设立的分类规则来判断目标的类别属性。根据水声目标实测数据,将新算法与其他几种常见的水声目标识别算法进行了对比分析,结果表明新算法能有效提高识别的准确率。
文摘针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的数据集按照完整性的大小依次找到它们在完备数据集中相应的k个近邻,根据误差平方和最小的原则,求出k个近邻相应的权值,用k个近邻及相应的权值重构出缺失的数据点。将该算法应用在不同缺失率下的两种化工过程数据中并与望最大化主成分分析(EM-PCA)法和平均值(MA)两种传统的数据恢复算法相比较,该算法的恢复数据误差最小,并且计算速度相比EM-PCA算法平均提高了2倍。实验结果表明,局部加权重构的化工过程数据恢复算法可以有效地对数据进行恢复,提高了数据的利用率,适用于非线性化工过程缺失数据的恢复。
文摘This paper focuses on improving decision tree induction algorithms when a kind of tie appears during the rule generation procedure for specific training datasets. The tie occurs when there are equal proportions of the target class outcome in the leaf node's records that leads to a situation where majority voting cannot be applied. To solve the above mentioned exception, we propose to base the prediction of the result on the naive Bayes (NB) estimate, k-nearest neighbour (k-NN) and association rule mining (ARM). The other features used for splitting the parent nodes are also taken into consideration.