研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数...研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。展开更多
滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受...滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。展开更多
基金The National Natural Science Foundation of China under Grant No.60873196the Fundamental Research Funds for the Central Universities under Grant No.QN2009092~~
文摘研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。
文摘滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。