Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove O...Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove Only剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定Remove Only触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.展开更多
提出了一种高光谱遥感图像半监督分类算法DE-self-training。利用少量标记样本作为初始训练集,基于改进的Self-training算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类别标记一起加入...提出了一种高光谱遥感图像半监督分类算法DE-self-training。利用少量标记样本作为初始训练集,基于改进的Self-training算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类别标记一起加入训练集中,再用扩大的训练集重新训练分类器,并对剩余的未标记样本进行预测。如此迭代地进行训练-预测-挑选样本扩大训练集过程。同时,在迭代训练过程中,运用基于最近邻域规则的数据剪辑策略对扩大训练集时产生的误标记样本进行过滤,以保证训练集的质量,不断迭代地训练出更精确的分类器,最终使所有未标记样本都获得类别标记。以AVIRIS Indian Pines和Hyperion EO-1 Botswana作为实验数据对DE-self-training算法进行测试,并与基于支持向量机的分类结果作比对。实验表明,DE-self-training算法可以在标记样本数量有限条件下,充分挖掘未标记样本的有用信息,使总体分类精度和Kappa系数都有不同程度的提高。展开更多
基金Supported by the National Natural Science Foundation of China under Grant Nos.60702033 60772076 (国家自然科学基金)+3 种基金the National High-Tech Research and Development Plan of China under Grant No.2007AA01Z171 (国家高技术研究发展计划(863)the Science Fund for Distinguished Young Scholars of Heilongjiang Province of China under Grant No.JC200611 (黑龙江省杰出青年科学基金)the Natural Science Foundation of Heilongjiang Province of China under Grant No.ZJG0705 (黑龙江省自然科学重点基金)the Foundation of Harbin Institute of Technology of China under Grant No.HIT.2003.53 (哈尔滨工业大学校基金)
文摘Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用Remove Only剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定Remove Only触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.
文摘提出了一种高光谱遥感图像半监督分类算法DE-self-training。利用少量标记样本作为初始训练集,基于改进的Self-training算法构建初始分类器,对未标记样本进行预测;然后从分类结果中按一定比例随机选取部分样本,连同其类别标记一起加入训练集中,再用扩大的训练集重新训练分类器,并对剩余的未标记样本进行预测。如此迭代地进行训练-预测-挑选样本扩大训练集过程。同时,在迭代训练过程中,运用基于最近邻域规则的数据剪辑策略对扩大训练集时产生的误标记样本进行过滤,以保证训练集的质量,不断迭代地训练出更精确的分类器,最终使所有未标记样本都获得类别标记。以AVIRIS Indian Pines和Hyperion EO-1 Botswana作为实验数据对DE-self-training算法进行测试,并与基于支持向量机的分类结果作比对。实验表明,DE-self-training算法可以在标记样本数量有限条件下,充分挖掘未标记样本的有用信息,使总体分类精度和Kappa系数都有不同程度的提高。