主动学习是机器学习领域的重要研究方向。现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进。结合邻域粗糙集理论...主动学习是机器学习领域的重要研究方向。现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进。结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learning,NRS-AL)。实验结果表明,在加州大学数据集(university of California Irvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法。展开更多
文摘主动学习是机器学习领域的重要研究方向。现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进。结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learning,NRS-AL)。实验结果表明,在加州大学数据集(university of California Irvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法。