期刊文献+

优化AUC两遍学习算法

Two-pass AUC optimization
下载PDF
导出
摘要 ROC曲线下的面积(简称AUC)是机器学习中一种重要的性能评价准则,广泛应用于类别不平衡学习、代价敏感学习、排序学习等诸多学习任务。由于AUC定义于正负样本之间,传统方法需存储整个数据而不能适用于大数据。为解决大规模问题,前人已提出优化AUC的单遍学习算法,该算法仅需遍历数据一次,通过存储一阶与二阶统计量来进行优化AUC学习。然而在实际应用中,处理二阶统计量依然需要很高的存储与计算开销。为此,本文提出了一种新的优化AUC两遍学习算法TPAUC(two-pass AUC optimization)。该算法的基本思想是遍历数据两遍,第一遍扫描数据获得正、负样本的均值,第二遍采用随机梯度下降方法优化AUC。算法的优点在于通过遍历数据两遍来避免存储和计算二阶统计量,从而提高算法的效率,最后本文通过实验说明方法的有效性。 The area under an ROC curve(AUC)has been an important performance index for class-imbalanced learning,cost-sensitive learning,learning to rank,etc.Traditional AUC optimization requires the entire dataset to be stored because AUC is defined as pairs of positive and negative instances.To solve this problem,the one-pass AUC(OPAUC)algorithm was introduced previously to scan the data only once and store the first-and second-order statistics.However,in many real applications,the second-order statistics require high storage and are computationally costly,especially for high-dimensional datasets.We introduce the two-pass AUC(TPAUC)optimization to calculate the mean of positive and negative instances in the first pass and then use the stochastic gradient descent method in the second pass.The new algorithm requires the storage of the first-order statistics but not the second-order statistics;hence,the efficiency is improved.Finally,experiments are used to verify the effectiveness of the proposed algorithm.
作者 栾寻 高尉 LUAN Xun;GAO Wei(National Key Laboratory for Novel Software Technology,Nanjing University,Nanjing 210023,China)
出处 《智能系统学报》 CSCD 北大核心 2018年第3期395-398,共4页 CAAI Transactions on Intelligent Systems
基金 国家自然科学基金青年科学基金项目(61503179) 江苏省青年基金项目(BK20150586)
关键词 机器学习 AUC ROC 单遍学习 在线学习 排序 随机梯度下降 统计量 machine learning AUC ROC one-pass learning online learning ranking stochastic gradient descent statistics
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部