基于池的无监督线性回归主动学习被引量：7

Unsupervised Pool-Based Active Learning for Linear Regression

下载PDF

导出

摘要在许多现实的机器学习应用场景中,获取大量未标注的数据是很容易的,但标注过程需要花费大量的时间和经济成本.因此,在这种情况下,需要选择一些最有价值的样本进行标注,从而只利用较少的标注数据就能训练出较好的机器学习模型.目前,主动学习(Active learning)已广泛应用于解决这种场景下的问题.但是,大多数现有的主动学习方法都是基于有监督场景:能够从少量带标签的样本中训练初始模型,基于模型查询新的样本,然后迭代更新模型.无监督情况下的主动学习却很少有人考虑,即在不知道任何标签信息的情况下最佳地选择要标注的初始训练样本.这种场景下,主动学习问题变得更加困难,因为无法利用任何标签信息.针对这一场景,本文研究了基于池的无监督线性回归问题,提出了一种新的主动学习方法,该方法同时考虑了信息性、代表性和多样性这三个标准.本文在3个不同的线性回归模型(岭回归、LASSO(Least absolute shrinkage and selection operator)和线性支持向量回归)和来自不同应用领域的12个数据集上进行了广泛的实验,验证了其有效性. In many real-world machine learning applications,unlabeled data can be easily obtained,but it is very time-consuming and/or expensive to label them.So,it is desirable to be able to select the optimal samples to label,so that a good machine learning model can be trained from a minimum number of labeled data.Active learning(AL)has been widely used for this purpose.However,most existing AL approaches are supervised:they train an initial model from a small number of labeled samples,query new samples based on the model,and then update the model iteratively.Few of them have considered the completely unsupervised AL problem,i.e.,starting from zero,how to optimally select the very first few samples to label,without knowing any label information at all.This problem is very challenging,as no label information can be utilized.This paper studies unsupervised pool-based AL for linear regression problems.We propose a novel AL approach that considers simultaneously the informativeness,representativeness,and diversity,three essential criteria in AL.Extensive experiments on 12 datasets from various application domains,using three different linear regression models(ridge regression,LASSO(least absolute shrinkage and selection operator),and linear support vector regression),demonstrated the effectiveness of our proposed approach.

作者刘子昂蒋雪伍冬睿 LIU Zi-Ang;JIANG Xue;WU Dong-Rui(Ministry of Education Key Laboratory on Image Information Processing and Intelligent Control,School of Artificial Intelligence and Automation,Huazhong University of Science and Technology,Wuhan 430074)

机构地区华中科技大学人工智能与自动化学院图像信息处理与智能控制教育部重点实验室

出处《自动化学报》 EI CAS CSCD 北大核心 2021年第12期2771-2783,共13页 Acta Automatica Sinica

基金湖北省技术创新专项基金(2019AEA171) 国家自然科学基金(61873321) NSFC-深圳机器人基础研究中心重点项目基金(U1913207) 科技部政府间国际科技创新合作重点专项基金(2017YFE0128300)资助。

关键词主动学习无监督学习线性回归支持向量回归 LASSO 岭回归 Active learning(AL) unsupervised learning linear regression support vector regression least absolute shrinkage and selection operator(LASSO) ridge regression

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献51

1张峰,汤晓君,仝昂鑫,王斌,王经纬.一种基于频率与回归系数相结合的自举柔性收缩变量选择方法[J].仪器仪表学报,2020,41(1):64-70. 被引量：6
2H.Zhang1,2, S.Li3, X.H.Wang 4, Q.Li1,2, S.H.Wei3, L.Y.Gao4, W.P.Zhao1,2, Z.G.Hu1, R.S.Mao1, H.S.Xu1, H.Y.Cai 4, Y.Y.Yue3, G.Q.Xiao1 1Institute of Modern Physics, CAS, Lanzhou 730000, China 2 Key Laboratory of Heavy Ion Radiation Medicine of Gansu Province, Lanzhou 730000, China 3 The General Hospital of Lanzhou Command, Lanzhou 730050, China 4 Tumor Hospital of Gansu Province, Lanzhou 730050, China.Results of Carbon Ion Radiotherapy for Skin Carcinomas in 33 Patients[J].生物物理学报,2009,25(S1):415-416. 被引量：45
3唐金亚,黄敏,朱启兵.基于主动学习的玉米种子纯度检测模型更新[J].光谱学与光谱分析,2015,35(8):2136-2140. 被引量：8
4黄永毅,龚垒.基于主动学习的交互式支持向量机文本分类学习方法[J].电子技术与软件工程,2016(14):168-168. 被引量：2
5李南.基于聚类假设的数据流分类算法[J].模式识别与人工智能,2017,30(1):1-10. 被引量：11
6鄢悦,张红光,卢建刚,施英姿,陈金水.基于光谱信息散度的近红外光谱局部偏最小二乘建模方法[J].计算机与应用化学,2017,34(5):351-355. 被引量：9
7潘吴斌,程光,郭晓军,黄顺翔.基于信息熵的自适应网络流概念漂移分类方法[J].计算机学报,2017,40(7):1556-1571. 被引量：14
8崔帅,张骏,高隽.对数域中基于实例学习的光照估计[J].光学学报,2018,38(2):390-399. 被引量：4
9徐睿,梁循,齐金山,李志宇,张树森.极限学习机前沿进展与趋势[J].计算机学报,2019,42(7):1640-1670. 被引量：111
10代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀,王海舟,罗梁.基于层次聚类的子话题检测算法[J].华南理工大学学报（自然科学版）,2019,47(8):84-95. 被引量：11

引证文献7

1赵小康,赵鑫,朱启兵,黄敏.一种基于无监督主动学习的苹果品质光谱无损检测模型构建方法[J].光谱学与光谱分析,2022,42(1):282-291. 被引量：6
2刘瑾,赵晶,冯瑛敏,周超,姜美君,章辉.基于梯度提升决策树的电力物联网用电负荷预测[J].智慧电力,2022,50(8):46-53. 被引量：33
3石运来,崔运鹏,杜志钢.基于BERT和深度主动学习的农业新闻文本分类方法[J].农业图书情报学报,2022,34(8):19-29. 被引量：1
4尹春勇,陈双双.结合微聚类和主动学习的流分类方法[J].计算机工程与应用,2023,59(20):254-265.
5贺忠海,朱温涵,陈旭旺,张晓芳.基于自适应密度聚类的多准则主动学习方法[J].仪器仪表学报,2024,45(3):179-187.
6李艳红,任霖,王素格,李德玉.非平衡数据流在线主动学习方法[J].自动化学报,2024,50(7):1389-1401.
7张书瑶,刘长良,王梓齐,刘帅,刘卫亮.基于改进实例学习算法的风电机组齿轮箱状态监测[J].动力工程学报,2024,44(10):1620-1631.

二级引证文献40

1李冰箫,张世伟,黄飞虎.基于LSTM和自注意力机制的电力负荷预测[J].中国测试,2022,48(S02):38-43. 被引量：2
2王以环.建筑设备维修再制造无损检测技术研究[J].工程机械与维修,2022(4):30-32. 被引量：1
3张志业,葛志强,赵小娟,林永江.基于梯度提升决策树的气体传感阵列识别方法[J].电子设计工程,2022,30(18):142-145.
4师亮,温亮明,雷声,黎建辉.基于决策树和由均匀分布改进Q学习的虚拟机整合算法[J].计算机科学,2023,50(6):36-44. 被引量：4
5俞胜,黄福兴,冯艳丽,叶天地,袁培森.新型电力AMI系统中基于Neural Prophet模型的电力负荷预测与修补研究[J].智慧电力,2023,51(5):44-50. 被引量：8
6孙海霞,王润润,张淑娟,任锐,苏立阳,卢心缘.基于可见/近红外光谱技术的玉露香梨可溶性固形物含量检测[J].农产品加工,2023(14):46-48. 被引量：4
7龚泽威一,饶桐,王钢,李钊,骆钊,朱家祥,彭晶,于虹,曹占国.基于改进粒子群优化XGBoost的变压器故障诊断方法[J].高压电器,2023,59(8):61-69. 被引量：16
8林涵,郝正航,郭家鹏,吴育栋.基于TCA-CNN-LSTM的短期负荷预测研究[J].电测与仪表,2023,60(8):73-80. 被引量：7
9李媛.面向智能电网监测的分布式数据流处理[J].电测与仪表,2023,60(8):121-124. 被引量：1
10吴德刚,赵利平,陈乾辉.基于近红外光谱的大枣成熟度无损检测方法[J].激光杂志,2023,44(7):212-217. 被引量：1

自动化学报

2021年第12期

浏览历史

内容加载中请稍等...

基于池的无监督线性回归主动学习被引量：7

同被引文献51

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于池的无监督线性回归主动学习 被引量：7

同被引文献51

引证文献7

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于池的无监督线性回归主动学习被引量：7