基于信息熵抽样估计的统计学习查询策略

Active Learning through Sampling Estimation of Expected Error Reduction Based on Information Entropy

下载PDF

导出

摘要主动学习查询策略有助于从未标注数据中选择能够提高分类模型性能指标的样例,减少人工标注陈本,基于期望损失最小化的主动学习查询策略有助于选择未标注实例,然而该策略存在计算复杂度高,随机采样性能不稳定等问题,因此,从信息熵具有较强衡量未标注样本的信息量出发,提出基于信息熵抽样估计的统计学习查询策略,该策略使用已标注样例得到的训练模型对未标注实例池中每个样例计算信息熵,选择若干不确定度最高样例并计算相应数据分布的期望经验风险,选择使期望经验风险最小的样例进行标注.在公开的UCI机器学习数据集(包括tic-tac-toe、transfusion、kr-vs-kp、diagnosis、breast-cancer等)上针对不同标注比例(比如20%、40%、60%、80%、100%),以及不同的分类器(比如随机森林、逻辑斯蒂回归等)进行实证研究表明,相对于随机采样策略,该策略计算复杂度从O(N2)降低为O(Q×N),ACCURACY指标在最好情况下最高提升6%. The active learning query strategy is helpful to select examples from the unlabeled dataset that can improve the performance of the classification model,and reduce manual labeling cost. The active learning query strategy based on the minimization of expected loss was helpful to select unlabeled instances. However,this strategy had high computational complexity and unstable sampling performance. Therefore,query strategy based on statistical learning from information entropy sampling estimation was proposed because of information entropy with strong measure for unlabeled instances. The strategy used the training model obtained by the labeled example to calculate the information entropy for each instance in the unlabeled instance pool,the instances with highest degree of uncertainty were selected and the expected empirical risk of the corresponding data distribution was calculated. The corresponding instance was selected rending the lowest expected empirical risk. Empirical research on different percentage of queried instances(such as 20%、40%、60%、80%、100%)and different classifiers(including random forest、logistic classifier)was conducted on the public UCI machine learning datasets(including tic-tac-toe、transfusion、kr-vs-kp、diagnosis、breast-cancer). Empirical result shows that this strategy can effectively reduce the computational complexity from O(N2)to O(Q × N)compared to the random sampling strategy. The ACCURACY performance is the promoted by 6% in best case.

作者曲豫宾陈翔 QU Yu-bin;CHEN Xiang(Jiangsu College of Engineering and Technology,Nantong 226007,China;Department of Information Science and Technology,Nantong University,Nantong 226019,China)

机构地区江苏工程职业技术学院南通大学

出处《通化师范学院学报》 2019年第12期66-72,共7页 Journal of Tonghua Normal University

基金南通市市级科技项目(JC2018134)

关键词信息熵主动学习统计学习 information entropy active learning statistical learning

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1季彦东,李龙.机器学习算法在智慧农业中应用的进展[J].通化师范学院学报,2019,40(6):73-77. 被引量：4

二级参考文献18

1尹小君,张清,赵庆展,汪传建,宁川.基于SVM的加工番茄细菌性斑点病氮素含量反演[J].遥感技术与应用,2015,30(3):461-468. 被引量：2
2石晶晶,刘占宇,张莉丽,周湾,黄敬峰.基于支持向量机(SVM)的稻纵卷叶螟危害水稻高光谱遥感识别[J].中国水稻科学,2009,23(3):331-334. 被引量：28
3贺艳辉,袁永明,张红燕,龚贇翀,王红卫.BP人工神经网络在罗非鱼价格预测中的应用[J].安徽农业科学,2010,38(35):20443-20445. 被引量：14
4罗长寿.基于神经网络与遗传算法的蔬菜市场价格预测方法研究[J].科技通报,2011,27(6):881-885. 被引量：20
5向昌盛.最小二乘支持向量机在害虫预测中的应用[J].湖南科技大学学报（自然科学版）,2012,27(2):111-116. 被引量：4
6林川,宫兆宁,赵文吉,樊磊.基于光谱特征变量的湿地典型植物生态类型识别方法--以北京野鸭湖湿地为例[J].生态学报,2013,33(4):1172-1185. 被引量：31
7岳之峣,周文俊,侯云先.基于支持向量机的鸡蛋供应链中价格预警研究[J].物流工程与管理,2013,35(2):74-76. 被引量：9
8石波,张冬青,马开平,刘欢.改进RBF神经网络在我国大豆价格预测中的应用研究[J].大豆科学,2016,35(2):310-314. 被引量：9
9何隽.图像裁剪技术在机器视觉系统中的应用[J].通化师范学院学报,2016,37(12):4-6. 被引量：1
10王雪丽,宋启祥.基于BP神经网络的文本分类算法研究与设计[J].通化师范学院学报,2018,39(2):70-73. 被引量：5

共引文献3

1刘志军.机器学习算法在智慧农业中应用的进展[J].计算机产品与流通,2020,0(4):119-120. 被引量：2
2练云翔,刘伟,谢艳梅,陈文雪.基于物联网和机器学习的赣州智慧农业监控系统设计[J].电脑编程技巧与维护,2019,0(12):45-47. 被引量：8
3唐子竣,向友珍,王辛,安嘉琪,郭金金,王晗,李志军,张富仓.基于不同分析模型的大豆叶片SPAD值和LAI光谱估算比较[J].大豆科学,2023,42(1):55-63. 被引量：4

1金国锋.问题引领，让学生学会深度思考[J].小学时代,2019,0(20):45-46.
2蒋秋香.中职语文教学渗透策略的运用[J].科教文汇,2019,0(31):123-124. 被引量：1
3赵章明,冯径,施恩,舒晓村.带启发信息的蚁群神经网络训练算法[J].计算机科学,2017,44(11):284-288. 被引量：6
4Jeff Prosise,班迪.用Visual C++建立应用程序(五)[J].个人电脑,1997,3(10):189-190.
5Carlos A Castaneda,Elizabeth Mittendorf,Sandro Casavilca,Yun Wu,Miluska Castillo,Patricia Arboleda,Teresa Nunez,Henry Guerra,Carlos Barrionuevo,Ketty Dolores-Cerna,Carolina Belmar-Lopez,Julio Abugattas,Gabriela Calderon,Miguel De La Cruz,Manuel Cotrina,Jorge Dunstan,Henry L Gomez,Tatiana Vidaurre.Tumor infiltrating lymphocytes in triple negative breast cancer receiving neoadjuvant chemotherapy[J].World Journal of Clinical Oncology,2016,7(5):387-394. 被引量：6
6Marius Nagy,Naya Nagy.Quantum Tic-Tac-Toe: A Genuine Probabilistic Approach[J].Applied Mathematics,2012,3(11):1779-1786.
7潘剑飞,曹燕,董一鸿,陈华辉,钱江波.基于Attention深度随机森林的社区演化事件预测[J].电子学报,2019,47(10):2050-2060. 被引量：5
8李昆,朱卫纲.基于机器学习的雷达辐射源识别综述[J].电子测量技术,2019,42(18):69-75. 被引量：8
9王子康,李玲,杜金啸.醉驾型危险驾驶罪之缓刑适用探究[J].海外文摘,2019(19):32-33.
10Claudia Gómez Tutor,Stefen Müller,陈颖(翻译).基于学习负荷调查之教与学的探讨[J].应用型高等教育研究,2019,4(3):35-41. 被引量：2

通化师范学院学报

2019年第12期

浏览历史

内容加载中请稍等...

基于信息熵抽样估计的统计学习查询策略

参考文献1

二级参考文献18

共引文献3

相关作者

相关机构

相关主题

浏览历史