基于注意力机制和微分跟踪器的宽度学习系统

Broad learning system based on attention mechanism and tracking differentiator

下载PDF

导出

摘要宽度学习系统(broad learning system,BLS)具有模型结构简单、训练效率高、易于解释等优势,但存在特征学习能力不足以及泛化性能不稳定的缺点.为缓解此问题,提出一种基于自注意力机制和微分跟踪器(tracking differentiator,TD)的宽度学习系统,记为A-TD-BLS.在模型结构上,A-TD-BLS在原始BLS模型的基础上引入了自注意力机制,通过注意力加权的方式对提取到的特征进行进一步的融合与变换,以提高原始BLS的特征学习能力.在训练算法上,提出一种基于TD的权重优化算法,通过限制权重值的大小有效地缓解了原始BLS模型的过拟合现象,显著降低了模型中隐藏层节点数量对模型性能的影响,使得模型泛化性能更加稳定.将该训练算法扩展到BLS模型的增量学习框架中,使得改进模型可以通过动态增加隐藏层节点的方式提升性能.在基准数据集上对A-TD-BLS进行多项试验,结果显示,相比原始BLS模型,在分类数据集上A-TD-BLS模型的分类准确率平均提升了1.27%,在回归数据集上A-TD-BLS模型的均方根误差平均降低了0.53,并且A-TD-BLS模型的泛化性能受隐藏层节点数量影响更小.A-TD-BLS模型提升了原始BLS模型泛化性能的稳定性,降低了模型性能对超参数的敏感程度,能够有效抑制过拟合现象. Broad learning system(BLS)has advantages such as a simple model structure,high training efficiency,and easy interpretability.However,it also has drawbacks such as insufficient feature learning capability and unstable generalization performance.To alleviate these problems,broad learning system based on attention mechanism and tracking differentiator(TD),abbreviated as A-TD-BLS,was proposed.In terms of model structure,ATD-BLS introduced self-attention mechanism to the original BLS,and further fused and transformed the extracted features through attention weighting to improve the feature learning ability.In terms of model training methods,a weight optimization algorithm based on tracking differentiator was designed.This method effectively alleviates the overfitting phenomenon of the original BLS by limiting the size of the weight values,significantly reduces the influence of the number of hidden layer nodes on model performance and makes the generalization performance more stable.Moreover,the training algorithm was extended to the BLS incremental learning framework,so that the model can improve performance by dynamically adding hidden layer nodes.Multiple experiments conducted on some benchmark datasets show that compared to the original BLS,the classification accuracy of A-TD-BLS is increased by 1.27%on average on classification datasets and the root mean square error of A-TD-BLS is reduced by 0.53 on average on regression datasets.Besides,A-TD-BLS is less affected by the number of hidden layer nodes and has more stable generalization performance.Based on the above experimental results,it can be concluded that A-TD-BLS enhances the stability of generalization performance of the original BLS model,reduces the sensitivity of the model's generalization performance to hyperparameters,and effectively suppresses the phenomenon of overfitting.

作者廖律超邹伟东杨佳龙卢辉煌夏元清高建磊 LIAO Lüchao;ZOU Weidong;YANG Jialong;LU Huihuang;XIA Yuanqing;GAO Jianlei(Fujian Provincial Universities Key Laboratory of Industrial Control and Data Analysis,Fujian University of Technology,Fuzhou 350118,Fujian Province,P.R.China;School of Automation,Beijing Institute of Technology,Beijing 100081,P.R.China;Institute of Guarantee Technology,National Industrial Information Security Development Research Center,Beijing 100040,P.R.China)

机构地区福建理工大学工业控制和数据分析福建省高校重点实验室北京理工大学自动化学院国家工业信息安全发展研究中心保障技术所

出处《深圳大学学报（理工版）》 CAS CSCD 北大核心 2024年第5期583-593,共11页 Journal of Shenzhen University(Science and Engineering)

基金国家自然科学基金资助项目(62376059) 福建省高校重点实验室开放基金资助项目(KF-18-23004)。

关键词人工智能宽度学习自注意力机制微分跟踪器特征提取增量学习 artificial intelligence broad learning system self-attention mechanism tracking differentiator feature extraction incremental learning

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1任长娥,袁超,孙彦丽,刘竹琳,陈俊龙.宽度学习系统研究进展[J].计算机应用研究,2021,38(8):2258-2267. 被引量：14
2Manar Ahmed Hamza,Siwar Ben Haj Hassine,Ibrahim Abunadi,Fahd N.Al-Wesabi,Hadeel Alsolai,Anwer Mustafa Hilal,Ishfaq Yaseen,Abdelwahed Motwakel.Feature Selection with Optimal Stacked Sparse Autoencoder for Data Mining[J].Computers, Materials & Continua,2022(8):2581-2596. 被引量：4
3任欢,王旭光.注意力机制综述[J].计算机应用,2021,41(S01):1-6. 被引量：126

二级参考文献31

1张妮,徐文尚,王文文.人工智能技术发展及应用研究综述[J].煤矿机械,2009,30(2):4-7. 被引量：88
2孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：633
3刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：293
4Junwei JIN,Zhulin LIU,C.L.Philip CHEN.Discriminative graph regularized broad learning system for image recognition[J].Science China(Information Sciences),2018,61(11):175-188. 被引量：13
5刘海龙,李宝安,吕学强,黄跃.基于深度卷积神经网络的图像检索算法研究[J].计算机应用研究,2017,34(12):3816-3819. 被引量：51
6王鑫,吴际,刘超,杨海燕,杜艳丽,牛文生.基于LSTM循环神经网络的故障时间序列预测[J].北京航空航天大学学报,2018,44(4):772-784. 被引量：349
7袁利平,陈川南.人工智能视域下的宽度学习及在教育中的应用[J].远程教育杂志,2018,36(4):49-56. 被引量：18
8贺浩,王仕成,杨东方,王舒洋,刘星.基于Encoder-Decoder网络的遥感影像道路提取方法[J].测绘学报,2019,48(3):330-338. 被引量：51
9王红,史金钏,张志伟.基于注意力机制的LSTM的语义关系抽取[J].计算机应用研究,2018,35(5):1417-1420. 被引量：65
10杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：418

共引文献140

1张宸嘉,朱磊,陈璞,俞璐.基于注意力机制的通信辐射源个体识别方法[J].通信技术,2021,54(7):1594-1600. 被引量：1
2张宸嘉,朱磊,俞璐.卷积神经网络中的注意力机制综述[J].计算机工程与应用,2021,57(20):64-72. 被引量：116
3耿浩,孙佳华,李艺,魏永长.基于BiGRU-Attention网络的新型冠状病毒肺炎疫情预测[J].武汉科技大学学报,2022,45(1):75-80. 被引量：7
4张万玉,肖锋,张文娟,邹品荣,王晨阳.基于池化的双维度视觉注意力模型[J].西安工业大学学报,2021,41(6):673-683. 被引量：1
5王曦廷,卢涛.中医药认知计算:概念、框架与路径[J].中华中医药杂志,2022,37(1):35-40. 被引量：6
6刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：70
7王欣,孟天宇,周俊曦.基于注意力与LSTM的航空发动机剩余寿命预测[J].科学技术与工程,2022,22(7):2784-2792. 被引量：19
8俞海亮,彭冬亮,谷雨.结合双层多头自注意力和BiLSTM-CRF的军事武器实体识别[J].无线电工程,2022,52(5):775-782. 被引量：5
9袁单飞,陈慈发,董方敏.基于多尺度分割的图像识别残差网络研究[J].计算机工程,2022,48(5):258-262. 被引量：6
10遆宝中,李庚银,武昭原,王剑晓,周明,李瑞连.基于循环扩张机制的ConvGRU-Transformer短期电力负荷预测方法[J].华北电力大学学报（自然科学版）,2022,49(3):34-43. 被引量：10

1沈政晔.基于嵌入式和增量学习的水质预测系统研究[J].计算机应用文摘,2024,40(18):126-128.
2张晓良,柴艳玉,吴克河,吕卓.一种基于增量学习的恶意代码检测方法[J].计算机与数字工程,2024,52(7):2141-2145.
3蒋经纬,吉月辉,刘俊杰,高强.基于轻量级CNN的视觉SLAM快速回环检测算法[J].计算机仿真,2024,41(8):182-188.
4潘天雨,赵运磊.一种可快速验证的可聚合BLS签名方案[J].密码学报（中英文）,2024,11(4):799-806.
5刘丁,刘羽茜,李慧芳,宋思楠.模块化深度学习框架在多语言机器翻译中的应用与性能评估[J].信息系统工程,2024(9):141-144.
6蓝章礼,徐元通,赵胜薇,张洪,黄大荣.基于Sobel算子桥接的双编码器路面裂缝检测网络[J].重庆交通大学学报（自然科学版）,2024,43(9):18-24.
7SUN ZhiZe,LIU Yang,ZHANG LinChuang.Predictor and ESO-based adaptive tracking control of heterogeneous vehicle platoon[J].Science China(Technological Sciences),2024,67(9):2842-2852.
8闫方元,李娟莉,苗栋.面向矿井提升机制动系统的SAE故障诊断方法[J].机械设计与制造,2024(9):215-218.
9汪志立,王定成,曹蓉,郑梦丽,刘亚鹏,卓欣.融合注意力机制和二次特征提取的ResNet小样本农作物病虫害识别[J].计算机系统应用,2024,33(9):208-215.
10陈俊英,席月芸,李朝阳.多尺度局部特征和Transformer全局学习融合的发动机剩余寿命预测[J].自动化学报,2024,50(9):1818-1830.

深圳大学学报（理工版）

2024年第5期

浏览历史

内容加载中请稍等...

基于注意力机制和微分跟踪器的宽度学习系统

参考文献3

二级参考文献31

共引文献140

相关作者

相关机构

相关主题

浏览历史