多尺度拼图重构网络的食品图像识别被引量：2

Food Image Recognition via Multi-scale Jigsaw and Reconstruction Network

下载PDF

导出

摘要近年来,食品图像识别由于在健康饮食管理、无人餐厅等领域的广泛应用而受到了越来越多的关注.不同于其他物体识别任务,食品图像属于细粒度图像,具有较高的类内差异性和类间相似性,而且食品图像没有固定的语义模式和空间布局,这些特点使得食品图像识别更具挑战性.为此,提出了一种用于食品图像识别的多尺度拼图重构网络(multi-scale jigsaw and reconstruction network,MJR-Net).MJR-Net由拼图重构模块、特征金字塔模块和通道注意力模块这3部分组成.拼图重构模块使用破坏重构学习方法将原始图像进行破坏和重构,以提取局部的判别性细节特征;特征金字塔模块可以融合不同尺寸的中层特征,以捕获多尺度的局部判别性特征;通道注意力模块对不同特征通道的重要程度进行建模,以增强判别性的视觉模式,减弱噪声干扰.此外,还使用A-softmax和Focal损失,分别从增大类间差异和修正分类样本的角度优化网络.MJR-Net在ETH Food-101,Vireo Food-172和ISIA Food-500这3个食品数据集上进行实验,分别取得了90.82%,91.37%和64.95%的识别准确率.实验结果表明,与其他食品图像识别方法相比,MJR-Net表现出较大的竞争力,并在Vireo Food-172和ISIA Food-500上取得了最优识别性能.全面的消融实验和可视化分析证明了该方法的有效性. Recently,food image recognition has received more and more attention for its wide applications in healthy diet management,smart restaurant,and so on.Unlike other object recognition tasks,food images belong to fine-grained ones with high intra-class variability and inter-class similarity.Furthermore,food images do not have fixed semantic patterns and specific spatial layout.These make food recognition more challenging.This study proposes a multi-scale jigsaw and reconstruction network(MJR-Net)for food recognition.MJR-Net is composed of three parts.The jigsaw and reconstruction module uses a method called destruction and reconstruction learning to destroy and reconstruct the original image to extract local discriminative details.Feature pyramid module can fuse mid-level features of different sizes to capture multi-scale local discriminative features.Channel-wise attention module can model the importance of different feature channels to enhance the discriminative visual patterns and weaken the noise patterns.The study also uses both A-softmax loss and Focal loss to optimize the network by increasing the inter-class variability and reweighting samples respectively.MJR-Net is evaluated on three food datasets(ETH Food-101,Vireo Food-172,and ISIA Food-500).The proposed method achieves 90.82%,91.37%,and 64.95%accuracy,respectively.Experimental results show that,compared with other food recognition methods,MJR-Net shows greater competitiveness and especially achieves the state-of-the-art recognition performance on Vireo Food-172 and ISIA Food-500.Comprehensive ablation studies and visual analysis also prove the effectiveness of the proposed method.

作者刘宇昕闵巍庆蒋树强芮勇 LIU Yu-Xin;MIN Wei-Qing;JIANG Shu-Qiang;RUI Yong(Key Laboratory of Intelligent Information Processing,Chinese Academy of Sciences(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;Lenovo Group,Beijing 100085,China)

机构地区中国科学院智能信息处理重点实验室(中国科学院计算技术研究所) 中国科学院大学联想集团

出处《软件学报》 EI CSCD 北大核心 2022年第11期4379-4395,共17页 Journal of Software

基金国家自然科学基金(61972378,U1936203,U19B2040)。

关键词食品图像识别深度学习拼图重构特征金字塔注意力机制 food image recognition deep learning jigsaw and reconstruction feature pyramid attention mechanism

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1梁华刚,温晓倩,梁丹丹,李怀德,茹锋.多级卷积特征金字塔的细粒度食物图片识别[J].中国图象图形学报,2019,24(6):870-881. 被引量：7

共引文献6

1武若琪,徐冰,曲志坚.基于特征融合的亚洲食物图片分类[J].计算机工程与设计,2020,41(12):3464-3471. 被引量：1
2王长冬.中餐主食图像识别研究[J].电脑知识与技术,2021,17(5):199-200.
3闵巍庆,刘林虎,刘宇昕,罗梦江,蒋树强.食品图像识别方法综述[J].计算机学报,2022,45(3):542-566. 被引量：6
4彭耿,刘宁钟.基于注意力机制的食物识别与定位算法[J].计算机技术与发展,2022,32(11):121-126. 被引量：1
5谢林基,赵铁柱,柳毅.兴趣点推荐研究综述[J].计算机应用与软件,2022,39(12):1-12. 被引量：1
6吕楠,王琪冰,陆佳炜,陈军统,肖刚.基于数字孪生的自动扶梯乘客行为监测方法研究[J].系统仿真学报,2023,35(8):1737-1747.

同被引文献27

1罗久飞,邱广,张毅,冯松,韩冷.基于自适应双阈值的SURF双目视觉匹配算法研究[J].仪器仪表学报,2020,41(3):240-247. 被引量：41
2倪鹤鹏,刘亚男,张承瑞,王云飞,夏飞虎,邱正师.基于机器视觉的Delta机器人分拣系统算法[J].机器人,2016,38(1):49-55. 被引量：70
3严培培.面向非典型食品生产的高速机器人分拣系统设计[J].食品与机械,2016,32(2):94-97. 被引量：15
4曾劲松,薛文凯,徐博凡,郎梦梦.双目视觉引导机器人定位抓取技术的研究[J].组合机床与自动化加工技术,2019(1):131-133. 被引量：26
5吴旭清,黄家才,周磊,林健.并联机器人智能分拣系统设计[J].机电工程,2019,36(2):224-228. 被引量：13
6陶浩,李笑,陈敏.基于改进ORB特征的遥操作工程机器人双目视觉定位[J].测控技术,2019,38(7):19-23. 被引量：11
7宋海涛,何文浩,原魁.一种基于SIFT特征的机器人环境感知双目立体视觉系统[J].控制与决策,2019,34(7):1545-1552. 被引量：28
8郝大孝,舒志兵,孙学.基于机器视觉的Delta机器人分拣与跟踪系统设计[J].机床与液压,2019,47(17):36-42. 被引量：37
9朱建宝,许志龙,孙玉玮,马青山.基于OpenPose人体姿态识别的变电站危险行为检测[J].自动化与仪表,2020,35(2):47-51. 被引量：29
10马伟苹,李文新,孙晋川,曹鹏霞.基于粗-精立体匹配的双目视觉目标定位方法[J].计算机应用,2020,40(1):227-232. 被引量：20

引证文献2

1张志凯,韩红章,赵雪芊,李忠.基于改进YOLOv3模型的软包装食品自动识别方法[J].食品与机械,2023,39(5):95-100. 被引量：2
2朱建学.基于图像识别的输煤皮带纠偏方法[J].信息与电脑,2023,35(13):182-184.

二级引证文献2

1夏军勇,王康宇,周宏娣.基于改进Faster R-CNN的食品包装缺陷检测[J].食品与机械,2023,39(11):131-136. 被引量：1
2李莉,黄承宁.基于改进YOLOv网络的外观检测研究[J].计算机测量与控制,2024,32(3):92-98. 被引量：1

1武建超,张楠,闫彦辉,张国庆,唐锐,倪威.基于改进YOLOv4-tiny的输电线路目标识别算法[J].测控技术,2022,41(11):28-34. 被引量：2
2卢云聪.基于改进SSD的头盔佩戴检测模型[J].信息与电脑,2022,34(16):14-16.
3张涛,杨小冈,卢孝强,卢瑞涛,张胜修.Dense RFB和LSTM遥感图像舰船目标检测[J].遥感学报,2022,26(9):1859-1871. 被引量：3
4张伟,刘宁钟,寇金桥.基于深度特征金字塔的路面病害检测[J].计算机技术与发展,2022,32(12):173-178. 被引量：1
5秦汉,熊凌,肖林伟,但斌斌.基于改进DeepLabv3+网络的氩花图像语义分割[J].武汉科技大学学报,2023,46(1):25-32. 被引量：1
6吴佳丽,毕春跃,王剑,赵涵.基于改进DeepLab网络的道路场景识别[J].物联网技术,2022,12(11):9-10.
7张磊,单玉刚,袁杰.基于条件对抗网和层次特征融合的目标跟踪[J].计算机工程与应用,2022,58(23):221-229. 被引量：1
8Zhenbo Ren,Zhimin Xu,Edmund YLam.End-to-end deep learning framework for digital holographic reconstruction[J].Advanced Photonics,2019,1(1):72-83. 被引量：18
9白俊卿,张文静.基于并行反向注意网络的跑道线检测[J].中国惯性技术学报,2022,30(5):609-614.
10李晨,张辉,张邹铨,车爱博,王耀南.融合多尺度特征与全局上下文信息的X光违禁物品检测[J].中国图象图形学报,2022,27(10):3043-3057. 被引量：4

软件学报

2022年第11期

浏览历史

内容加载中请稍等...

多尺度拼图重构网络的食品图像识别被引量：2

参考文献1

共引文献6

同被引文献27

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

多尺度拼图重构网络的食品图像识别 被引量：2

参考文献1

共引文献6

同被引文献27

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

多尺度拼图重构网络的食品图像识别被引量：2