面向手术器械语义分割的半监督时空Transformer网络被引量：4

Semi-supervised Spatiotemporal Transformer Networks for Semantic Segmentation of Surgical Instrument

下载PDF

导出

摘要基于内窥镜的微创手术机器人在临床上的应用日益广泛,为医生提供内窥镜视频中精准的手术器械分割信息,对提高医生操作的准确度、改善患者预后有重要意义.现阶段,深度学习框架训练手术器械分割模型需要大量精准标注的术中视频数据,然而视频数据标注成本较高,在一定程度上限制了深度学习在该任务上的应用.目前的半监督方法通过预测与插帧,可以改善稀疏标注视频的时序信息与数据多样性,从而在有限标注数据下提高分割精度,但是这些方法在插帧质量与对连续帧时序特征方面存在一定缺陷.针对此问题,提出了一种带有时空Transformer的半监督分割框架,该方法可以通过高精度插帧与生成伪标签来提高稀疏标注视频数据集的时序一致性与数据多样性,在分割网络bottleneck位置使用Transformer模块,并利用其自我注意力机制,从时间与空间两个角度分析全局上下文信息,增强高级语义特征,改善分割网络对复杂环境的感知能力,克服手术视频中各类干扰从而提高分割效果.提出的半监督时空Transformer网络在仅使用30%带标签数据的情况下,在MICCAI2017手术器械分割挑战赛数据集上取得了平均DICE为82.42%、平均IoU为72.01%的分割结果,分别超过现有方法7.68%与8.19%,并且优于全监督方法. With the increasingly wide application of surgical robots in clinical practice,it is of great significance to provide doctors with precise semantic segmentation information of surgical instrument in endoscopic video to improve the clinicians’operation accuracy and patients’prognosis.Training surgical instrument segmentation models requires a large amount of accurately labeled video frames,which limits the application of deep learning in the surgical instrument segmentation task due to the high cost of video data labeling.The current semi-supervised methods enhance the temporal information and data diversity of sparsely labeled videos by predicting and interpolating frames,which can improve the segmentation accuracy with limited labeled data.However,these semi-supervised methods suffer from the drawbacks of frame interpolation quality and temporal feature extraction from sequential frames.To tackle this issue,this study proposes a semi-supervised segmentation framework with spatiotemporal Transformer,which can improve the temporal consistency and data diversity of sparsely labeled video datasets by interpolating frames with high accuracy and generating pseudo-labels.Here the Transformer module is integrated at the bottleneck position of the segmentation network to analyze global contextual information from both temporal and spatial perspectives,enhancing advanced semantic features while improving the perception to complex environments of the segmentation network,which can overcome various types of distractions in surgical videos and thus improve the segmentation effect.The proposed semi-supervised segmentation framework with Transformer achieves an average DICE of 82.42%and an average IOU of 72.01%on the MICCAI 2017 Surgical Instrument Segmentation Challenge dataset using only 30%labeled data,which exceeds the state-of-the-art method by 7.68%and 8.19%,respectively,and outperforms the fully supervised methods.

作者李耀仟李才子刘瑞强司伟鑫金玥明王平安 LI Yao-Qian;LI Cai-Zi;LIU Rui-Qiang;SI Wei-Xin;JIN Yue-Ming;HENG Pheng-Ann(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China;Department of Computer Science,University College London,United Kingdom;Department of Computer Science and Engineering,The Chinese University of Hong Kong,Hong Kong SAR 999077,China)

机构地区中国科学院深圳先进技术研究院 Department of Computer Science 香港中文大学计算机科学与工程学系

出处《软件学报》 EI CSCD 北大核心 2022年第4期1501-1515,共15页 Journal of Software

基金深圳市基础研究重点项目(JCYJ20200109110208764,JCYJ20200109110420626) 国家自然科学基金(U1813204,61802385) 广东省自然科学基金(2021A1515012604)。

关键词视频序列时空特征手术器械分割 TRANSFORMER 半监督学习 video sequences spatiotemporal feature surgical instruments segmentation Transformer semi-supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1谭民,王硕.机器人技术研究进展[J].自动化学报,2013,39(7):963-972. 被引量：362
2陈加,陈亚松,李伟浩,田元,刘智,何英.深度学习在视频对象分割中的应用与展望[J].计算机学报,2021,44(3):609-631. 被引量：11
3宋杰,肖亮,练智超,蔡子贇,蒋国平.基于深度学习的数字病理图像分割综述与展望[J].软件学报,2021,32(5):1427-1460. 被引量：28

二级参考文献48

1李鹏,黄心汉,王敏.混合DSm模型的移动机器人地图构建[J].华中科技大学学报（自然科学版）,2008,36(S1):174-176. 被引量：1
2田元,王乘,管涛.基于FCM和图割的交互式图像分割方法[J].工程图学学报,2010,31(2):123-127. 被引量：3
3杨明,董斌,王宏,张钹,Helder Araújo.基于激光雷达的移动机器人实时位姿估计方法研究[J].自动化学报,2004,30(5):679-687. 被引量：12
4任德华,卢桂章.对队形控制的思考[J].控制与决策,2005,20(6):601-606. 被引量：51
5卢振利,马书根,李斌,王越超.基于循环抑制CPG模型控制的蛇形机器人三维运动[J].自动化学报,2007,33(1):54-58. 被引量：14
6田增民,卢旺盛,王田苗,刘达,陈延,张国来,赵全军,白茫茫,尹丰.遥操作脑立体定向手术的临床初步应用[J].中华外科杂志,2007,45(24):1679-1681. 被引量：8
7汤卿,熊蓉,褚健.基于最优化线性搜索的稳定步态规划方法[J].控制理论与应用,2008,25(4):661-664. 被引量：8
8肖涛,黄强,杨洁,余张国,张伟民.给定手部作业轨迹的仿人机器人推操作研究[J].机器人,2008,30(5):385-391. 被引量：4
9黄琳,段志生,杨莹.现代飞行器控制的几个科学问题[J].科技导报,2008,26(20):92-98. 被引量：8
10苏柏泉,王田苗,梁建宏,李平.仿生鱼尾鳍推进并联机构设计[J].机械工程学报,2009,45(2):88-93. 被引量：7

共引文献397

1倪涛,孙旭,李东,赵亚辉,张泮虹,邓英杰.基于外力估计的并联机器人柔顺控制策略研究[J].农业机械学报,2022,53(8):443-451. 被引量：1
2刘益畅.自动化技术在产业机器人中的应用[J].电子技术（上海）,2021,50(5):114-115. 被引量：3
3汪中原.基于5G技术的智能机器人技术[J].电子技术（上海）,2020(3):54-55. 被引量：1
4彭虎,陈灯.基于Kinect的六轴工业机器人异常姿态检测方法[J].电子测量技术,2023,46(5):142-148. 被引量：1
5胡鑫一,蔡振宇,左可文,詹若璞,郭攀峰.机器鱼的运动控制以及路径规划算法研究进展[J].船舶工程,2022,44(S01):455-458. 被引量：2
6赵敬伟,林珊玲,梅婷,林志贤,郭太良.基于YOLACT与Transformer相结合的实例分割算法研究[J].半导体光电,2023,44(1):134-140.
7蒋思中,白雪.工业机器人目标识别与智能检测技术研究现状与发展趋势[J].轻工科技,2020,0(2):65-66. 被引量：12
8马若男.机器视觉在机器人码垛系统中的运用[J].军民两用技术与产品,2018,0(22):66-66. 被引量：1
9王一飞,王豪杰,王成龙.基于LabVIEW的智能工厂分拣系统[J].电力系统装备,2019,0(10):97-98.
10王勤,原晋江.导出匹配可扩图的度和条件(英文)[J].郑州大学学报（自然科学版）,2000,32(1):19-21. 被引量：2

同被引文献26

1田娟秀,刘国才,谷珊珊,鞠忠建,刘劲光,顾冬冬.医学图像分析深度学习方法研究与挑战[J].自动化学报,2018,44(3):401-424. 被引量：100
2金亮,王飞,杨庆新,汪冬梅,寇晓斐.永磁同步电机性能分析的典型深度学习模型与训练方法[J].电工技术学报,2018,33(A01):41-48. 被引量：17
3章云港,杨剑锋,易本顺.低剂量CT图像去噪的改进型残差编解码网络[J].上海交通大学学报,2019,53(8):983-989. 被引量：6
4李江昀,赵义凯,薛卓尔,蔡铮,李擎.深度神经网络模型压缩综述[J].工程科学学报,2019,41(10):1229-1239. 被引量：41
5朱煜峰,许永鹏,陈孝信,盛戈皞,江秀臣.基于卷积神经网络的直流XLPE电缆局部放电模式识别技术[J].电工技术学报,2020,35(3):659-668. 被引量：48
6徐宏伟,闫培新,吴敏,徐振宇,孙玉宝.基于残差双注意力U-Net模型的CT图像囊肿肾脏自动分割[J].计算机应用研究,2020,37(7):2237-2240. 被引量：5
7李旭嵘,纪守领,吴春明,刘振广,邓水光,程鹏,杨珉,孔祥维.深度伪造与检测技术综述[J].软件学报,2021,32(2):496-518. 被引量：29
8殷晓航,王永才,李德英.基于U-Net结构改进的医学影像分割技术综述[J].软件学报,2021,32(2):519-550. 被引量：49
9刘畅,林楠,曹仰杰,杨聪.Seg-CapNet:心脏MRI图像分割神经网络模型[J].中国图象图形学报,2021,26(2):452-463. 被引量：8
10王瑞豪,刘哲,宋余庆.结合切片上下文信息的多阶段胰腺定位与分割[J].电子学报,2021,49(4):706-715. 被引量：4

引证文献4

1石泽男,陈海鹏,张冬,申铉京.预训练驱动的多模态边界感知视觉Transformer[J].软件学报,2023,34(5):2051-2067. 被引量：1
2李擎,皇甫玉彬,李江昀,杨志方,陈鹏,王子涵.UConvTrans:全局和局部信息交互的双分支心脏图像分割[J].上海交通大学学报,2023,57(5):570-581. 被引量：1
3周逸云,万新军,胡伏原,陈昊.基于联合注意与特征关联的实例分割算法[J].计算机工程,2023,49(6):217-226. 被引量：1
4金亮,尹振豪,刘璐,宋居恒,刘元凯.基于残差U-Net和自注意力Transformer编码器的磁场预测方法[J].电工技术学报,2024,39(10):2937-2952.

二级引证文献3

1王学立,赵辰燃,李青,何显能,甘梅.基于多模态的输送带撕裂大模型算法设计[J].煤矿安全,2023,54(9):202-207.
2张志玮,叶曦,杨志红.基于曼哈顿距离自注意力机制的 U-Net3+图像分割[J].江汉大学学报（自然科学版）,2024,52(2):56-67.
3李伟,黄娅,张馨渊,韩贵金.针对遮挡物体的轮廓细化实例分割[J].中国图象图形学报,2024,29(5):1221-1232.

1张庆林,杜嘉晨,徐睿峰.基于对抗学习的讽刺识别研究[J].北京大学学报（自然科学版）,2019,55(1):29-36. 被引量：7
2徐秀,刘德喜.基于上下文和位置交互协同注意力的文本情绪原因识别[J].中文信息学报,2022,36(2):142-151.
3王作函.从TCO大赛,看解放的智慧与力量[J].商用汽车,2021(11):28-31.
42022年沃尔沃全国青少年挑战赛即将启动首站3月登陆广州南沙[J].体育风尚,2022(5):41-47.
5张超群,郝小芳,王大睿,李晓翔,完颜兵.基于网评文本的LDA游客目的地印象分析[J].现代计算机,2022,28(2):12-20.
6漓沙.理解市场需求与持续技术创新,Velodyne踏上激光雷达进阶之路[J].汽车与配件,2022(5):23-25.
7吴媛媛,梁礼明,彭仁杰,尹江.基于ResNeXt和迁移学习的花卉种类识别研究[J].种业导刊,2022(1):42-48.
8黄俊曦,徐非凡,陈湘骥,陈浩铭.基于可信距离规避与瞄准同步控制的自动寻敌与攻击机器人[J].现代计算机,2022,28(4):107-111.
9刘美君,吴全玉,丁胜,潘玲佼,刘晓杰.自适应噪声完备经验模态分解排列熵结合支持向量机的心音分类方法研究[J].生物医学工程学杂志,2022,39(2):311-319. 被引量：5
10马佳秀,阮俊斌,谢璇,杨孟婷,郑瑞州.跨学科融合视阈下国际多语种商业展播路径研究[J].中国商论,2022(8):124-127.

软件学报

2022年第4期

浏览历史

内容加载中请稍等...

面向手术器械语义分割的半监督时空Transformer网络被引量：4

参考文献3

二级参考文献48

共引文献397

同被引文献26

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向手术器械语义分割的半监督时空Transformer网络 被引量：4

参考文献3

二级参考文献48

共引文献397

同被引文献26

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向手术器械语义分割的半监督时空Transformer网络被引量：4