基于视频和文本的机器人技能指令生成方法研究

ROBOTIC COMMANDS GENERATION METHOD BASED ON VIDEO AND TEXT

下载PDF

导出

摘要由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人指令。第二个模块使用BERT-GRU模型从文本语料库中进行机器指令的学习,再将模块一的机器人指令输入到BERT-GRU模型上进行测试,最终生成修正过的机器人指令给机器人执行。通过在MPII Cooking 2数据集上进行实验,证明了框架性能相比于只有视频单模态情况具有较大的提升。 In order to solve the problem of visual single mode translation skills prone to recognize incorrectly,we propose a multi-modal video translation skill method that combines visual and textual knowledge.The method contained two modules.The first module adopted the I3D network,Mask R-CNN model and XGBoost classifier to recognize the actions and objects in the video,and combined them to generate visual robot commands.In the second module,the BERT-GRU model was used to learn robotic commands from the text corpus,and we inputted the robotic commands generated by the first module into the BERT-GRU model for testing.The corrected robot commands were generated for robot execution.Experiments conducted on the MPII Cooking 2 dataset show that the proposed method has achieved a better improvement compared with the one with single modal.

作者黄可思陈俊洪林大润王思涵刘文印 Huang Kesi;Chen Junhong;Lin Darun;Wang Sihan;Liu Wenyin(School of Computers,Guangdong University of Technology,Guangzhou 510006,Guangdong,China)

机构地区广东工业大学计算机学院

出处《计算机应用与软件》北大核心 2023年第8期161-166,173,共7页 Computer Applications and Software

基金国家自然科学基金项目(91748107,61703109) 广东省引进创新科研团队计划项目(2014ZT05G157) 广东省科技创新战略专项(pdjh2020a0173)。

关键词视频和文本知识机器人指令 I3D MASK R-CNN Visual and textual knowledge Robotic command I3D Mask R-CNN

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1周振,杜姗姗.基于kinect深度图像的目标定位与识别[J].机械制造与自动化,2016,45(4):173-176. 被引量：5
2祖琪,王丹,高明华,李擎,邢艳.基于激光雷达的巡检机器人导航系统研究[J].电子测试,2018,29(22):32-33. 被引量：7

二级参考文献14

1曹健,陈红倩,毛典辉,李海生,蔡强.基于局部特征的图像目标识别问题综述[J].中南大学学报（自然科学版）,2013,44(S2):258-262. 被引量：14
2姚庆梅,牛君.一种基于方向形态学的图像轮廓提取方法[J].山东大学学报（工学版）,2005,35(4):47-50. 被引量：14
3张小虎,李由,李立春,王鲲鹏,于起峰.一种基于梯度方向直方图的直线轮廓提取新方法[J].光学技术,2006,32(6):824-826. 被引量：13
4张小琳.图像边缘检测技术综述[J].高能量密度物理,2007(1):37-40. 被引量：70
5吴凤和.基于计算机视觉测量技术的图像轮廓提取方法研究[J].计量学报,2007,28(1):18-22. 被引量：85
6邹柏贤,林京壤.图像轮廓提取方法研究[J].计算机工程与应用,2008,44(25):161-165. 被引量：58
7杜宇人.一种基于轮廓特征的运动目标识别方法[J].江苏大学学报（自然科学版）,2009,30(5):514-517. 被引量：8
8李智,张雅声.基于轮廓特征的图象配准研究[J].指挥技术学院学报,1998,9(3):101-106. 被引量：5
9周瑜,刘俊涛,白翔.形状匹配方法研究与展望[J].自动化学报,2012,38(6):889-910. 被引量：85
10丁险峰,吴洪,张宏江,马颂德.形状匹配综述[J].自动化学报,2001,27(5):678-694. 被引量：88

共引文献10

1刘书红.复杂背景图像局部轮廓信息人工智能识别仿真[J].计算机仿真,2018,35(8):361-364. 被引量：7
2王泽民,林晓焕,宋扬.铁路中继站室内巡检机器人的设计[J].国外电子测量技术,2019,38(12):97-102. 被引量：5
3汤义勤,高彦波,邹宏亮,叶建军,曾林.基于机器视觉的室内无轨巡检机器人导航系统[J].自动化与仪表,2020,35(8):42-46. 被引量：9
4洪庆,宋乔,杨晨涛,张培,常连立.基于智能视觉的机械零件图像分割技术[J].机械制造与自动化,2020,49(5):203-206. 被引量：4
5刘伟铭,李静宁,杜逍睿.基于RGB-D视频的地铁异物风险检测方法研究[J].铁道标准设计,2021,65(1):110-115. 被引量：4
6王巧真,李新福,田学东.远程监护场景下卧床病人异常姿态检测[J].计算机工程与设计,2021,42(4):1043-1049. 被引量：2
7刘未,朱宏辉.隧道安全预警机器人自主导航方法研究[J].计算机测量与控制,2021,29(8):172-177. 被引量：2
8陈健,钱星桥.基于激光雷达的机房可视化预警系统研究[J].机电信息,2022(3):28-31.
9倪桦,关巍,张显库.基于激光雷达与摄像头的无人船目标感知与测距[J].船舶工程,2022,44(9):107-113. 被引量：3
10陈峰,范兴奎,厉志达.基于PCA和PNN柴油机故障诊断方法[J].内燃机与配件,2023(24):107-110.

1周嵩,高天寒.基于注意力机制RNN模型的癫痫患者脑电信号识别方法[J].东北大学学报（自然科学版）,2023,44(8):1098-1103.
2王聪,易希薇,张志学.大数据时代的管理研究新范式:以CEO解聘问题为例[J].管理科学学报,2023,26(5):200-213. 被引量：1
3蔡登飞.高速铁路乘务排班研究[J].中国科技期刊数据库工业A,2023(9):9-12.
4万若楠,孙小广,张亦勋,刘朝山.基于电脑声卡的TDOA声源定位仿真系统[J].计算机仿真,2023,40(6):225-228.
5叶阳.短视频平台中武汉城市宣传片高传播热度生成路径研究[J].西部广播电视,2023,44(13):41-43. 被引量：1
6王仲朋,王瑜,魏斯文,孟强帆,许敏鹏,明东.基于耳周围EMG信号的舌-机接口编解码技术研究[J].信号处理,2023,39(8):1478-1487.

计算机应用与软件

2023年第8期

浏览历史

内容加载中请稍等...

基于视频和文本的机器人技能指令生成方法研究

参考文献2

二级参考文献14

共引文献10

相关作者

相关机构

相关主题

浏览历史