期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于视频和文本的机器人技能指令生成方法研究 被引量:1
1
作者 黄可思 陈俊洪 +2 位作者 林大润 王思涵 刘文印 《计算机应用与软件》 北大核心 2023年第8期161-166,173,共7页
由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人... 由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人指令。第二个模块使用BERT-GRU模型从文本语料库中进行机器指令的学习,再将模块一的机器人指令输入到BERT-GRU模型上进行测试,最终生成修正过的机器人指令给机器人执行。通过在MPII Cooking 2数据集上进行实验,证明了框架性能相比于只有视频单模态情况具有较大的提升。 展开更多
关键词 视频和文本知识 机器人指令 I3D MASK R-CNN
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部