-
题名基于视频和文本的机器人技能指令生成方法研究
被引量:1
- 1
-
-
作者
黄可思
陈俊洪
林大润
王思涵
刘文印
-
机构
广东工业大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2023年第8期161-166,173,共7页
-
基金
国家自然科学基金项目(91748107,61703109)
广东省引进创新科研团队计划项目(2014ZT05G157)
广东省科技创新战略专项(pdjh2020a0173)。
-
文摘
由于视觉单模态转译技能方法容易出现错误,针对该问题,设计一种结合视觉和文本的多模态视频转译技能方法。该方法包含两个模块,第一个模块通过使用I3D网络、Mask R-CNN模型和XGBoost分类器识别视频中的动作和物体,并组合生成视觉机器人指令。第二个模块使用BERT-GRU模型从文本语料库中进行机器指令的学习,再将模块一的机器人指令输入到BERT-GRU模型上进行测试,最终生成修正过的机器人指令给机器人执行。通过在MPII Cooking 2数据集上进行实验,证明了框架性能相比于只有视频单模态情况具有较大的提升。
-
关键词
视频和文本知识
机器人指令
I3D
MASK
R-CNN
-
Keywords
Visual and textual knowledge
Robotic command
I3D
Mask R-CNN
-
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于多级空洞金字塔网络的视频指令学习框架
- 2
-
-
作者
朱展模
陈俊洪
杨振国
刘文印
-
机构
广东工业大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2024年第5期118-125,146,共9页
-
基金
国家自然科学基金项目(91748107)
广东省基础与应用基础研究基金项目(2020A1515010616)
+1 种基金
广东省引进创新科研团队计划项目(2014ZT05G157)
广东省科技创新战略专项资金项目(pdjh2020a0173)。
-
文摘
为了从未修剪视频中生成操作指令,提出基于多级空洞金字塔网络(MS-APN)的视频指令学习框架。具体来说,使用空洞卷积金字塔模块捕捉视频多尺度动作特征,并采用多级网络结构优化分割结果,将未修剪视频分割成一系列视频片段并抽取动作特征。运用目标检测模型提取物体特征,并将其与动作特征进行融合,输入分类器识别主体和受体物体。通过定义指令四元组生成机器人指令。在MPII Cooking 2数据集上进行了实验,视频动作分割、操作物体分类、操作指令生成的准确率分别达到了84.1%、76.5%和62.4%,并成功将系统部署到Baxter机器人上进行验证。
-
关键词
视频指令学习
机器人指令生成
动作分割
空洞卷积
-
Keywords
Video commands learning
Robot commands generation
Action segmentation
Atrous convolution
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种机器人任务多线程异步解释器
- 3
-
-
作者
吴山东
何永义
-
机构
上海大学计算机工程与科学学院
上海大学机械电子工程学院
-
出处
《上海大学学报(自然科学版)》
CAS
CSCD
1999年第S1期25-29,共5页
-
文摘
本文介绍了一种机器人任务程序解释技术 在分析了机器人指令和程序格式的基础上,讨论了任务解释器的功能和性能需求,进而提出了多线程异步解释的方案.文章详细介绍了这一方案的核心及技术实现细节,并给出了两级线程处理函数的基本框架
-
关键词
解释器
任务
机器人指令
多线程
事件
-
Keywords
interpreter
task
robot instruction
multi-threads
events
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-