基于多模态深度学习的实时交互系统设计

Design of real-time interaction system based on multimodal deep learning

下载PDF

导出

摘要人机交互系统中,计算机视觉技术和深度学习算法常用来实现手势分割、特征提取和分类识别等。系统由本地终端和云端服务器组成,本地终端采集常用手势图像,利用亮度信息和方向梯度直方图(Histogram of Oriented Gradients,HOG)等多模态特征建立训练数据集;云端服务器基于Nvidia Jetson Nano B01 AI平台以迁移学习方式进行卷积神经网络(Convolutional Neural Network,CNN)训练;利用边缘计算技术将手势图像预处理和特征提取等任务放在本地完成,降低对服务器算力依赖。测试结果表明,系统平均处理和延时在2 s左右,满足普通的实时交互需求;CNN模型对45种手势的整体预测精确率为0.99;手势识别结果在本地实现图像-文本-语音转换,增强了交互的便利性和效率;用户数据在本地存储既保证了安全,也拓展了系统的应用场景。 In the human-computer interaction system,computer vision technology and deep learning algorithm are usually used to achieve gesture segmentation,feature extraction and classification recognition.The system consists of local terminal and cloud server,the local terminal collects common gesture images,and the multimodal features such as brightness information and HOG are used to build training datasets;the cloud server performs CNN training by transfer learning mode based on the Nvidia Jetson Nano B01 AI platform;edge computing technology is used to complete the tasks of gesture image preprocessing and feature extraction locally,which reduces the dependence on the server computing power.The test results show that the average processing and delay of the system is about 2 s,which meets the requirements of common real-time interaction;the overall prediction precision of the CNN model for 45 kinds of gestures is 0.99;the gesture recognition results realize image-text-speech conversion locally,which enhance the convenience and efficiency of interaction;the user's private data is stored locally,which not only ensures the security,but also expands the application scenario of the system.

作者李晓峰张银慧李子阳张文泉 LI Xiaofeng;ZHANG Yinhui;LI Ziyang;ZHANG Wenquan(School of Information and Intelligence Engineering,Tianjin Renai College,Tianjin 301636)

机构地区天津仁爱学院信息与智能工程学院

出处《机械设计》 CSCD 北大核心 2024年第S02期200-204,共5页 Journal of Machine Design

基金 2023年天津市高等学校本科教学质量与教学改革研究计划项目(A231403802)

关键词人机交互手势识别多模态深度学习计算机视觉卷积神经网络 human-computer interaction gesture recognition multimodal deep learning computer vision Convolutional Neural Network

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1颜羽鹏,姜可,程健鹏,李冠呈,石鹏飞,刘颖.作战筹划系统多模态人机交互技术应用进展[J].机械设计,2024,41(7):175-181. 被引量：1
2周勇,吴震宇.基于深度学习的动态手势识别方法[J].计算机时代,2023(5):77-80. 被引量：1
3缪永伟,李佳颖,刘家宗,陈佳舟,孙树森.融合关节旋转特征和指尖距离特征的手势识别[J].计算机学报,2020,43(1):78-92. 被引量：15
4Benjia ZHOU,Jun WAN,Yanyan LIANG,Guodong GUO.Adaptive cross-fusion learning for multi-modal gesture recognition[J].Virtual Reality & Intelligent Hardware,2021,3(3):235-247. 被引量：1
5赵鸿图,李豪,梁梦华.复杂背景下多特征结合的深度学习手势识别[J].电子测量技术,2023,46(23):77-84. 被引量：1
6冯毅雄,杨晨,胡炳涛,赖颢善,石莹,宋光敏,汪勇,谭建荣.基于5G多接入边缘计算的云化PLC系统架构设计与应用[J].计算机辅助设计与图形学学报,2024,36(1):33-46. 被引量：7

二级参考文献55

1徐玥,周辉.简单背景下基于OpenCV的静态手势识别[J].计算机科学,2022,49(S02):393-398. 被引量：4
2黄波,周方,孙亚民.一种战场态势图形指挥系统的多通道整合模型[J].系统仿真学报,2004,16(10):2135-2139. 被引量：5
3朱继玉,王西颖,王威信,戴国忠.基于结构分析的手势识别[J].计算机学报,2006,29(12):2130-2137. 被引量：26
4李江.信息化战场下军事指挥决策的人机交互技术与方式研究[J].国防科技,2009,30(6):9-12. 被引量：6
5李伯虎,张霖,王时龙,陶飞,曹军威,姜晓丹,宋晓,柴旭东.云制造——面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7. 被引量：865
6张霖,罗永亮,范文慧,陶飞,任磊.云制造及相关先进制造模式分析[J].计算机集成制造系统,2011,17(3):458-468. 被引量：129
7高一聪,冯毅雄,谭建荣,郑浩,魏喆,安相华.制造资源耦合映射与模糊匹配技术研究[J].计算机辅助设计与图形学学报,2012,24(3):290-298. 被引量：20
8张毅,张烁,罗元,徐晓东.基于Kinect深度图像信息的手势轨迹识别及应用[J].计算机应用研究,2012,29(9):3547-3550. 被引量：66
9敬石开,姜浩,许文婷,周竞涛.考虑执行可靠性的云制造服务组合算法[J].计算机辅助设计与图形学学报,2014,26(3):392-400. 被引量：22
10许宏科,秦严严,陈会茹.一种基于改进Canny的边缘检测算法[J].红外技术,2014,36(3):210-214. 被引量：162

共引文献20

1姜洋洋.基于卷积神经网络与CUDA加速计算的手势识别算法应用研究[J].系统仿真技术,2020,16(1):22-26. 被引量：4
2郭丹,唐申庚,洪日昌,汪萌.手语识别、翻译与生成综述[J].计算机科学,2021,48(3):60-70. 被引量：12
3李和森,柳冠中.基于人机工程的智能塑壳断路器面板造型设计[J].机械设计,2021,38(5):127-131. 被引量：3
4刘亮,蒲浩洋.基于LSTM的多维度特征手势实时识别[J].计算机科学,2021,48(8):328-333. 被引量：7
5王文斌,李琨.基于特征跟踪的人机交互多点手势识别仿真[J].计算机仿真,2022,39(2):176-179. 被引量：5
6来言芳.基于人机交互的亲子游戏机手势视觉感应识别系统设计[J].自动化与仪器仪表,2022(7):266-269.
7陈万泽,陈家祯.基于手势识别的无接触解锁系统[J].中阿科技论坛（中英文）,2022(12):110-114.
8黄丹.基于深度迁移学习的钢琴演奏手势识别技术研究[J].河北北方学院学报（自然科学版）,2022,38(9):1-7.
9徐飞,邹寿春.基于计算机视觉技术和支持向量机的手势识别算法研究[J].佳木斯大学学报（自然科学版）,2023,41(1):29-33. 被引量：2
10朱飑凯,邓文雯,宋杰,袁纬杰,梁鑫葛,董美亚,刘三满,张倩,赵菊敏.基于改进卷积神经网络的RFID单标签非接触手势识别研究[J].太原理工大学学报,2023,54(3):534-547. 被引量：2

1李旭,陈超淼.融媒体时代数字媒体艺术专业课程的交互性优化方向探究[J].传播与版权,2024(23):89-91.
2张可新,曲洪权,李洋.基于加权相位滞后指数热力图的脑力负荷识别[J].科学技术与工程,2024,24(28):12055-12064.
3郝春云.面向计算机网络监控的图像处理与识别算法研究[J].信息技术与信息化,2024(11):74-77.
4李筱,窦家锐,韩冰心,古富强,卢惠民,余芳文.面向智能机器人的类脑定位框架及实现方法[J].导航定位与授时,2024,11(6):1-10.
5李强,田洪云,曹岩,赵兴利.双车联动AGV设计及其在商用车总装线中的应用[J].物流技术与应用,2024,29(10):150-153.
6申振,姜爽.BIM技术在数字孪生建设中的探索与应用[J].东北水利水电,2024,42(12):58-61.
7胡晨龙,裴少通,刘云鹏,杨文杰,杨瑞,张行远,刘海峰.基于LEE-YOLOv7的输电线路边缘端实时缺陷检测方法[J].高电压技术,2024,50(11):5047-5057.
8孙守强,李青青,肖舒玥,曾子明.基于情景感知的叙事型壁画场景式移动视觉搜索模型研究[J].数据分析与知识发现,2024,8(8):52-62.
9郭团生.相对速度模式下的城市轨道交通列车牵引能耗预测[J].城市轨道交通研究,2024,27(12):253-257.
10张大伟,冯新政,林文青,毕吴瑕,王玮琦,王帆.国内外不同GPU用于洪水模拟时加速性能对比分析[J].中国水利水电科学研究院学报（中英文）,2024,22(5):530-538.

机械设计

2024年第S02期

浏览历史

内容加载中请稍等...

基于多模态深度学习的实时交互系统设计

参考文献6

二级参考文献55

共引文献20

相关作者

相关机构

相关主题

浏览历史