期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于视觉语言大模型的可进化GUI自动导航方法研究
1
作者 庄凤云 《江苏通信》 2024年第5期93-97,共5页
近年来,视觉语言大模型在GUI自动导航任务上的研究越来越多,体现出其较为先进的屏幕解释、行动推理和定位能力。然而这些方法受限于图像尺寸问题和案例参考能力,动作识别准确率偏低,且无法直接迁移到相同场景不同流程的GUI导航任务上。... 近年来,视觉语言大模型在GUI自动导航任务上的研究越来越多,体现出其较为先进的屏幕解释、行动推理和定位能力。然而这些方法受限于图像尺寸问题和案例参考能力,动作识别准确率偏低,且无法直接迁移到相同场景不同流程的GUI导航任务上。本文提出了一种基于视觉语言大模型的可进化GUI自动导航方法Qwen-VL-i VP,该方法使用Qwen-VL,创新性地设计了视觉提示模块和多任务Prompt模版以提升大模型动作定位准确性,同时增强模型自主学习和进化的能力。实验结果表明,与基线方法 Qwen-VL相比,该方法在GUI自动导航任务上有了显著的改进。 展开更多
关键词 GUI自动导航 视觉语言大模型 视觉提示
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部