-
题名基于视觉语言大模型的可进化GUI自动导航方法研究
- 1
-
-
作者
庄凤云
-
机构
中移(苏州)软件技术有限公司
-
出处
《江苏通信》
2024年第5期93-97,共5页
-
文摘
近年来,视觉语言大模型在GUI自动导航任务上的研究越来越多,体现出其较为先进的屏幕解释、行动推理和定位能力。然而这些方法受限于图像尺寸问题和案例参考能力,动作识别准确率偏低,且无法直接迁移到相同场景不同流程的GUI导航任务上。本文提出了一种基于视觉语言大模型的可进化GUI自动导航方法Qwen-VL-i VP,该方法使用Qwen-VL,创新性地设计了视觉提示模块和多任务Prompt模版以提升大模型动作定位准确性,同时增强模型自主学习和进化的能力。实验结果表明,与基线方法 Qwen-VL相比,该方法在GUI自动导航任务上有了显著的改进。
-
关键词
GUI自动导航
视觉语言大模型
视觉提示
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-