模型的元素定位（Locate）Visual Grounding、VQA（数据提取、断言与页面理解）的能力如何？

想吧这个模型用于 midscene 的视觉自动化测试流程里，强相关的能力为 模型的元素定位（Locate）Visual Grounding、VQA（数据提取、断言与页面理解），ui-ux 模型在方面的能力如何？