
OmniParser 是一个由微软开发的工具,旨在解析用户界面(UI)截图并将其转化为结构化的、易于理解的元素。这种能力使得大型语言模型(LLMs)能够更好地理解屏幕内容并执行相关操作。
最新版本 OmniParser V2 提升了对小型交互元素的检测精度,并显著加快了推理速度。它可以将 UI 截图中的像素信息“标记化”,从而帮助 LLMs 进行下一步动作预测。OmniParser V2 还支持与多种先进的语言模型(如 GPT-4o 和 DeepSeek)结合使用,进一步增强了其在图形用户界面自动化中的应用能力。