OmniParser：基于纯视觉的 GUI 代理的屏幕解析工具

code

OmniParser 是一个由微软开发的工具，旨在解析用户界面（UI）截图并将其转化为结构化的、易于理解的元素。这种能力使得大型语言模型（LLMs）能够更好地理解屏幕内容并执行相关操作。

最新版本 OmniParser V2 提升了对小型交互元素的检测精度，并显著加快了推理速度。它可以将 UI 截图中的像素信息“标记化”，从而帮助 LLMs 进行下一步动作预测。OmniParser V2 还支持与多种先进的语言模型（如 GPT-4o 和 DeepSeek）结合使用，进一步增强了其在图形用户界面自动化中的应用能力。

社区规范 | 隐私政策 | 不良信息举报 | 加入我们

希望你在这里度过愉快的时光！