你已经是个“成熟的AI”，可以帮我代肝了：智谱AI联合清华大学团队打造视觉大模型CogAgent：可提供《原神》教学辅助

2025-02-20 来源｜AI图库吧

AI奇点网1月2日报道丨近日，清华大学的 KEG 实验室与旗下孵化的人工智能创企智谱 AI 合作，联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent。这款产品在几个月前曾经在圈内引发了小轰动。

所谓的视觉GUI Agent，就是通过大模型参与大规模的图像内容训练，使之可以替代人类完成指定的代理操作的一种大模型技术。

长期对人类行为进行研究发现，人类是通过视觉与GUI交互的。比如，面对一个网页，当给定一个操作目标时，人类会先观察他的GUI界面，然后决定下一步做什么，而不是去扒它冗长的HTML源码。GUI界面天然是为了人类便捷而设计的。也就是说，在GUI场景下，视觉是一种更为直接、本质的交互模态，能更高效完整提供环境信息。

CogAgent就是这样一款基于视觉的GUI Agent。下面的示例展现了其工作路径与能力。用户只需把操作目标“search for the best paper in CVPR 2023”连同当前截图一起丢给模型，CogAgent就能预测出详细的动作，甚至能够把操作元素的精准定位也一同输出！

该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知，从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（包括 VQAv2.STVQA，DocVQA，TextVQA，MM-VET，POPE 等）取得了通用大模型能力第一名的成绩。