手机Agent,移动交互范式的跃迁。自触控屏幕开启移动互联网黄金时代以来,App被设计为一个个独立的孤岛,用户通过点击图标进入特定的应用环境,依靠视觉和手动点击来完成任务。随着应用数量的增长和功能的堆叠,用户在不同App间切换、寻找功能入口 ...
省流:我们基于 AutoGLM 和 GELab-Zero 这类 开源 GUI model ,构建了一个 GUI Agent --- OMG-Agent!已开源先是豆包手机证明 AI ...
近日,微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出,通过将大语言模型(LLMs)与多模态模型(Visual Language Models, VLMs)相结合,GUI ...