告别VLA“有手无脑”:ManiAgent如何用多智能体协作重构机器人操控

在机器人操控领域,Vision-Language-Action (VLA) 模型曾被视为通往通用机器人的“圣杯”。当前,它却面临着严重的瓶颈问题:
数据饥渴与分布外(OOD)失效:VLA 很依赖大规模、高质量的演示数据;一旦遇到训练数据分布之外的场景,或者数据量稍有不足,性能明显下降。
模型容量与推理能力互斥:为了让模型学会动作控制而进行的微调,会破坏 LLM 原本拥有的高层语义理解和推理能力。这导致模型变成了“有手无脑”的模仿者——能执行动作,但听不懂复杂的间接指令,更无法进行长序列任务的规划。

图 1:ManiAgent 把做一道 “Menemen 菜” 的模糊指令,层层拆解为“识别鸡蛋”、“抓取鸡蛋”、“放入盘子”等具体步骤
为此,Dexmal 原力灵机作者团队提出多智能体协作系统 ManiAgent;它放弃了通过海量数据“喂养”一个巨大黑盒模型的路径,转而采用 Agentic(智能体化) 的思路——与其让一个模型同时负责“看、想、做”,不如将任务层层分解。
方法框架

图 2:ManiAgent 框架示意图
无需特定任务微调:实现更通用的操控。它不需要针对特定任务进行微调,而是依靠各个智能体的通用能力组合来应对未知任务。
ManiAgent 设计了精密的内部通信机制,让四个智能体紧密配合;不仅在 SimplerEnv 上实现 86.8% 的高成功率,更证明了在缺乏大规模机器人数据的情况下,利用现有的通用大模型(GPT-4o、GPT-5、Claude-3.5 等)的推理能力,可以驱动机器人完成高难度的物理任务。
关键技术:为保证描述精度,作者团队通过优化 Prompt 来平衡召回率与相关性。首先确保场景中所有与任务相关的物体都被提及(高召回),然后过滤掉无关的背景噪音(高相关)。
该智能体接收场景描述,利用 LLM 的物理常识和逻辑推理能力,将宏大的任务目标拆解为可执行的子任务。
增量式拆解:它不是一次性把所有步骤规划完,而是根据当前状态一步步生成下一个子任务,避免了长序列规划中常见的累积误差。
记忆机制:为防止机器人陷入死循环,该智能体拥有记忆功能,存储历史子任务以指导当前决策。
图 3:ManiAgent 物体感知智能体模块示意图
开放词汇检测:利用 VLM 的开放词汇检测能力,根据子任务中的关键词定位物体中心点。
多实例消歧:这是一个非常巧妙的细节。如果场景里有三个辣椒,VLM 会被要求通过特定的 Prompt 来筛选出唯一的目标物体,解决了传统检测器无法理解相对语义的问题。
抓取姿态生成:集成 AnyGrasp 等算法,计算出最优的 6-DoF 抓取姿态。
缓存机制:为解决 LLM 推理延迟高的问题,作者团队设计了一个“动作缓存”。如果当前的子任务与之前执行过的任务相似,系统会直接调用缓存中的参数化动作序列,大幅提升了执行效率。
表1:ManiAgent 的仿真实验结果
在标准的 SimplerEnv 基准测试中,ManiAgent 表现出色。相较于 Pi0 (55.7%) 和 CogACT (51.3%),搭载 GPT-5 的 ManiAgent 取得了 86.8% 的平均成功率。即使是稍微弱一些的 GPT-4o 版本,成功率也达到 74.3%,依然大幅领先于传统的 VLA 模型。这直接证明了将高层推理与底层控制解耦的有效性。

表 2:ManiAgent 在真机环境中的主要结果
成功率:使用 Claude-4-Sonnet 或 Grok-4 作为基座模型时,真机任务的平均成功率高达 95.8%。
复杂推理:在“摆放餐具”的任务中,模型甚至需要利用常识知识库,遵循“左叉右刀”的西餐礼仪来摆放物体。这种包含文化常识的物理操作,是目前单纯依赖模仿学习的 VLA 模型难以企及的。
对比 ReKep:在与基于关键点的 ReKep 框架对比中,ManiAgent 在长序列和复杂场景下表现出明显优势。比如在复杂的桌面整理任务中,ReKep 成功率仅为 0%,ManiAgent 达到 100%。

表 3:ManiAgent 与 ReKep 在物理场景中的性能对比
自动生成数据:利用 ManiAgent 在真机上的高成功率,结合随机生成或基于规则的目标坐标,机器人可以日以继夜地自动执行任务并收集数据。在“胡萝卜放盘子”的测试中,系统自动运行了 19.5 小时,收集了 551 条轨迹,仅需每 46 分钟进行一次人工干预。
反哺 VLA 模型:更关键的是,作者团队用 ManiAgent 自动生成的数据训练了一个小型的 CogACT 模型。结果显示,用这些“机器生成数据”训练出的 VLA 模型,其效果与通过人类手动采集数据训练的模型相当。

图 6:ManiAgent 自动数据生成示意图
这意味着数据飞轮成为可能。既然 ManiAgent 不需要训练就能跑通(虽然推理慢一点),那就可以让它先当“老师”,不知疲倦地生成海量的高质量轨迹数据;然后用这些数据去喂养更轻量、更快速的端到端 VLA 模型。这样既解决了 VLA 的数据饥渴,又解决了 Agentic 方案推理延迟高、部署成本高的问题。
在本文中,作者团队提出 ManiAgent,这是一个将通用操作任务分解为四个阶段的框架,通过使用专门的智能体分别负责感知、推理和控制来完成机器人操作。实验结果表明,ManiAgent 在仿真环境中表现优于大多数 VLA 模型,实现了 86.8% 的成功率;且在搭载高性能 VLM 时,在真实世界任务中达到了 95.8% 的平均成功率。
扫一扫,关注我们
相关新闻
- RedCap破局之路:从“可用“到“好用“再到“必用“的20···
- 安徽工业机器人品牌有哪些
- Electron 桌面应用开发:前端与原生交互原理及性能优化
- Web Components 封装实战:打造可复用的跨框架组···
- 紫光国微成立中央研究院,端侧AI芯片如何重构机器人产业版图?
- 站在AI原生时代的十字路口,C++之父为1600万开发者擘画···
- 告别VLA“有手无脑”:ManiAgent如何用多智能体协作···
- 从前端体验到后端架构:Airbnb全栈SDET面试深度解析
- 面向对象编程学习笔记:从类、对象到方法调用的完整回顾
- Google重塑AI搜索资讯入口:首选来源、订阅优先与新闻合···

