中国新闻网-上海新闻
上海分社正文
让机器人在“模型世界”中学习与进化 智元发布Genie Envisioner 2.0
2026年04月10日 19:34   来源:中新网上海  

  中新网上海新闻4月10日电(记者 李姝徵)2025年,智元发布了行业首个世界模型开源平台 Genie‑Envisioner。彼时,我们的目标是让机器人 “理解世界”—— 通过视觉、语言与动作的统一建模,让机器感知环境、读懂指令、做出反应。而今天,一次更深刻的进化正在发生:我们不再满足于让机器人理解世界,而是要让它在世界中学习、成长、进化。哪怕这个世界,并非真实存在,而是由模型构建。

  在智元的技术路径里,世界模型一直沿着两条主线生长:一条是世界动作模型(World Action Model),专注于动作表征的深度建模;另一条是世界模拟器(World Simulator),负责打造一个可交互、可推演、可训练的完整环境。从 “世界动作模型” 到 “世界模拟器”,世界模型正在完成一次本质升级:从描述世界,进化为成为世界。

  当这个由模型构建的世界足够真实、足够稳定、足够高效,能像现实一样响应机器人的每一个动作,机器人就可以在模型世界里完成大规模训练、试错、迭代,大幅降低真实世界的试错成本。这是从 “世界的表征” 走向 “世界本身” 的关键一步。

  沿着这条路径持续探索。智元AI发布周Day4,我们正式带来世界模型的全新成果:Genie Envisioner World Simulator 2.0(GE‑Sim 2.0),一个真正可训练、可交互、可决策的可操作世界,一个属于具身智能的物理进化引擎。

  双向进化:World Action Model 与 World Simulator

  回到问题的起点。机器人面对的世界是连续变化的,动作不仅是输出,更是影响环境演化的核心变量。

  因此,在传统世界模型仅建模“状态”(state)的基础上,智元提出并推进了世界动作模型(WAM)的方向,其关注的核心问题是:如何让世界模型理解“动作”这一变量。机器人做了什么动作?动作如何改变世界?世界又如何反馈给策略?我们将“状态—动作—状态演化”作为统一建模对象,使世界模型能够成为策略学习与动作生成的基础表示层。

  围绕这一方向,我们始终在展开探索。首先构建了 EnerVerse,将具身场景拓展为可计算的 4D 世界模型;而后推出 Genie Envisioner Act(GE-Act),实现从世界的表征能力(world representation) 到动作轨迹的生成;并通过 Act2Goal,让机器人实现目标驱动的长程控制。这些探索,使得世界模型首次具备了承载动作策略的能力。

  但在真实应用中,我们逐渐发现,仅仅引入底层的动作建模(WAM),依然不足以支撑一个完整的机器人系统。策略训练仍然高度依赖真实环境,评估成本高昂且效率有限,高质量数据的获取与扩展始终是关键瓶颈。

  我们意识到,真正的突破,不止在于强化世界模型的表征能力(representation),更在于世界模拟器(simulator)的能力。换句话说,世界模型不只是描述世界,而是要成为一个可以被使用、被交互、被训练的世界本身。如果一个足够高质量的世界模型被构建,那么在这个生成的世界中行动的策略也可以被更有效地训练。

  从动作模型到模拟器:让世界可以被“运行”

  基于此,我们在强化世界动作模型(WAM) 建模能力的同时,同步推动世界模型走向可交互的模拟器能力(World Simulator)。

  • 通过 EnerVerse-AC,引入 action-conditioned world modeling,使模型能够基于动作进行未来推演;

  • 通过 Genie Envisioner Sim(GE-Sim 1.0),构建可用于策略闭环评估的神经模拟器;

  • 并通过 EWMBench,从场景一致性、动作正确性与语义对齐等多个维度,对 world model 的模拟能力进行系统评估。

  更重要的是,一套全新的数据与训练范式也随之建立。在 Fidelity-Aware Data Composition 中,真实数据与生成数据被精细组合,使策略训练既具备真实性,又拥有更强的泛化能力;而后我们提出 Real2Edit2Real 流程,真实数据不再只是被动采集,而是成为可被模型扩展与编辑的基础,从而显著提升数据规模与多样性;

  至此,世界模型完成了一次本质跃迁——从表征模型,演进为具备环境级能力的系统基础设施。

  Genie Envisioner 2.0:具身智能的物理进化引擎

  在这一系列演进之上,Genie Envisioner World Simulator 2.0 (GE-Sim 2.0) 正式发布。它不再只是一个生成模型,而是一个可以被使用的系统——一个真正意义上的“可操作世界”。

  世界,开始由动作驱动

  GE Sim 2.0 能够严格响应机器人动作信号,生成高保真的环境变化,并严格遵循物理与语义逻辑。世界不再是被想象的、无法被干预的,而是被行动不断推进的过程。

  时间,被拉长为完整任务

  模型支持分钟级长时序稳定推演,从零散视频片段,走向完整任务过程的连续生成。

  空间,被统一为具身体验

  多视角视觉、跨视角3D一致性与机器人本体状态(proprioception)被统一建模。进一步让机器人面对的不再是“画面”,而是一个完整、可交互的具身世界。

  模型,开始拥有“判断能力”

  内置激励模型(General Reward Model),使模型首次具备自评估能力。它可以基于文本对生成状态自动评估与优化,无需人工激励的训练,可以完成强化学习(RL in World Model)。这意味着,训练闭环第一次真正被内嵌进模型世界本身。

  系统,从离线走向实时

  随着推理效率的提升,GE 2-Sim 已经可以接近实时运行,支持 Eval in WM、RL in WM、以及Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是一个离线工具,而是一个可以实时交互的系统环境。

  范式跃迁:当模型成为世界

  当这一切能力汇聚,具身智能迎来了一次真正的范式革新 —— 它不再只是 “用模型理解世界”,而是真正走进 “模型世界”,在其中自主学习、自主决策、自主成长。一方面,世界动作模型(WAM)与视觉 - 语言 - 动作模型(VLA)深度融合,让机器人的策略彻底升级:从被动响应环境的 “反应式控制”,变成能预判未来、规划全局的 “生成式决策”;另一方面,世界模拟器(World Simulator)搭建起一个无限延伸的虚拟训练场,让机器人可以在这里大规模试错、反复优化,不再被真实数据的稀缺性束缚,其能力上限,从此由模拟的真实度与高效性决定。当这两条路径交汇,机器人不再是机械复现人类经验的 “执行者”,而是能在模型世界中不断探索、修正、突破的 “学习者”—— 它的能力边界,正被重新定义,而这正是 Genie Envisioner 2.0 为具身智能铺就的未来方向。(完)

注:请在转载文章内容时务必注明出处!   

编辑:谢梦圆  

本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
常年法律顾问:上海金茂律师事务所