从“下一个Token”到“下一个物理状态”，世界模型引领新的范式变革_中国访谈

中国网讯（王雨菲）2026年6月12日，第八届北京智源大会在中关村国际创新中心开幕。在这场汇聚两位图灵奖得主、8位院士、40位AI企业的CEO和创始人的年度盛会上，智源研究院发出了一个清晰而大胆的信号：人工智能正在经历一场深刻的范式变革，其核心是从“预测下一个Token”迈向“预测下一个物理状态”。

本次大会在技术方向上确立了两大核心主题：“智能体”与“世界模型”。智能体代表了大模型在数字世界的深入应用与演进，而世界模型作为AI赋能物理世界的核心引擎，代表了大模型迈向物理世界的最新趋势。

大会现场（主办方供图）

范式之变：何为“预测下一个物理状态”？

大语言模型的崛起，依靠的是“预测下一个Token（Next-Token Prediction）”的训练范式。这一范式让AI在语言理解、代码生成、逻辑推理等数字世界任务中大放异彩，但当AI试图走入真实的物理世界——感知空间与时间、理解因果与物理规律、指导机器人完成泛化操作，现有模型的局限便清晰暴露。

智源研究院院长王仲远对此举例，一瓶未开封的水和盛满咖啡的杯子放在桌子旁，人类能够预测两者跌落时产生的物理状态和对真实物理世界的影响，其差异是很大的，水瓶掉下去可能只会产生撞击声音，但咖啡却会洒落一地，这就是人类的世界模型。但对于人工智能来讲，它目前的理解、感知、交互和决策行为尚未成熟，缺乏对“下一个物理状态（Next Physical State Prediction）”的预测能力。

王仲远表示，随着Next-Token Prediction研发的深入，可以看到人工智能正在发生一场重大的范式变革。早年大语言模型处理的是文字，而多模态模型开始引入图像、音频、脑信号，接下来要解决的就是真实物理空间的时空问题、物理规律、物理常识。

之所以目前机器人并不能像人类一样到处行走、执行各种任务，就是因为它对于世界常识、世界物理规律是缺乏了解的。虽然它可以在流水线上精确地去完成某些特定的任务，但它并不具备泛化性和通用性。所以，建立“世界模型”新范式是解决问题的关键。

去年，智源研究院发布的悟界系列大模型也在宣告人工智能正在加速从数字世界迈向物理世界，其核心理念就是解决人工智能从数字世界迈向物理世界的关键能力和关键问题，构建面向物理世界的人工智能基座模型。

去年10月就已经正式发布并且开源的悟界Emu3.5，实现了从Next-Token Prediction升级到Next Physical State Prediction的新突破，获得了可泛化的世界建模能力。今年1月份，这一原创性的成果正式登上《Nature》正刊，也是国内多模态大模型方向的第一篇。

厘清概念：智源首次提出“世界模型”四大分类

过去一年，随着视频生成等技术的爆发，“世界模型”一词异常火热但也伴随着概念的混淆。王仲远指出，1943年Kenneth Craik提出的“心智模型”被广泛认为是世界模型的理论源头。上个世纪九十年代，强化学习兴起，世界模型被引入计算机科学。最近几年，由于大语言模型能力的局限，人们发现物理世界依然有很多问题无法被AI解决，于是“世界模型”被重新提及，反复讨论。

智源研究院是国内最早提出并且开展世界模型研究的科研机构。2024年，智源大会发布了关于人工智能，特别是大模型技术路径的演进，非常明确地提出大模型会沿着大语言模型，向多模态大模型，再向世界模型的方向发展，将世界模型作为人工智能下一个大模型重要研究的范式。

今年，智源提出世界模型就是面向真实物理世界的下一代基座模型，以“预测下一物理状态”为核心，代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识，同时能涵盖文本、视频、深度、力觉、感知等全模态数据，还具备主动交互能力，能够支撑各种物理世界的下游应用。

通过对现有世界模型技术的梳理，智源研究院将当前世界模型相关的技术路线分为四大类：

第一类是以语言为中心的世界模型，包含VLM、VLA。模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果。

第二类是以像素为中心的世界模型，如主流的视频生成模型Sora、Seedance，本质上在预测下一个画面帧，它更像是进行世界模拟，而不具备完备的对下一个状态的预测能力。王仲远表示，视频生成模型不等于未来真正的世界模型，但跟世界模型是相关的。

第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态。

第四类是以视觉表征为轴心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

以上是智源研究院对于世界模型的四大分类，基本可以涵盖现有的主流技术以及对于未来技术发展的研判。智源指出，这四类模型距离真正“面向物理世界的基座模型”仍有较大距离，当前行业对世界模型的探索仍处于早期阶段，数据标准与评测框架尚未统一，依然需要开展大量的科研探索工作。

此次智源大会公布了正在研发中的世界模型——悟界·Physis，和以预测下一个物理状态为核心来构建具身大脑——悟界·RoboBrain Orca。其中悟界·Physis定义为0.1，预计将在训练完成后开源开放。

智能体成果：从医疗到科研的实用落地

智能体（Agent）作为数字世界应用的核心，也是本次大会的重头戏。智源大会中发布了四款智能体方向的成果：

“听会智能体”是本次大会的一大亮点，观众通过SoulAgent可以使用“数字分身”同时参与不同的热门论坛，解决了多论坛并行的听会痛点，而且观众可以直接和专家随时随地探讨AI相关的问题。

智源联合安贞医院共同研发的“心脏磁共振辅助诊断智能体”BAAI Cardiac Agent，能够处理多模态磁共振数据，诊断效率提升30倍，能力比肩顶尖心血管医生，有望推动“人工智能+医疗顶尖诊断能力”下沉到基层医院，助力整个医疗的普惠。

面向科学发现的“自主研究智能体”AREX，致力于推动人工智能从模仿学习向自主学习跨越，让AI学会自我提升，可以极大提高科研人员的工作效率。

辅助有害蛋白获取的“风险发现智能体”，能够绕过现有的安全筛查机制，实现对有害蛋白基因的获取和合成，并将风险防控从“事后补救”转为“事前演练”。

在大模型加速迈入物理世界的前夜，行业既需要不断创新的颠覆性突破，也需要脚踏实地的商业理性与技术安全护栏。目前世界模型的发展仍处于早期阶段，未来还有很长的路要走，当下行业的工作重心仍是解决数据获取、训练方法与评测框架等基础问题。