核心摘要
3D 生成和世界模型正在融合,但两者不是一回事。3D 生成产出 Mesh、NeRF、Gaussian Splat、点云和纹理资产;世界模型学习环境如何随物理、镜头和动作变化。生产级空间 AI 系统需要两者:3D 生成用于内容创建,世界模型用于仿真、机器人、游戏、数字孪生和具身智能。本文从工程角度拆解 Sora 式模拟器、World Labs 空间智能、3D 表征、评估指标和系统架构。
目录
- 核心要点
- 3D 生成 vs 世界模型
- 2026 年空间 AI 技术栈
- NeRF、Gaussian Splatting 与 Mesh
- Sora 式视频世界模型
- World Labs 与空间智能
- 参考架构
- 评估指标
- 实现模式
- 最佳实践
- 常见问题
- 总结
核心要点
- 3D 生成创建资产,世界模型模拟变化:后者关注物理、动作和未来状态预测。
- Gaussian Splatting 是实时场景捕捉的工程主力,Mesh 仍然是编辑、物理和引擎集成的主力。
- Sora 类模型展示了世界模型能力的雏形,但生产模拟器还需要显式可控性和干预评估。
- 空间 AI Pipeline 是多模态系统:图像、视频、深度、相机位姿、文本 Prompt 和 3D 表征必须对齐。
- 评估必须多视角和时序化,不能只看一张漂亮渲染图。
🔧 实用工具:使用 图片转 Base64 工具 准备视觉输入;使用 JSON 格式化工具 检查相机位姿、场景元数据和资产清单。
3D 生成 vs 世界模型
3D 生成和世界模型经常一起讨论,因为它们都要求空间一致性。但它们解决的问题不同。
| 能力 | 3D 生成 | 世界模型 |
|---|---|---|
| 主要输出 | Mesh、NeRF、Splat、点云、纹理 | 未来状态预测或仿真 |
| 主要输入 | 文本、图片、多视角图像 | 视频、动作、状态、观测 |
| 核心难点 | 几何与外观一致性 | 动态、因果、物理合理性 |
| 适合场景 | 游戏资产、电商、AR、数字孪生 | 机器人、规划、仿真、具身 Agent |
| 评估方式 | 几何准确率、渲染质量、可编辑性 | 时序一致性、动作预测、干预响应 |
已有文章 World Models vs LLMs 讨论了世界模型与 LLM 的 AGI 路线差异。本文聚焦生产空间 AI 工程。
2026 年空间 AI 技术栈
现代空间 AI 系统通常包含五层:
- 采集:图片、视频、深度图、LiDAR、相机位姿。
- 表征:Mesh、NeRF、Gaussian Splat、Voxel、Occupancy Field。
- 生成:文生 3D、图生 3D、视频转 3D、场景补全。
- 仿真:时序预测、物理动态、动作条件 Rollout。
- 服务:Web 预览、游戏引擎导出、机器人仿真器、AR Runtime。
NeRF、Gaussian Splatting 与 Mesh
不同 3D 表征有不同工程适用点。
| 表征 | 优势 | 局限 | 适合场景 |
|---|---|---|---|
| NeRF | 新视角合成质量高 | 训练/渲染慢、编辑难 | 照片级场景重建 |
| Gaussian Splatting | 实时渲染、视觉质量强 | 编辑和物理较难 | 交互式场景查看器 |
| Mesh | 可编辑、引擎友好 | 清洁拓扑生成难 | 游戏、CAD、机器人 |
| 点云 | 简单、贴近传感器 | 稀疏、视觉质量弱 | 机器人和地图 |
| Voxel/Occupancy | 利于推理和碰撞 | 内存开销大 | 仿真和规划 |
生产选型应看下游用途。如果用户只需要在浏览器里环视扫描房间,Gaussian Splatting 很合适;如果需要碰撞、绑定、物理和游戏引擎集成,Mesh 仍然必要。
Sora 式视频世界模型
Sora 式视频模型之所以重要,是因为它们隐式学习了空间与时序一致性:能保持物体身份、移动镜头,并生成类似物理规律的连续变化。
但生成式视频模型不自动等于可控世界模型。生产世界模型还需要:
- 显式状态表示。
- 动作条件。
- 可控镜头和物体运动。
- 干预下的一致 Rollout。
- 可测量预测误差。
- 与规划或仿真循环集成。
World Labs 与空间智能
World Labs 推动了“空间智能”概念:AI 系统应理解 3D 结构、物体持久性,以及 Agent 如何在世界中移动。工程含义是:图片和视频不应只被当作像素,而应提升为场景图、几何、对象和状态。
关键中间产物可以这样表示:
{
"sceneId": "scene_042",
"objects": [
{"id": "chair_1", "class": "chair", "pose": [1.2, 0.0, 2.4], "confidence": 0.91}
],
"camera": {"fx": 1150, "fy": 1150, "pose": "cam_pose_009"},
"representation": {"type": "gaussian_splat", "asset": "s3://scene/splat.ply"}
}
当场景被结构化后,Agent 才能推理导航、遮挡、物体持久性和动作后果。
参考架构
每个生成资产都应进入注册表,记录 Prompt、源媒体、模型版本、表征类型、许可证、质量分数和下游兼容性。
评估指标
3D 与世界模型评估必须是多维的:
| 指标 | 衡量内容 |
|---|---|
| 多视角一致性 | 同一对象在不同角度下是否一致 |
| Chamfer Distance | 几何形状与参考的相似度 |
| F-score | 形状重建质量 |
| 渲染质量 | 感知图像质量 |
| 时序一致性 | 物体身份和运动稳定性 |
| 动作预测误差 | 状态变化是否符合动作命令 |
| 可编辑性 | 是否能进入下游工具 |
| 物理合理性 | 碰撞、重力、物体持久性 |
不要只用一张渲染图评估 3D 生成。单视角漂亮可能掩盖破碎几何。
实现模式
资产清单应显式记录:
interface SpatialAssetManifest {
assetId: string;
representation: "mesh" | "nerf" | "gaussian_splat" | "point_cloud";
sourceType: "text" | "image" | "video" | "scan";
modelVersion: string;
coordinateSystem: "y_up" | "z_up";
files: Array<{ type: string; url: string }>;
quality: {
multiViewConsistency: number;
renderScore: number;
physicsReady: boolean;
};
}
这个清单能让下游服务、审计和重处理更稳定。
最佳实践
- 按下游用途选择表征,不要只追逐 benchmark。
- 保存相机位姿和坐标系,3D Bug 很多来自约定不一致。
- 多视角评估后再接受资产。
- 架构上分离资产生成与世界仿真。
- 保留源媒体和模型版本,便于复现和版权审查。
常见问题
3D 生成和世界模型有什么区别?
3D 生成创建 Mesh、Splat 或 NeRF 等空间资产;世界模型预测场景如何在动作、物理和镜头运动下随时间变化。
Sora 是真正的世界模型吗?
Sora 展示了世界模型式能力,例如视频一致性和类物理生成,但生产级世界模型还需要可控状态、动作条件和干预评估。
什么时候用 NeRF、Gaussian Splatting 或 Mesh?
NeRF 适合高质量新视角合成,Gaussian Splatting 适合实时场景查看,Mesh 适合需要编辑、物理碰撞和游戏引擎集成的场景。
如何评估 3D 生成质量?
应评估多视角一致性、几何准确率、渲染质量、可编辑性、物理可用性和时序一致性。世界模型还要评估动作条件预测误差。
为什么 3D 资产预览好看但生产不可用?
因为单个预览可能隐藏破碎拓扑、比例错误、UV 问题、缺少碰撞体或坐标系不一致。必须在目标 Runtime 中验证。
总结
3D 生成和世界模型是空间 AI 的两块基础能力。用 3D 生成创建资产,用世界模型模拟状态变化,再通过显式资产清单、评估和下游 Runtime 测试把两者连接起来。未来的重点不是更漂亮的视频,而是可控、可检查、动作感知的空间智能。