核心摘要

3D 生成和世界模型正在融合,但两者不是一回事。3D 生成产出 Mesh、NeRF、Gaussian Splat、点云和纹理资产;世界模型学习环境如何随物理、镜头和动作变化。生产级空间 AI 系统需要两者:3D 生成用于内容创建,世界模型用于仿真、机器人、游戏、数字孪生和具身智能。本文从工程角度拆解 Sora 式模拟器、World Labs 空间智能、3D 表征、评估指标和系统架构。

目录

核心要点

  • 3D 生成创建资产,世界模型模拟变化:后者关注物理、动作和未来状态预测。
  • Gaussian Splatting 是实时场景捕捉的工程主力,Mesh 仍然是编辑、物理和引擎集成的主力。
  • Sora 类模型展示了世界模型能力的雏形,但生产模拟器还需要显式可控性和干预评估。
  • 空间 AI Pipeline 是多模态系统:图像、视频、深度、相机位姿、文本 Prompt 和 3D 表征必须对齐。
  • 评估必须多视角和时序化,不能只看一张漂亮渲染图。

🔧 实用工具:使用 图片转 Base64 工具 准备视觉输入;使用 JSON 格式化工具 检查相机位姿、场景元数据和资产清单。

3D 生成 vs 世界模型

3D 生成和世界模型经常一起讨论,因为它们都要求空间一致性。但它们解决的问题不同。

能力 3D 生成 世界模型
主要输出 Mesh、NeRF、Splat、点云、纹理 未来状态预测或仿真
主要输入 文本、图片、多视角图像 视频、动作、状态、观测
核心难点 几何与外观一致性 动态、因果、物理合理性
适合场景 游戏资产、电商、AR、数字孪生 机器人、规划、仿真、具身 Agent
评估方式 几何准确率、渲染质量、可编辑性 时序一致性、动作预测、干预响应

已有文章 World Models vs LLMs 讨论了世界模型与 LLM 的 AGI 路线差异。本文聚焦生产空间 AI 工程。

2026 年空间 AI 技术栈

现代空间 AI 系统通常包含五层:

  1. 采集:图片、视频、深度图、LiDAR、相机位姿。
  2. 表征:Mesh、NeRF、Gaussian Splat、Voxel、Occupancy Field。
  3. 生成:文生 3D、图生 3D、视频转 3D、场景补全。
  4. 仿真:时序预测、物理动态、动作条件 Rollout。
  5. 服务:Web 预览、游戏引擎导出、机器人仿真器、AR Runtime。
flowchart LR A["图片 / 视频 / 深度"] --> B["相机位姿 + 预处理"] B --> C{"3D 表征"} C -->|"实时"| D["Gaussian Splatting"] C -->|"可编辑"| E["Mesh"] C -->|"新视角"| F["NeRF"] D --> G["渲染器 / 仿真器"] E --> G F --> G G --> H["世界模型 Rollout"]

NeRF、Gaussian Splatting 与 Mesh

不同 3D 表征有不同工程适用点。

表征 优势 局限 适合场景
NeRF 新视角合成质量高 训练/渲染慢、编辑难 照片级场景重建
Gaussian Splatting 实时渲染、视觉质量强 编辑和物理较难 交互式场景查看器
Mesh 可编辑、引擎友好 清洁拓扑生成难 游戏、CAD、机器人
点云 简单、贴近传感器 稀疏、视觉质量弱 机器人和地图
Voxel/Occupancy 利于推理和碰撞 内存开销大 仿真和规划

生产选型应看下游用途。如果用户只需要在浏览器里环视扫描房间,Gaussian Splatting 很合适;如果需要碰撞、绑定、物理和游戏引擎集成,Mesh 仍然必要。

Sora 式视频世界模型

Sora 式视频模型之所以重要,是因为它们隐式学习了空间与时序一致性:能保持物体身份、移动镜头,并生成类似物理规律的连续变化。

但生成式视频模型不自动等于可控世界模型。生产世界模型还需要:

  • 显式状态表示。
  • 动作条件。
  • 可控镜头和物体运动。
  • 干预下的一致 Rollout。
  • 可测量预测误差。
  • 与规划或仿真循环集成。
flowchart TD A["当前观测"] --> B["潜在世界状态"] C["动作或镜头命令"] --> B B --> D["未来状态预测"] D --> E["渲染帧"] D --> F["规划信号"]

World Labs 与空间智能

World Labs 推动了“空间智能”概念:AI 系统应理解 3D 结构、物体持久性,以及 Agent 如何在世界中移动。工程含义是:图片和视频不应只被当作像素,而应提升为场景图、几何、对象和状态。

关键中间产物可以这样表示:

json
{
  "sceneId": "scene_042",
  "objects": [
    {"id": "chair_1", "class": "chair", "pose": [1.2, 0.0, 2.4], "confidence": 0.91}
  ],
  "camera": {"fx": 1150, "fy": 1150, "pose": "cam_pose_009"},
  "representation": {"type": "gaussian_splat", "asset": "s3://scene/splat.ply"}
}

当场景被结构化后,Agent 才能推理导航、遮挡、物体持久性和动作后果。

参考架构

flowchart TD A["用户 Prompt 或采集场景"] --> B["输入校验器"] B --> C["表征路由器"] C -->|"资产生成"| D["Text/Image-to-3D 模型"] C -->|"场景捕捉"| E["Gaussian Splatting 构建器"] C -->|"仿真"| F["世界模型"] D --> G["资产校验器"] E --> G F --> H["时序评估器"] G --> I["资产注册表"] H --> I I --> J["Web / 游戏引擎 / 机器人仿真器"]

每个生成资产都应进入注册表,记录 Prompt、源媒体、模型版本、表征类型、许可证、质量分数和下游兼容性。

评估指标

3D 与世界模型评估必须是多维的:

指标 衡量内容
多视角一致性 同一对象在不同角度下是否一致
Chamfer Distance 几何形状与参考的相似度
F-score 形状重建质量
渲染质量 感知图像质量
时序一致性 物体身份和运动稳定性
动作预测误差 状态变化是否符合动作命令
可编辑性 是否能进入下游工具
物理合理性 碰撞、重力、物体持久性

不要只用一张渲染图评估 3D 生成。单视角漂亮可能掩盖破碎几何。

实现模式

资产清单应显式记录:

typescript
interface SpatialAssetManifest {
  assetId: string;
  representation: "mesh" | "nerf" | "gaussian_splat" | "point_cloud";
  sourceType: "text" | "image" | "video" | "scan";
  modelVersion: string;
  coordinateSystem: "y_up" | "z_up";
  files: Array<{ type: string; url: string }>;
  quality: {
    multiViewConsistency: number;
    renderScore: number;
    physicsReady: boolean;
  };
}

这个清单能让下游服务、审计和重处理更稳定。

最佳实践

  1. 按下游用途选择表征,不要只追逐 benchmark。
  2. 保存相机位姿和坐标系,3D Bug 很多来自约定不一致。
  3. 多视角评估后再接受资产
  4. 架构上分离资产生成与世界仿真
  5. 保留源媒体和模型版本,便于复现和版权审查。

常见问题

3D 生成和世界模型有什么区别?

3D 生成创建 Mesh、Splat 或 NeRF 等空间资产;世界模型预测场景如何在动作、物理和镜头运动下随时间变化。

Sora 是真正的世界模型吗?

Sora 展示了世界模型式能力,例如视频一致性和类物理生成,但生产级世界模型还需要可控状态、动作条件和干预评估。

什么时候用 NeRF、Gaussian Splatting 或 Mesh?

NeRF 适合高质量新视角合成,Gaussian Splatting 适合实时场景查看,Mesh 适合需要编辑、物理碰撞和游戏引擎集成的场景。

如何评估 3D 生成质量?

应评估多视角一致性、几何准确率、渲染质量、可编辑性、物理可用性和时序一致性。世界模型还要评估动作条件预测误差。

为什么 3D 资产预览好看但生产不可用?

因为单个预览可能隐藏破碎拓扑、比例错误、UV 问题、缺少碰撞体或坐标系不一致。必须在目标 Runtime 中验证。

总结

3D 生成和世界模型是空间 AI 的两块基础能力。用 3D 生成创建资产,用世界模型模拟状态变化,再通过显式资产清单、评估和下游 Runtime 测试把两者连接起来。未来的重点不是更漂亮的视频,而是可控、可检查、动作感知的空间智能。

相关资源