Meta发布WorldGen：文本生成可交互3D世界的技术实践

想象一下这个场景：你正准备开发一款独立游戏，或者只是想在虚拟空间里搭建一个自己的“秘密基地”。虽然脑子里画面很清晰——可能是个赛博朋克风格的后巷，或者是充满苔藓的遗迹——但一打开3D软件，面对空荡荡的视口和复杂的建模工具，热情瞬间凉了一半。

这也是为什么我这两天一直在看Meta刚发布的WorldGen。

作为每天在导航站里测试各种AI工具的人，我见过不少文生3D模型的产品。它们大多只能生成单个物体，比如一把椅子、一个花瓶，稍微复杂点的往往就变成了“纸片楼”——只能看不能动。但WorldGen这次切入点不太一样，官方博客（发布于2025年11月21日）直接把它定义为：

"A state-of-the-art end-to-end system for generating interactive and navigable 3D worlds from a single text prompt."

（一个最先进的端到端系统，只需一段文字提示，就能生成可交互、可导航的3D世界。）

图1：WorldGen可以从简单的文字提示生成完整的可交互3D场景，包含丰富的细节和可导航的空间结构

它是怎么做到的？我仔细读了读他们的技术报告，发现他们并没有试图“大力出奇迹”一次性生成所有东西，而是把过程拆解得非常有条理，结合了程序化推理（procedural reasoning）和扩散生成技术。

简单来说，WorldGen的技术实现分了四个阶段，这套逻辑对我们理解AI生成很有参考价值：

Planning（规划）

系统不会上来就画贴图，而是先像建筑师一样搞规划。它会生成程序化粗模（Procedural blockout）和导航网格（Navmesh）。这就好比盖房子前先画好了蓝图和动线,保证生成的空间是让人"走得通"的，而不是一堆杂乱的几何体堆砌。

Reconstruction（重建）

有了骨架，接着开始填肉。这一步利用图像转3D的基础模型，配合刚才生成的导航网格来构建初始场景。

Decomposition（分解）

这是我觉得最实用的一步。很多生成器出来的场景是一整块死板的模型，没法编辑。WorldGen在这里用了一种加速版的AutoPartGen技术，把场景里的物体拆解提取出来（Part extraction）。这意味着场景里的桌子、墙壁可能是独立的，方便后续调整。

Refinement（精化）

最后就是精装修了。通过专门的模型对网格和纹理进行优化（Mesh refinement & Texturing），把模糊的细节修清楚。

图2：WorldGen的技术管线包含Planning（规划）、Reconstruction（重建）、Decomposition（分解）、Refinement（精化）四个阶段

为什么要这么折腾？

现在市面上很多方法是从单一视点出发生成的。这就导致一个问题：你在3-5米范围内看还行，一旦走远了，或者转个身，透视和细节就崩了。转身一看，更糟。

WorldGen解决的就是这个问题。按照官方的说法，它能生成半个足球场大小范围的完整场景，还能保持几何一致、视觉丰富、渲染高效（geometrically consistent, visually rich, and render-efficient）。对于目前的技术水平来说，能在这个规模内保持风格不崩，算得上难得。

对我们有什么用？

最直接的好处是兼容性。它生成的内容可以直接导入Unity和Unreal这些标准游戏引擎，不需要复杂的格式转换。省下的，是白模时间。

这也符合Meta在Connect大会上画的那个愿景：未来任何人，哪怕不写代码，也能构建自己的虚拟世界。