WorldGen – Meta推出的3D世界生成端到端系统,几分钟内生成完整的 3D 世界。

发现1个月前发布 up博主
191 00

Meta 推出了 WorldGen,这是一种端到端系统,可仅凭单条文本提示词,自动生成可交互、可导航的三维世界,不仅具备高度沉浸感,更支持用户真正步入其中、自由探索。WorldGen 融合了程序化逻辑推理、基于扩散模型的三维生成技术以及面向对象的场景分解方法,最终输出几何结构严谨、视觉表现丰富、渲染效率优异的三维场景,适用于游戏开发、模拟仿真及沉浸式社交环境等多元应用。

57f7746a2052888b060701c2387f0c16WorldGen是什么

WorldGen 是 Meta 最新推出的先进端到端系统,能通过一段文本提示生成可交互、可导航的 3D 世界。用户只需输入简单的描述,如“中世纪村庄”或“火星基地”,系统能在几分钟内生成一个风格一致、结构合理的虚拟世界,覆盖 50×50 米的区域。WorldGen基于程序化推理、扩散模型和面向对象的场景分解,生成的 3D 世界可以直接兼容主流游戏引擎(如 Unity 和 Unreal),无需额外转换。WorldGen 的出现有望改变传统 3D 内容创作的复杂流程,推动内容创作走向大众化。

t-40

WorldGen的主要功能

  • 文本生成 3D 世界:用户只需输入简单的文本提示(如“赛博朋克城市”或“中世纪村庄”),WorldGen 能在几分钟内生成完整的 3D 世界。
  • 可交互和可导航:模型生成的 3D 世界支持角色自由移动和交互,不会出现卡顿或无法通过的区域。
  • 风格一致性:模型生成的世界在风格和主题上保持一致,例如中世纪场景中不会出现现代元素。
  • 结构合理:不同区域之间通过可通行的方式连接,确保整个场景的连贯性和功能性。
  • 兼容主流游戏引擎:生成的 3D 资产能直接导入 Unity 和 Unreal 等主流游戏引擎,无需额外转换。
  • 支持大规模世界生成:目前可生成 50×50 米的场景,未来计划支持更大规模的世界。

WorldGen的技术原理

  • 程序化布局生成:使用大型语言模型(LLM)将文本提示转换为程序化生成的参数,生成场景的粗略布局(blockout),包括地形、空间分区和主要结构。
  • 图像到 3D 重建:基于生成的布局,通过深度条件生成参考图像,用图像到 3D 的扩散模型重建整个场景的几何结构。
  • 场景分解:将生成的单一 3D 网格分解为多个独立的对象(如建筑、树木等),便于后续的细化和编辑。
  • 对象增强:对每个对象进行单独的图像增强、几何细化和纹理生成,提升细节和视觉效果。
  • 导航网格约束:在生成过程中,导航网格(navmesh)确保场景的可通行性,使角色能在场景中自由移动。
  • 多阶段优化:整个流程分为规划、重建、分解和增强四个阶段,逐步提升生成世界的质量和功能性。

WorldGen的应用场景

  • 游戏开发:快速生成游戏场景的初始版本,节省传统建模时间,支持动态内容生成和个性化游戏体验。
  • 虚拟现实(VR)和增强现实(AR):为 VR 和 AR 应用生成沉浸式虚拟环境,用于培训、模拟和教育体验。
  • 影视和动画制作:快速生成电影或动画中的虚拟场景,帮助导演和美术团队快速评估创意。
  • 教育和培训:模型能生成历史重现、科学模拟和技能培训的虚拟场景,增强教学效果和互动性。
  • 建筑设计和城市规划:快速生成建筑和城市规划的虚拟模型,帮助设计师和规划师评估方案。
© 版权声明

相关文章

暂无评论

none
暂无评论...