Seed3D 1.0:从图像到高保真仿真就绪的 3D 资产

发布时间:2025-12-06 10:32:16 作者:cxyx 来源:本站 浏览量(2) 点赞(1)
摘要:25年10月来自字节 Seed 的论文“Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets”。开发具身人工智能智体需要可扩展的训练环境,以平衡内容多样性和物理精度。世界模拟器可以提供这样的环境,但它们也面临着不同的局限性:基于视频的方法可以生成多样化的内容,但缺乏用于交互式学习的实时物理

25年10月来自字节 Seed 的论文“Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets”。

 

开发具身人工智能智体需要可扩展的训练环境,以平衡内容多样性和物理精度。世界模拟器可以提供这样的环境,但它们也面临着不同的局限性:基于视频的方法可以生成多样化的内容,但缺乏用于交互式学习的实时物理反馈;而基于物理的引擎可以提供精确的动力学,但由于手动创建资源成本高昂,其可扩展性受到限制。本文提出 Seed3D 1.0,一个基础模型,它能够从单张图像生成可用于仿真的 3D 资源,在保持物理严谨性的同时,解决可扩展性方面的挑战。与现有的 3D 生成模型不同,系统生成的资源具有精确的几何形状、对齐良好的纹理和逼真的物理材质。这些资源只需极少的配置即可直接集成到物理引擎中,从而可以应用于机器人操作和仿真训练。除了单个目标之外,该系统还可以通过将目标组装成连贯的环境来扩展以生成完整的场景。通过实现可扩展的、可用于仿真的内容创建,Seed3D 1.0 为推进基于物理世界模拟器的发展奠定基础。

 

几何

Seed3D 1.0 中的几何生成专注于创建高保真、可用于仿真的三维形状,这些形状具有封闭的流形几何结构,从而在保留结构细节的同时实现可靠的物理仿真。与二维生成任务 [14, 46] 类似,该方法学习在压缩的潜空间中对三维几何体进行去噪,结合变分自编码器 (VAE) [25] 和基于修正流的扩散transformer (DiT) [36]。该架构包含两个关键组件:

 

• Seed3D-VAE:一个 VAE,用于学习三维几何体的紧凑潜表示,从而能够在保留局部表面细节的同时,高效地编码和重建复杂的网格结构。

• Seed3D-DiT:一个基于修正流的 DiT,在学习的潜空间中运行,以参考图像为条件合成各种三维形状。

 

如图所示几何生成的流水线:

image.png

Seed3D-VAE

Seed3D-VAE 的设计遵循 3DShape2VecSet [10, 65] 的思路,它将表面点云编码成潜向量集,并重建连续的几何表示 [22, 66]。采用截断符号距离函数 (TSDF) 作为监督信号 [10],有效地约束回归范围,同时保留精细细节。

 

Seed3D-DiT

Seed3D-DiT 基于 Seed3D-VAE 学习的几何-觉察潜空间,采用修正流扩散框架,通过对噪声到结构化潜表示的转换进行建模,生成 3D 形状,该转换以图像输入为条件。

 

纹理

除了 3D 形状生成之外,高质量的纹理合成对于创建逼真的 3D 资产同样至关重要。纹理生成流程通过三个顺序组件生成基于物理的材质 [8]:

 

• Seed3D-MV:一种多视角扩散模型,它基于参考图像和 3D 形状指导,从多个视角生成一致的 RGB 图像。

• Seed3D-PBR:一种扩散模型,它将多视角 RGB 图像分解为反照率、金属度和粗糙度贴图,用于基于物理的渲染。

• Seed3D-UV:一种基于扩散的 UV 修复模型,它通过增强 UV 空间中的纹理完整性来解决自遮挡伪影。

 

Seed3D-MV

现有的多视角图像生成方法[54, 56]将多视角注意机制融入扩散模型中。虽然这些方法在图像合成中实现多视角一致性,但通常需要额外的模块,例如ControlNet[67]或MVAdapter[21],来编码几何信息和参考图像引导,从而引入了显著的参数开销。最近的研究[34]通过拼接多视角图像并微调预训练的DiT模型[27]来计算跨视角注意,从而缓解这一问题。然而,由于底层DiT架构最初并非为多视角生成而设计,因此该方法在应用于实际场景图像时可能会产生次优结果。

 

为了克服这些局限性,基于多模态扩散transformer(MMDiT)架构[14]开发Seed3D-MV。如图所示,其方法引入一种上下文多模态条件化策略,并采用专门的位置编码。为了应对多视角生成中序列长度的增加,采用移位时间步长采样来保持生成质量。

 

Seed3D-PBR

高质量的材质生成对于创建逼真的3D内容至关重要。基于物理的渲染(PBR)材质包含反照率、金属度和粗糙度三个分量,是实现照片级真实感渲染效果的基础。现有的PBR合成方法分为两类:一类是基于生成的方法[17, 26],它从参考图像和3D几何体合成PBR贴图;另一类是基于估计的方法[33],它将多视图图像直接分解为材质分量。由于高质量PBR训练数据有限,与估计方法相比,生成方法通常产生不够逼真的结果。因此,采用估计方法,并提出Seed3D-PBR,它将Seed3D-MV生成的多视图图像分解为多视图一致的反照率、金属度和粗糙度贴图。与现有方法 [12, 17, 18, 33] 不同,其提出一种基于 DiT 的架构,采用参数高效的双流设计,以提高估计精度,同时处理不同材料属性的独特特征。

 

在每个 DiT 模块中为每种模态(反照率和 MR)分别实例化Q、K 和 V 张量的投影层。计算出各自的 Q、K、V 张量后,将两种模态的潜向量进行全局图像条件化处理,并通过一个共享的全注意模块进行处理。所有其他 DiT 组件,包括前馈网络,在两种模态之间保持共享。为了区分模态,引入可学习的模态嵌入,并将其添加到位置嵌入中。最后,两个解码器头分别将处理后的潜向量映射到反照率和 MR 输出。与使用完全独立的网络相比,这种设计有效地捕获模态特定的特征,同时显著减少参数总数。

 

Seed3D-UV

虽然 Seed3D-MV 和 Seed3D-PBR 可以生成高质量的多视角反照率和 MR 图像,但将这些图像转换为完整的 UV 纹理贴图仍然面临挑战。由于视野覆盖范围有限以及存在自遮挡,直接将多视角观测结果烘焙到 UV 空间会导致纹理贴图不完整,存在区域缺失。为了解决这个问题,提出 Seed3D-UV,一种用于 UV 纹理补全的坐标条件扩散模型。

 

3D生成模型的性能从根本上取决于训练数据的规模、多样性和质量。与图像和视频等2D数据相比,由于其固有的复杂性和异构性,3D数据处理面临着更大的挑战。为了应对这些挑战,开发一个自动化的3D数据预处理流程和可扩展的数据基础设施,将庞大且异构的原始3D资产集合转换为高质量、多样化且一致的数据集,用于训练稳健的3D生成模型。

 

数据预处理

为了应对 3D 数据固有的复杂性和异构性,设计一个全面的多阶段预处理流程,系统地将原始 3D 资产集合转换为可用于训练的数据集。每个阶段都针对 3D 数据处理中的特定挑战,确保只有符合标准的高质量资产才能被纳入最终的训练数据集。

 

数据工程基础设施

为了确保整个数据流水线的可扩展性、可追溯性和无缝集成,开发一个全面的数据工程基础设施,该基础设施包含三个集成组件:用于元数据索引和 API 访问的集中式数据管理系统、用于资产持久化和交互式管理的统一存储和可视化平台,以及用于高吞吐量执行和容错的分布式处理基础设施。

 

几何模型训练

Seed3D-DiT 训练采用三阶段渐进式策略:预训练 (PT)、持续训练 (CT) 和监督微调 (SFT)。这种方法能够高效学习,并逐步提升模型容量和输出质量。

 

预训练 (PT)。用 256 个潜 tokens的低分辨率表示从头开始训练模型,以建立基础的形状生成能力。此阶段侧重于学习基本的几何表示以及图像条件和 3D 形状之间的跨模态对齐。用包含各种物体类别和视角的完整训练数据集,以确保模型具有强大的泛化能力。

 

持续训练 (CT)。在预训练模型的基础上,逐步增加潜序列长度至 4096 个 token,从而能够捕捉更精细的几何细节和表面结构。继续在完整数据集上进行训练,并采用增强的数据增强方法,以在高分辨率下保持模型的泛化性能。

 

监督微调 (SFT)。在持续训练之后,用精心挑选的高质量子集,并降低学习率来微调模型,以进一步提高生成质量,从而生成具有更高几何精度和表面细节的 3D 目标。

 

纹理模型训练

用两阶段方法从头开始训练所有纹理生成模型(Seed3D-MV、Seed3D-PBR、Seed3D-UV)。第一阶段,在完整数据集上进行训练,以学习全面的多视角一致性和材质分解。第二阶段,在精心挑选的高质量子集上进行微调,降低学习率,从而在保持模型对各种纹理和材质的良好泛化能力的同时,提高输出质量。

 

大规模扩散模型训练需要高效利用计算资源和强大的故障处理机制。开发一套综合训练基础设施,集成硬件-觉察优化、内存高效并行策略和容错机制,从而实现稳定、高吞吐量的大规模训练。

 

内核融合

为了最大限度地利用 GPU,将 torch.compile 与针对性能关键型算子的自定义 CUDA 内核集成。通过性能分析,发现内存密集型操作是主要瓶颈。将多个连续的逐元素操作融合到统一的内核中,从而降低内存访问开销并提高运算强度。此外,还采用 FlashAttention [13] 等优化库进行注意计算,以及 Apex 融合优化器进行权重更新,从而大幅降低计算成本。这些内核级优化共同减少 GPU 空闲时间,并提高端到端训练吞吐量。

 

并行策略

跨多个 GPU 扩展扩散模型训练需要在通信开销和内存效率之间取得平衡。采用混合分片数据并行(HSDP)[69],它结合节点内的数据并行和节点间的完全分片数据并行(FSDP)。这种分层方法实现高效的权重和优化器状态分片,同时最大限度地减少跨节点通信,从而能够有效地扩展到大型集群配置,并降低性能下降。

 

多级激活检查点

内存限制是训练大型扩散transformer的一个根本瓶颈。虽然全梯度检查点[11]可以缓解GPU内存压力,但它会在反向传播过程中引入大量的重复计算开销。为了解决这一权衡问题,采用多级激活检查点(MLAC)[60],它平衡内存使用和计算开销。MLAC根据重复计算成本选择性地对激活值进行检查点,将高成本张量卸载到CPU内存,并通过异步预取将内存传输与计算重叠。与完全检查点相比,这种方法可以在性能影响最小的情况下显著节省内存。

二维码

扫一扫,关注我们

感兴趣吗?

欢迎联系我们,我们愿意为您解答任何有关网站疑难问题!

您身边的【网站建设专家】

搜索千万次不如咨询1次

主营项目:网站建设,手机网站,响应式网站,SEO优化,小程序开发,版权登记,商标注册等

立即咨询 400-8050832