在 AI 技术快速发展的当下,单张图像生成 3D 模型的技术突破引起了广泛关注。今天要和大家聊聊 Zero123 的扩散模型,看看它在单张图像生成 3D 模型的多视角重建技术方面表现如何。
先来说说 Zero123 扩散模型的基本情况。Zero123 是基于 Stable Diffusion 进行微调的模型,它的独特之处在于能够控制相机的相对视角变换。简单来说,给定一张物体的 RGB 图像和一个相对的相机变换,Zero123 可以生成该物体在变换后视角下的对应图像。这就为后续的 3D 重建提供了多视角的图像基础。
那么,Zero123 是如何实现多视角重建的呢?这里不得不提 One-2-3-45 方法。它结合了 Zero123 生成的多视角图像和基于 SDF 的通用神经曲面重建模块。具体来说,首先利用 Zero123 生成多视角图像,然后通过姿态估计模块推断输入图像的仰角,再将多视角姿态图像输入到重建模块中进行 360° 网格重建。这种方法摆脱了传统逐物体优化的耗时过程,大大缩短了生成时间,只需 45 秒就能生成一个完整的 3D 纹理网格。
Zero123 在技术上有不少创新点。一方面,它采用了两阶段的多视角合成方法,先通过 Zero123 生成多视角图像,再进行 3D 重建。另一方面,在训练过程中,通过选择源视图并添加深度监督,使得重建模块能够处理来自 Zero123 的不一致预测,从而生成一致的 3D 模型。此外,Zero123 还引入了可见性引导的 SDS 权重机制,根据每个像素在输入视角中的可见程度,动态调节扩散模型的引导强度,确保在已有照片信息处保持忠实,在空白区域合理发挥想象力。
从性能表现来看,Zero123 也有不错的成绩。在 Objaverse 和 GoogleScannedObjects 数据集上的实验结果显示,One-2-3-45 方法在 F-score 方面优于所有基线方法,在 CLIP 相似度方面也表现出色。而且,其运行时间相比基于优化的方法有明显优势,在 A100 GPU 上每幅图像大约需要 1 秒钟,三维重建模块只需要大约 5 秒钟。
不过,Zero123 也存在一些局限性。例如,在处理复杂背景或模糊主体的图像时,可能会出现识别不准确的情况。此外,对于一些特定的设计风格或细节要求,Zero123 可能还需要进一步的优化和调整。在硬件要求方面,Stable Zero123 需要至少 24GB 显存的 GPU,这对于普通用户来说可能是一个挑战。
在实际应用中,Zero123 有着广泛的前景。它可以应用于智能家居重建,仅需从 YouTube 看房视频中提取 15 张图像,配合 Colmap 标注相机位姿和 SAM2 物体分割,就能重建出高质量的带纹理场景模型。在 3D AIGC 领域,借助 Zero123 的生成式先验,用户可以轻松实现基于文本的场景编辑,为影视特效、游戏开发等带来了极大的便利。
总的来说,Zero123 的扩散模型在单张图像生成 3D 模型的多视角重建技术方面取得了显著的进展。它的快速生成能力、较高的模型质量以及广泛的应用场景,使其在 3D 生成领域具有重要的地位。尽管还存在一些局限性,但随着技术的不断发展和优化,相信 Zero123 会在更多领域发挥重要作用。