腾讯近日发布了一款名为Hunyuan3D-1.0的开源大模型,据官方介绍,这是首个能同时支持文本和图像生成的三维开源模型。
该模型采用了一种创新的两阶段生成方法,可以在保证高质量和可控性的基础上,仅需10秒就能生成3D资产。在第一阶段,团队利用多视角扩散模型,在约4秒内快速生成包含丰富纹理和几何信息的多视角图像。这一步骤有效地将任务从单视角重建转变为多视角重建,从而提高了生成的准确性和效率。
进入第二阶段,团队引入了一种前馈重建模型,该模型能够利用第一阶段生成的多视角图像,在约3秒内完成3D资产的快速且精确重建。这一重建模型不仅学会了处理多视角扩散过程中引入的噪声和不一致性,还能有效利用条件图像中的信息,高效地恢复3D结构。
官方强调,Hunyuan3D-1.0模型具有强大的泛化能力和可控性,能够重建各种尺度的物体,无论是宏伟的建筑还是精致的工具花草,都能得到高质量的重建效果。
为了方便开发者和研究者使用和学习该模型,腾讯已经将Hunyuan3D-1.0在Github和Huggingface平台上开源,并提供了详细的研究论文。感兴趣的读者可以通过以下链接获取更多信息:
Github:https://github.com/Tencent/Hunyuan3D-1
Huggingface:https://huggingface.co/tencent/Hunyuan3D-1
研究论文:https://3d.hunyuan.tencent.com/hunyuan3d.pdf