网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

复旦百度联手突破!音频直接生成4K一小时长视频

2024-10-21来源:ITBEAR编辑:瑞雪

复旦大学与百度携手推出全新AI模型——Hallo2,该模型已正式在GitHub开源。Hallo2能够生成长达数小时、分辨率为4K的人物动画,相较于前代模型,实现了显著提升。

Hallo2模型基于latent diffusion models构建,引入了数据增强方法,如patch-drop和高斯噪声,有效提升了长时间视频的视觉一致性和时间连贯性。同时,该模型还结合了向量量化生成对抗网络和时间对齐技术,确保了高分辨率视频的质量和流畅性。

Hallo2还创新性地将可调整的语义文本标签的肖像表情作为条件输入,提高了生成内容的可控性和多样性。据项目页面介绍,Hallo2是首个实现4K分辨率并生成长达1小时音频驱动人像图像动画的方法,且可通过文本提示进行增强。

附Hallo2项目地址。

从“偏科生”到150亿公司CTO:彭志辉用技术硬实力书写科技创业传奇
他咬咬牙放弃了,两年后共享单车火成风口,戴威的ofo拿了上百亿融资,最后却欠了一屁股债,车堆成山没人管,新闻里说ofo用户退押金要排几百万号,彭志辉更庆幸当年的决定:“风口里的坑,比机会多”。 后来他又碰了…

2025-12-02