网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

小红书与复旦联手推出InstanceAssemble,AI绘画精准构图新突破

2025-12-27来源:快讯编辑:瑞雪

AI绘画领域迎来重要突破,小红书与复旦大学联合研发的InstanceAssemble技术,在布局控制生成(Layout-to-Image)方向取得创新性成果。该技术通过构建"实例组装注意力"机制,实现了复杂场景下的精准图像生成,相关研究已被国际顶级学术会议NeurIPS 2025收录。

区别于传统的文字生成图像(Text-to-Image)技术,布局控制生成需要同时满足空间位置约束和语义内容要求。现有技术普遍存在三大难题:物体位置偏移、语义内容脱节以及计算资源消耗过大。研究团队针对这些痛点,开发出能够精确控制每个物体位置与内容的生成方案,将AI绘画的构图精度提升到新高度。

核心技术突破在于创新设计的"实例拼装注意力"模块。该机制基于扩散变换器架构,通过解析用户提供的边界框坐标和内容描述,在指定位置生成符合语义的图像元素。实验数据显示,在包含90万个实例的密集场景测试中,新技术在布局对齐准确率和语义一致性方面均显著优于现有方法。

为降低技术使用门槛,研究团队采用轻量化适配策略。仅需调整约7100万个参数(相当于Stable Diffusion3-Medium模型总参数的3.46%),即可实现模型升级。当适配Flux.1模型时,额外参数需求更降至0.84%,这种高效适配方案大幅减少了计算资源消耗。

研究团队同步构建了专业评估体系,包含5000张图像和9万个实例的"Denselayout"基准测试集,以及全新的布局匹配度评分标准(LGS)。测试结果表明,经过稀疏场景训练的模型(实例数≤10),在密集场景(实例数≥10)中仍能保持稳定性能,展现出强大的场景适应能力。这项突破为AI绘画技术的商业化应用开辟了新路径。

清华唐杰谈AI新洞察:领域大模型存争议,AI发展与应用新趋势解析
原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此 最简单办法也只有不断增加不同ag…

2025-12-27

OpenAI新战略:赋予AI“完美记忆” 2026年或实现深度个性化服务
他认为,只有当 AI能够记住用户“一生中的每一个细节”,包括历史行为、文档、对话等,它才能超越私人助理,提供真正深度的个性化服务。据报道,公司目标是在 2026年左右实现这种强大的记忆功能,使未来的AI …

2025-12-26

荣耀WIN深度评测:以硬核实力铸就年度电竞旗舰新标杆
与此同时,185Hz超高刷电竞屏提供了当前最顶级的视觉流畅度,配合高达3500Hz的触控采样率,确保了“指哪打哪”的跟手操控,此外,针对电竞场景的深度优化同样全面:AI环绕低音炮与网络增强技术保障了沉浸的听感…

2025-12-26