网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

小红书与复旦联手推出InstanceAssemble:AI绘画精准构图新突破

2025-12-26来源:天脉网编辑:瑞雪

AI绘画领域迎来重要突破——小红书与复旦大学联合研发的InstanceAssemble技术,成功攻克布局控制生成难题,推动AI绘画进入精准构图时代。这项创新成果已被国际顶级学术会议NeurIPS 2025收录,标志着中国科研团队在生成式AI领域取得关键进展。

传统AI绘画主要依赖"文字生成图像"(Text-to-Image)技术,用户通过文本描述生成对应画面。而新一代"布局控制生成"(Layout-to-Image)技术则更进一步,允许用户通过边界框、分割掩码或骨架图等空间约束条件,精确控制图像中每个元素的位置与内容。这种技术突破为商业设计、游戏开发等领域带来革命性变革,但始终面临布局错位、语义断层和计算成本过高等挑战。

研究团队提出的"实例组装注意力"机制,通过解耦物体位置与语义特征,实现了像素级精准控制。该技术基于扩散变换器架构,用户仅需提供物体边界框坐标和内容描述,系统即可在指定位置生成符合语义的图像元素。实验数据显示,在包含90万个实例的密集布局数据集上,新技术在布局对齐精度和语义一致性方面均显著优于现有方案。

技术落地性是该研究的另一大亮点。研究团队采用轻量化适配策略,仅需调整约7100万个参数(相当于原模型3.46%的额外计算量),即可将技术无缝集成到Stable Diffusion3-Medium模型。针对Flux.1模型的适配方案更将参数需求压缩至0.84%,大幅降低企业应用门槛。这种"即插即用"的设计理念,为AI绘画技术的商业化推广开辟了新路径。

为建立科学的评估体系,团队同步构建了包含5000张图像和9万个实例的"Denselayout"基准测试集,并设计出全新的"Layout Grounding Score"(LGS)评估指标。该指标通过量化布局与生成图像的匹配程度,为行业提供了客观的技术对比标准。实验证明,即使在训练阶段仅接触稀疏布局(≤10个实例)的情况下,系统在密集场景(≥10个实例)中仍能保持稳定性能,展现出强大的泛化能力。

这项突破性成果不仅解决了AI绘画领域的核心痛点,更为多模态大模型的发展提供了新思路。随着技术持续优化,未来在虚拟场景构建、个性化内容生成等领域将展现更广阔的应用前景。研究团队表示,将持续完善技术细节,推动AI绘画从"可用"向"好用"迈进。

小米Watch 5评测:6天续航+7种手势隔空操控 智能手表新标杆来了
小米手表5使用了双芯架构,同时搭载了高通W5和恒玄EBS2800BP芯片,性能方面无须担心,日常的健康监测功能使用低功耗核心让续航也更有保障。 这次小米手表5还可选eSIM功能,甚至可以独立接打电话,使用场…

2025-12-26

WIKO X70深度体验:硬核抗摔+北斗通信 鸿蒙生态打造全能千元机
当然,不仅仅是抗摔耐用,WIKO X70还充分考虑到了年轻人户外探索的极端场景,从通讯上做了坚实保障,而它也正是我们看到的在千元价位段为数不多支持北斗卫星通信的手机。另一种是通过畅连App使用,长按侧面X键…

2025-12-26

华为Pura X2或率先登场 阔比例大折叠设计有望引领行业新潮流
【CNMO科技消息】12月26日,数码博主“数码闲聊站”爆料称,一个阔比例大折叠目前正在京东方(BOE)进行屏幕测试,内屏尺寸预计在7.6至7.7英寸左右。并且博主称,该机可能领先其他竞争对手的同类产品约一个…

2025-12-26