网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

京东JoyAI-Image-Edit图像模型开源,引领AI图像编辑进入三维空间重塑新时代

2026-04-08来源:天脉网编辑:瑞雪

在AI图像编辑领域,传统模型长期面临空间逻辑混乱的瓶颈——移动物体时出现变形、切换视角时透视错乱、调整物体层级时遮挡关系失衡。这些难题源于模型对三维空间结构的理解缺失,导致编辑操作仅停留在像素层面。京东探索研究院近日推出的开源模型JoyAI-Image-Edit,通过构建完整的空间智能体系,实现了从平面修图到三维空间重塑的技术跨越。

该模型创新性地将空间认知能力深度融入图像生成流程,通过建立相机坐标系变换、物体空间位移旋转、几何结构精准控制等核心技术模块,构建起覆盖空间位置关系、多视角一致性、场景推理等维度的完整体系。实验数据显示,在物体移动精度、空间布局合理性等关键指标上,该模型已达到国际领先水平。其突破性在于打破了"生成图像"与"理解空间"的界限,使AI既能生成逼真视觉效果,又能精准维护场景的几何规律与物理合理性。

三大核心编辑范式构成技术护城河:视角变换功能支持通过自然语言指令调整相机参数,在保持场景几何一致性的前提下生成新视角图像;空间漫游能力可连续生成逻辑连贯的多视角序列,实现三维场景中的"虚拟漫游";物体空间关系操控技术能在保持整体结构稳定的前提下,对特定物体进行位移、缩放等操作,并自动修正遮挡与光影关系。这些能力与15类通用编辑功能深度融合,覆盖物体替换、风格迁移、细节精修等高频需求,形成全场景创作解决方案。

在具身智能等前沿领域,该模型展现出独特价值。其空间理解能力为机器人感知环境提供了关键技术支撑,使机械臂操作、自主导航等任务获得更精准的空间坐标参考。在电商内容生产场景中,模型可自动生成多角度商品展示图;创意设计领域支持三维场景的快速构建与修改;智能图像处理方面能高效完成复杂场景的修复与重构。技术团队透露,模型已实现推理代码全开源,开发者可直接调用核心功能开发应用。

这项突破是京东AI技术矩阵的重要拼图。就在上月,该集团刚开源了基础大模型JoyAI-LLM Flash,通过架构创新突破参数规模限制;京东云"龙虾"系列产品上线后,token调用量周环比增长达455%;全球最大具身数据采集中心的建设也在稳步推进。依托实体产业场景优势,京东正持续推动AI技术从实验室走向规模化应用,构建起覆盖基础研究、技术开发、产业落地的完整生态。

华为畅享90配鸿蒙版搜狐新闻:跨端互联AI加持,刷新闻省心又高效
鸿蒙版搜狐新闻就是这样一款利器——它会学习你的阅读习惯,在合适时间把感兴趣的热点推到你眼前;不用打开App,桌面卡片、锁屏界面就能直接看热榜、听新闻。 你是否在看新闻时遇到过这种场景:在手机上看一篇深度长文,…

2026-04-08

博通携手谷歌向Anthropic供TPU芯片 2027年起为其提供强大算力支持
博通确认,将使用谷歌的张量处理单元(TPU)向人工智能初创公司Anthropic PBC交付芯片,为市场提供了英伟达技术的替代方案。周一文件显示,博通与Alphabet Inc.旗下谷歌已达成一项长期协议…

2026-04-07

30天狂揽30亿融资!千寻智能获马云雷军同框力挺,技术商业双突破
有趣的是,这与千寻智能的技术路线高度吻合。 这意味着,国内头部具身公司与海外顶流在数据驱动的Scaling路线上,已形成“高度共识”。工业+商业双轮驱动,技术能力在两类截然不同的场景中交叉验证,数据飞轮…

2026-04-07

千寻智能30天揽30亿融资!马云雷军联手,人形机器人未来可期
公司聚焦具身智能与通用人形机器人技术,自主研发视觉语言模型ViLa与部件约束模型CoPa,构建高泛化、高通用的机器人大脑。虽较同规模企业略显保守,但公司创始人兼CEO韩峰涛解释,2026年的核心主题是数据量…

2026-04-07

雷军马云“同框”投资千寻智能,30天狂揽30亿成具身智能新独角兽
从行业整体看,2026年开年仅前三个月,具身智能赛道的融资规模已接近300亿元。今年央视春晚上,多家具身智能企业的机器人产品参与演出,进一步提升了公众对这一领域的认知度。资本热潮与公众关注相互叠加,使具身智…

2026-04-07