网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

字节Seed团队开源BAGEL:多模态理解与生成,图像视频文本一键搞定!

2025-06-03来源:ITBEAR编辑:瑞雪

字节跳动旗下的Seed团队近期公布了一项重大技术进展,他们宣布开源了一个名为BAGEL的统一多模态理解与生成模型。这一模型能够同时处理文本、图像和视频数据,实现跨模态的信息交互与生成。

据悉,BAGEL模型拥有70亿个激活参数(总参数量达到140亿),并在海量交错多模态数据上进行了深度训练。在多项标准测试中,BAGEL的表现超越了当前顶尖的开源多模态模型,如Qwen2.5-VL和InternVL-2.5,甚至在文本到图像的生成质量上,也能与专业级生成器SD3相媲美。

除了在多模态理解方面取得突破,BAGEL在图像编辑领域同样展现出了非凡的能力。它不仅在经典编辑场景中优于其他开源模型,还进一步扩展到自由形式的视觉操作、多视图合成以及世界导航等高级任务。这些能力标志着BAGEL在“世界建模”这一前沿领域迈出了重要一步。

BAGEL基于先进的大语言模型进行训练,因此具备基础的推理和对话能力。它能够接收混合了图像和文本的输入,并以同样混合的格式输出结果。这种灵活性使得BAGEL在处理复杂多模态信息时更加得心应手。

在生成高质量、逼真的图像和视频方面,BAGEL同样表现出色。它还引入了长思维链(COT)模式,使得模型在生成内容之前能够进行更为深入的“思考”。这种能力不仅提升了生成内容的质量,还增加了生成过程的可控性和可预测性。

由于在大规模交错多模态数据上的预训练,BAGEL自然而然地学会了保留视觉特征和细微细节。它能够从视频中捕捉到复杂的视觉运动,这一能力使得它在图像编辑方面更加高效且准确。BAGEL还能基于少量对齐数据实现图片风格的切换和场景转换。

更令人瞩目的是,BAGEL还具备世界模型的基础能力。它能够进行世界导航、未来帧预测以及3D世界生成等挑战性任务。通过不同角度的旋转或视角切换,BAGEL能够展现出强大的泛化能力。不仅在真实场景中表现出色,它还能在游戏、艺术作品以及卡通动画等虚拟环境中实现导航。

基于以上强大的能力,BAGEL通过一个统一的多模态接口,实现了各项能力的复杂组合和多轮对话。用户可以通过简单的指令,让BAGEL完成从图片剪切到智能编辑,再到场景转换和风格转换等一系列操作,极大地提升了工作效率和创作自由度。

马斯克xAI被曝融资150亿美元
据CNBC从知情人士处获悉,埃隆·马斯克掌舵的人工智能企业xAI于最新一轮融资中斩获约150亿美元资金,公司估值随之攀升至约2000亿美元。这一融资规模不仅远超市场此前预期,更成为近期科技领域备受瞩目的资本动作。

2025-11-14

李彦宏2025百度世界大会发声:AI内化驱动产业革新,成果加速出海
当前,百度搜索已成为全球AI化改造最激进的搜索引擎,用AI重构搜索结果页,转型成以富媒体为主的AI应用。大会上,李彦宏再次强调AI应用创新的价值。 “过去一年,我们看到模型能力逐步走出聊天机器人的范畴,数字…

2025-11-14

李彦宏:跨越临界点,AI“效果涌现”时代,内化能力引爆生产力革命
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-14

李彦宏2025百度世界大会:AI内化驱动产业变革 开启智能生产力新纪元
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-13

百度2025世界大会发布文心5.0大模型 参数量达2.4万亿 持续推升智能新高度
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13

相芯科技携AI数字人成果亮相乌镇峰会,展现浙江科技新实力
该平台深度融合人工智能与建模、驱动、交互等核心技术,实现了数字人从生产到应用的全流程效率革新。作为浙江人工智能产业发展的先行力量,相芯科技未来将继续深化AI与数字人的融合创新,推动更高效、智能的数字人应用场景…

2025-11-13