网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌Gemini Embedding 2发布:全模态融合,开启AI嵌入技术新篇章

2026-03-11来源:快讯编辑:瑞雪

谷歌DeepMind近日宣布推出革命性的Gemini Embedding 2模型,这是全球首个原生多模态嵌入解决方案,实现了文本、图像、视频、音频和文档五种媒体类型的统一语义表征。该模型突破传统AI处理框架,将不同模态数据映射至共享嵌入空间,为跨模态信息检索与理解开辟了新路径。

技术架构层面,该模型基于Gemini架构深度优化,支持单次请求中混合输入多种媒体类型。文本处理能力提升至8192个token,图像支持6张PNG/JPEG格式同时处理,视频可解析120秒内的MP4/MOV内容,音频数据无需转录即可直接生成嵌入向量,文档则支持6页PDF的直接嵌入。这种交错输入机制使模型能够捕捉图像与文本、视频与音频等跨模态间的语义关联,显著提升复杂场景下的理解精度。

在性能表现上,谷歌公布的基准测试数据显示,Gemini Embedding 2在文本、图像和视频任务中均超越现有主流模型。其独创的Matryoshka表示学习(MRL)技术通过动态维度压缩,将默认3072维向量可降至768维,在保持98%性能的同时降低60%存储成本。开发者可根据应用场景选择3072、1536或768三档维度,平衡精度与计算资源消耗。

原生语音处理能力成为该模型的核心突破。不同于传统需要语音转文本的间接处理方式,Gemini Embedding 2可直接生成音频数据的嵌入向量,在会议记录、语音搜索等场景中实现端到端处理。谷歌工程师透露,该能力使语音检索响应速度提升3倍,错误率降低42%。

企业应用层面,该模型显著降低多模态系统开发门槛。开发者通过Gemini API或Vertex AI平台即可调用服务,快速构建语义搜索、数据分类和RAG(检索增强生成)系统。某金融科技公司利用该模型重构客户服务平台后,跨模态知识库检索效率提升5倍,多语言支持范围扩展至103种语言。

目前已有超过200家企业参与早期测试,涵盖媒体、医疗、电商等多个领域。医疗影像公司通过混合输入X光片与临床报告,将诊断准确率提升至92%;电商平台利用图文视频联合嵌入,实现商品搜索点击率增长28%。谷歌表示将持续优化模型在低资源语言和长视频处理方面的表现,并计划年内推出边缘设备部署方案。

拯救者Y700五代官宣3月18日发布!骁龙8Elite+9000mAh,LCD党游戏新选择
亓言纪语:对于拯救者Y700,亓纪的想法是这样的:虽然其他厂商也加入了旗舰小平板市场,但是产品定位和发力的方向还是有所不同,比如红魔的优势是OLED屏幕,红米主打天玑旗舰芯片和小直屏,华为小平板定位5G网络…

2026-03-11

北大科研力量加持超智能科:产学研融合开启“AI+垂直领域”新篇章
能源化工(L2级深耕):在宁夏宁东等国家级能源化工基地,超智能科针对煤化工等复杂场景,打造了涵盖智能巡检、安全管控的数智化大脑,有效解决了通用模型在专业领域“易产生幻觉”的难题。此次北京大学的战略入股,将助…

2026-03-11