网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

DeepSeek-OCR 2革新登场:视觉编码升级,文档识别性能与稳定性双提升

2026-01-27来源:互联网编辑:瑞雪

文档识别领域迎来重要进展,DeepSeek团队正式推出新一代文档识别模型DeepSeek-OCR 2。该模型在继承前代架构优势的基础上,通过创新性的视觉编码器设计,实现了对复杂文档结构更精准的解析能力。

传统视觉语言模型在处理文档图像时,通常采用固定栅格顺序切割视觉元素,这种处理方式虽便于实现,却与人类阅读时的语义跳跃特性存在显著差异。特别是在学术论文、财务报表等版式复杂的场景中,视觉元素间的逻辑关联往往超越空间位置关系,单纯依赖空间顺序的解析方式容易产生理解偏差。

研究团队提出的DeepEncoder V2架构突破了这一局限。该架构通过引入"视觉因果流"机制,使编码器能够动态调整视觉token的处理顺序。具体实现上,系统同时运行双向注意力与因果注意力两种模式:前者负责全局视觉信息感知,后者通过可学习的因果查询token逐步构建语义顺序。这种双重注意力机制确保模型在编码阶段就能完成视觉元素的智能排序。

在架构设计方面,新模型延续了编解码框架但进行了关键优化。编码器先将图像压缩为256-1120个视觉token,经DeepEncoder V2重组语义顺序后,交由基于混合专家架构(MoE)的语言模型解码。这种设计在保持计算效率的同时,将解码负担控制在合理范围内,资源消耗与前代模型基本持平。

性能验证在OmniDocBench v1.5基准测试中进行,该测试集包含中英文学术论文、商业报告等12类文档。实验数据显示,在视觉token数量减少的情况下,新模型整体识别准确率达91.09%,较前代提升3.73个百分点。特别在阅读顺序指标上,编辑距离从0.085优化至0.057,证明其对文档结构的理解能力显著增强。

实际应用表现同样亮眼。生产环境测试显示,在线用户日志图像的重复识别率下降33%(从6.25%降至4.17%),PDF批处理数据的重复率降低22%(从3.69%降至2.88%)。这些改进表明模型在保持高压缩率的同时,有效提升了复杂场景下的处理稳定性。

国产小众厂商“复活”4.7寸mini手机,致敬iPhone8,配置能否打动你?
近日,蓝狐BLUEFOX在社交平台上宣布,旗下代号为“蓝狐 β”的4.7英寸mini新机,首批主板已经制造完成,该机预计在6月初正式上市。 此前蓝狐BLUEFOX的官方预热,揭晓了该机的一些参数:屏幕为4.…

2026-01-27

2026款大众朗逸自动得逸版登场!1.5L动力+丰富配置,入门之选的新标杆
2026款大众朗逸自动得逸版上市,提供1.5L自然吸气发动机,指导价12.09万元,配置丰富,兼顾实用性与科技感,是入门级大众车型的新选择。

2026-01-27

2026折叠屏新机潮来袭 华为OPPO荣耀2月底至3月竞相亮剑
据数码博主爆料,华为、OPPO、荣耀三大品牌的主力折叠屏旗舰——华为Pura X2、OPPO Find N6、荣耀MagicV6——已锁定2月底至3月的发布窗口。据报道,它将搭载高通骁龙8 Elite Ge…

2026-01-27

360研究团队提出HyperGLLM框架 被AAAI 2026收录助力终端安全防护
但在真实安全场景中,其落地仍面临双重考验:一是终端事件规模庞大、实时性要求极高;二是攻击行为往往交错复杂,隐蔽而零散的恶意操作藏在海量正常行为中,对系统的长上下文建模与威胁行为检测提出了严峻挑战。 为此,36…

2026-01-27