DeepSeek-OCR 2开源登场：以视觉因果流开启文档理解新范式-网界

深度求索团队近日宣布开源新一代文档理解模型DeepSeek-OCR 2，并同步发布技术论文《DeepSeek-OCR 2: Visual Causal Flow》。该模型在综合性文档理解基准OmniDocBench v1.5测试中取得91.09%的突破性成绩，较前代提升3.73个百分点，尤其在复杂文档的逻辑顺序还原能力上实现质的飞跃。

传统OCR技术采用"机械扫描"式处理方式，通过固定网格切割图像后按空间顺序识别文字。这种模式在处理学术论文、金融报表等多栏排版文档时，常出现逻辑断裂、语义关联丢失等问题。DeepSeek-OCR 2通过引入"视觉因果流"编码范式，使模型具备自主推理文档结构的能力，实现从"机械扫描"到"智能阅读"的认知升级。

新模型的核心创新在于DeepEncoder V2架构，该架构通过三阶段处理流程重构文档理解逻辑：首先利用双向注意力机制建立全局视觉感知，继而通过因果流查询组件动态推导最优阅读顺序，最终将高维视觉信息压缩为富含语义的视觉标记序列。这种处理方式使模型输出的视觉序列自带因果顺序特征，为后续语言解码提供结构清晰的"思考蓝图"。

在性能表现上，DeepSeek-OCR 2展现出显著优势。其视觉标记压缩率较前代提升40%，仅需256-1120个标记即可精准表示复杂文档内容，大幅降低下游计算负担。在学术论文、财务报表等场景测试中，模型不仅能准确识别文字，更能还原段落间的逻辑关系，输出文本可直接用于分析归档。标准化编辑距离指标提升33%，证明其在阅读顺序准确性上的突破性进展。

技术团队指出，该模型的价值不仅限于OCR领域。其验证的因果流机制为多模态AI架构提供新思路——未来模型或可通过类似机制，自主理解文本、图像、音视频等不同模态信息的内在结构，生成统一的语义表示。这种处理方式更接近人类认知模式，有望推动跨模态理解与生成技术发展。

当前模型在极端密集文本场景（如古典报纸）的识别效果仍有优化空间。研究团队表示将持续改进模型鲁棒性，同时探索因果流机制在更多模态领域的应用可能性。

小米SU7去年国内交付量超特斯拉Model 3 国产电动汽车竞争力凸显

2026-01-27

阿里千问旗舰推理模型Qwen3-Max-Thinking发布，吴嘉畅谈AI未来新方向

业界普遍的推理时计算，只会简单增加并行推理路径，重复推导已知结论很常见，冗余推理效率低下；而千问采用的这一机制，可对此前推理的结果进行“经验提取”式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效…

2026-01-27

阿里重磅发布！Qwen3-Max-Thinking刷新多项纪录，千问生态再升级

千问APP在依靠世界知识的基础上，还可以利用阿里巴巴的交易和服务数据来增强模型，从而保障AI购物功能保持客观和准确。早前就有知情人士透露，在未来几个月内，阿里巴巴将在千问应用中逐步增加智能体AI（agent…

2026-01-27

感知奠基，认知跃迁：江苏叁拾叁解锁智慧农业AI大模型进阶密码

早期阶段聚焦于“感知”，即如何更全面、精准地获取农业环境与作物状态数据；而当前的前沿探索，则指向更高维度的“认知”，即如何让机器系统理解数据背后的意义，形成对农业生产系统的深刻洞察与推理能力。同样，在水产养殖…

2026-01-27

黄宏生“不退休”再掀资本棋局：创维光伏崛起，家电业务何去何从？

2026-01-27

马斯克称2027年底特斯拉人形机器人将开售，人形机器人产业前景几何？

2026-01-27

日久光电业绩预喜：初中学历董事长领航，调光导电膜业务强势增长

2026-01-27

燧原科技公布AI芯片新专利，可提升量化精度和运行效率
2026-01-27

天津国资、中国电信成立低空量子网络科技发展公司
2026-01-27