2025年10月23日,DeepSeek公司开源了其OCR模型DeepSeek-OCR。该模型采用了名为“上下文光学压缩”的技术,通过将文本信息转化为视觉模态进行压缩处理,以解决大语言模型处理长文本时计算成本高的问题。
DeepSeek-OCR的技术架构包含DeepEncoder编码器和DeepSeek3B-MoE解码器两个核心组件。编码器融合了SAM-base和CLIP-large模型,通过16倍卷积压缩器将输入图像的视觉Token数量从4096个压缩至256个。解码器采用混合专家架构,实际激活参数为5.7亿。
该模型在10倍压缩率下OCR精度达到97%,在20倍压缩率下精度约为60%。在性能表现上,DeepSeek-OCR单张A100显卡每日可处理超过20万页文档,处理速度为8.2页/秒,显存占用为4.5GB。
DeepSeek-OCR支持近100种语言识别,能够处理包括学术论文、财务文档、自然场景图像等多种类型的文档和图像。该模型在学术论文公式识别上准确率达92.1%,合同关键字段提取准确率为89.5%。
推荐文章
- 5.1.20250816 DeepSeek (1.000)
- 3.1.20250720 梁文锋 (1.000)
- 8.0.20250822 DeepSeek V3.1:混合架构与128K上下文 (1.000)
- 1.0.20250803 行业-知识管理工具 (0.500)
- 2.1.3 思维模型-包围式学习法 (0.500)
- 5.1.20250706 应用-效率工具-barbee (RANDOM - 0.500)