8.1.20251023 DeepSeek开源OCR模型采用上下文光学压缩技术提升长文本处理效率

#deepseek

2025年10月23日,DeepSeek公司开源了其OCR模型DeepSeek-OCR。该模型采用了名为“上下文光学压缩”的技术,通过将文本信息转化为视觉模态进行压缩处理,以解决大语言模型处理长文本时计算成本高的问题。

DeepSeek-OCR的技术架构包含DeepEncoder编码器和DeepSeek3B-MoE解码器两个核心组件。编码器融合了SAM-base和CLIP-large模型,通过16倍卷积压缩器将输入图像的视觉Token数量从4096个压缩至256个。解码器采用混合专家架构,实际激活参数为5.7亿。

该模型在10倍压缩率下OCR精度达到97%,在20倍压缩率下精度约为60%。在性能表现上,DeepSeek-OCR单张A100显卡每日可处理超过20万页文档,处理速度为8.2页/秒,显存占用为4.5GB。

DeepSeek-OCR支持近100种语言识别,能够处理包括学术论文、财务文档、自然场景图像等多种类型的文档和图像。该模型在学术论文公式识别上准确率达92.1%,合同关键字段提取准确率为89.5%。

滚动至顶部
酷口家数字花园 粤ICP备17140089号-1