最新发布🚀 DeepSeek-OCR 现已开源!

DeepSeek-OCR:面向文档AI的SOTA上下文光学压缩技术

通过 DeepSeek-OCR 模型,解锁前所未有的文档理解和高速 OCR 体验。从图片转 Markdown 到复杂的表格解析,感受下一代上下文光学压缩技术。

在 A100-40G 上推理速度高达 2500 tokens/s。

from 99+ happy users

开始使用 DeepSeek-OCR

通过三个简单的步骤将模型集成到您的工作流中:

placeholder hero

DeepSeek-OCR 是什么

DeepSeek-OCR 是一种先进的多模态大语言模型(MLLM),专注于优化视觉数据的**光学压缩**,为复杂文档的视觉-文本压缩突破界限。

  • 以 LLM 为中心的视觉方法
    一种研究视觉编码器从 LLM 视角如何更好理解上下文的新颖方法。
  • 上下文 OCR 与解析
    超越简单的文本识别,理解文档结构、布局和上下文含义。
  • 可扩展的分辨率支持
    支持多种原生和动态分辨率,以处理不同尺寸的文档而不会损失保真度。
关键功能

DeepSeek-OCR 的核心能力

从高保真文本提取到复杂的文档结构转换,DeepSeek-OCR 满足您所有的文档 AI 需求。

通过一个简单的提示,将扫描文档或 PDF 无缝转换为清晰、结构化的 Markdown 格式。

文档到 Markdown 转换
多分辨率与动态裁剪
高吞吐量 PDF 处理

用于强大文档 AI 的提示词示例

利用 DeepSeek-OCR 的上下文理解能力和专用提示词。

上下文文档解析

提示词:`<image>\n<|grounding|>Convert the document to markdown.` (适用于结构化提取)。

精确文本定位 (REC)

提示词:`<image>\nLocate <|ref|>xxxx<|/ref|> in the image.` (用于查找特定的文本块)。

自由形式/通用 OCR

提示词:`<image>\nFree OCR.` (简单、无约束的文本提取)。

图表分析

提示词:`<image>\nParse the figure.` (用于理解文档中的视觉元素)。

详细图像描述

提示词:`<image>\nDescribe this image in detail.` (通用多模态能力)。

多语言支持

已在包括中文在内的各种复杂脚本语言上进行测试。

性能

无与伦比的 OCR 速度和效率

DeepSeek-OCR 专为速度和高容量处理而设计。

推理速度

~2500

tokens/s (A100-40G 上的 PDF 并发处理)

分辨率模式

5+

支持的分辨率模式(包括动态模式)

GitHub Star 数

7.2k+

社区支持

常见问题

关于 DeepSeek-OCR 的常见问题

如需更多技术详情,请参阅 GitHub 仓库或论文。

1

什么是“上下文光学压缩”?

这是 DeepSeek-OCR 的核心概念,专注于视觉编码器如何有效地将丰富的视觉上下文压缩为 LLM 的 token,以确保文档理解的最大保真度。

2

高速推理需要什么硬件?

vLLM 推理在 NVIDIA A100-40G 或类似的高端 GPU 上表现最佳,速度高达 2500 tokens/s,这对于大规模 PDF 处理至关重要。

3

DeepSeek-OCR 支持结构化数据提取吗?

支持。通过使用提示词 `<|grounding|>Convert the document to markdown.`,模型可以有效地提取文档内容并将其结构化,包括表格和列表,转换为清晰的格式。

4

有哪些可用的分辨率模式?

模型支持原生模式:Tiny (512×512)、Small (640×640)、Base (1024×1024)、Large (1280×1280),以及用于灵活和高保真输入的动态 Gundam 模式。

5

我如何贡献或报告问题?

您可以通过 fork 官方 DeepSeek-OCR GitHub 仓库、提交 Pull Request 或打开新的 Issue 来报告错误和提出建议。

6

我在哪里可以下载模型权重?

官方模型权重托管在 Hugging Face Hub 的 `deepseek-ai/DeepSeek-OCR` 仓库下。

立即开始使用 DeepSeek-OCR 进行构建

体验下一代文档 AI 和上下文光学压缩的性能。