deepseek-ai
/

DeepSeek-OCR

@@ -1,14 +1,16 @@
 ---
-pipeline_tag: image-text-to-text
 language:
 - multilingual
 tags:
 - deepseek
 - vision-language
 - ocr
 - custom_code
-license: mit
 ---
 <div align="center">
   <img src="https://github.com/deepseek-ai/DeepSeek-V2/blob/main/figures/logo.svg?raw=true" width="60%" alt="DeepSeek AI" />
 </div>
@@ -39,21 +41,25 @@ license: mit
 <p align="center">
   <a href="https://github.com/deepseek-ai/DeepSeek-OCR"><b>🌟 Github</b></a> |
   <a href="https://huggingface.co/deepseek-ai/DeepSeek-OCR"><b>📥 Model Download</b></a> |
-  <a href="https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf"><b>📄 Paper Link</b></a> |
   <a href="https://arxiv.org/abs/2510.18234"><b>📄 Arxiv Paper Link</b></a> |
 </p>
 <h2>
 <p align="center">
-  <a href="">DeepSeek-OCR: Contexts Optical Compression</a>
 </p>
 </h2>
 <p align="center">
 <img src="assets/fig1.png" style="width: 1000px" align=center>
 </p>
 <p align="center">
-<a href="">Explore the boundaries of visual-text compression.</a>
 </p>
 ## Usage
 Inference using Huggingface transformers on NVIDIA GPUs. Requirements tested on python 3.12.9 + CUDA11.8：
@@ -78,8 +84,10 @@ tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
 model = model.eval().cuda().to(torch.bfloat16)
-# prompt = "<image>\nFree OCR. "
-prompt = "<image>\n<|grounding|>Convert the document to markdown. "
 image_file = 'your_image.jpg'
 output_path = 'your/output/dir'
@@ -125,4 +133,5 @@ We also appreciate the benchmarks: [Fox](https://github.com/ucaslcl/Fox), [Omini
   author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
   journal={arXiv preprint arXiv:2510.18234},
   year={2025}
-}

 ---
 language:
 - multilingual
+license: mit
+pipeline_tag: image-to-text
 tags:
 - deepseek
 - vision-language
 - ocr
 - custom_code
+library_name: transformers
 ---
 <div align="center">
   <img src="https://github.com/deepseek-ai/DeepSeek-V2/blob/main/figures/logo.svg?raw=true" width="60%" alt="DeepSeek AI" />
 </div>
 <p align="center">
   <a href="https://github.com/deepseek-ai/DeepSeek-OCR"><b>🌟 Github</b></a> |
   <a href="https://huggingface.co/deepseek-ai/DeepSeek-OCR"><b>📥 Model Download</b></a> |
+  <a href="https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf"><b>📄 PDF Paper Link</b></a> |
   <a href="https://arxiv.org/abs/2510.18234"><b>📄 Arxiv Paper Link</b></a> |
+  <a href="https://huggingface.co/papers/2510.18234"><b>📄 Hugging Face Paper Link</b></a>
 </p>
 <h2>
 <p align="center">
+  <a href="https://huggingface.co/papers/2510.18234">DeepSeek-OCR: Contexts Optical Compression</a>
 </p>
 </h2>
 <p align="center">
 <img src="assets/fig1.png" style="width: 1000px" align=center>
 </p>
 <p align="center">
+<a href="https://huggingface.co/papers/2510.18234">Explore the boundaries of visual-text compression.</a>
 </p>
+## Project Page
+https://www.deepseek.com/
 ## Usage
 Inference using Huggingface transformers on NVIDIA GPUs. Requirements tested on python 3.12.9 + CUDA11.8：
 model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
 model = model.eval().cuda().to(torch.bfloat16)
+# prompt = "<image>
+Free OCR. "
+prompt = "<image>
+<|grounding|>Convert the document to markdown. "
 image_file = 'your_image.jpg'
 output_path = 'your/output/dir'
   author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
   journal={arXiv preprint arXiv:2510.18234},
   year={2025}
+}
+```