Spaces:

dodo13114
/

mistral-ocr-translator-demo-dev

Sleeping

File size: 5,477 Bytes

0a62c81

---

title: Mistral OCR 翻譯工具
emoji: 📄
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: "5.25.2"
app_file: mistralocr_app_demo.py
pinned: false
---

# Mistral OCR & 翻譯工具

**English**: Convert PDF files to Markdown with OCR and English-to-Traditional Chinese translation, powered by Mistral, Gemini, and OpenAI.  
**中文**: 將 PDF 文件轉為 Markdown 格式，支援圖片 OCR 和英文到繁體中文翻譯，使用 Mistral、Gemini 和 OpenAI 模型。

---

## 功能亮點

- 📄 **PDF OCR**：使用 Mistral 模型提取 PDF 中的文字和圖片內容。
- 🌐 **翻譯**：將英文內容翻譯為繁體中文，支援 Gemini 和 OpenAI 模型。
- 🖼️ **圖片處理**：自動儲存 PDF 中的圖片並嵌入 Markdown。
- 💾 **多格式輸出**：生成英文原文和繁體中文翻譯的 Markdown 檔案。
- 🖥️ **Gradio 介面**：直觀的網頁 UI，無需本地安裝即可使用。

---

## 快速開始

本工具部署於 Hugging Face Spaces，無需本地設置即可試用。請按照以下步驟操作：

1. **上傳 PDF**：
   - 在 Gradio 介面拖曳或點擊「上傳 PDF 檔案」，選擇你的 PDF 文件。
   - 建議使用小型 PDF（<10MB）以確保快速處理。
2. **輸入 API 金鑰**：
   - **Mistral API 金鑰**（必要）：用於 OCR 處理。
   - **Gemini/OpenAI 金鑰**（可選）：用於翻譯或結構化。
3. **設置選項**：
   - 選擇輸出格式（中文翻譯、英文原文，可多選）。
   - 啟用「處理圖片 OCR」（預設開啟，適合掃描文件或圖表）。
4. **開始處理**：
   - 點擊「開始處理」按鈕。
   - 在「處理日誌」標籤查看進度，完成後從「下載檔案」標籤下載結果（Markdown 和圖片）。

> **提示**：確保網路穩定以完成 API 請求。首次使用可選擇包含文字和圖表的 PDF，體驗完整的 OCR 和翻譯功能。

---

## 需求

- **Mistral API 金鑰**（必要）：從 [Mistral Console](https://console.mistral.ai/) 獲取，用於 PDF 和圖片 OCR。
- **Gemini API 金鑰**（可選）：從 [Google AI Studio](https://aistudio.google.com/app/apikey) 獲取，用於翻譯或結構化。
- **OpenAI API 金鑰**（可選）：從 [OpenAI Platform](https://platform.openai.com/api-keys) 獲取，用於 GPT 模型。
- **網路連線**：穩定的連線以確保 API 請求順暢。

> **注意**：所有 API 金鑰僅在處理期間使用，不會儲存。

---

## API 使用量參考（粗略估計）

以下為兩個實際測試場景的 API 使用情況，可供預估大致耗用量：

### 測試場景一（Gemini 全流程）

- **PDF 範例**：Jones & Bergen (2025) 論文前 3 頁（含 1 張圖片）
- **Mistral OCR**：消耗約 **4 Pages**（含圖片額外一次處理）
- **Gemini 2.0 Flash**：
  - 結構化 + 翻譯（單模型）
  - 輸入 Token 約 **7,300 Tokens**

### 測試場景二（分開處理：Gemini 結構化 + GPT-4o Mini 翻譯）

- **PDF 範例**：另一份 3 頁英文文件（含圖片）
- **Mistral OCR**：消耗約 **4 Pages**
- **Gemini 2.0 Flash**（僅做結構化）：
  - 輸入 Token 約 **2,357 Tokens**
- **GPT-4o Mini**（做翻譯）：
  - 輸入 Token 約 **4,440 Tokens**

> **注意**：實際耗用量會根據 PDF 頁數、內容密度、圖片比例與翻譯範圍有所不同，以上數據僅供參考。

測試樣本之一引用：  
Jones, C. R., & Bergen, B. K. (2025). *Large Language Models Pass the Turing Test*. *arXiv preprint* [arXiv:2503.23674](https://arxiv.org/abs/2503.23674)  
本測試僅借用該論文前 3 頁作為輸入範例進行處理流程測試，未轉載、修改或散佈其內容。

---

## 注意事項

- **檔案大小**：大型 PDF（>50MB）可能因 API 配額或 Spaces 資源限制而處理緩慢。
- **翻譯準確性**：AI 翻譯可能有誤，請對照原文驗證重要內容。
- **版權規範**：請確保上傳的 PDF 符合版權法規，您有權進行 OCR 和翻譯。
- **檢查點**：工具會儲存暫存檢查點以加速重複處理，可手動禁用。

---

## 技術與引用

本專案整合以下技術，並基於 Mistral 官方範例進行延伸：

- [Mistral AI](https://mistral.ai/)：PDF 和圖片 OCR。
- [Google Gemini](https://ai.google.dev/)：翻譯與結構化。
- [OpenAI](https://openai.com/)：GPT 模型支援。
- [Gradio](https://www.gradio.app/)：互動式介面。
- 改編自 [Mistral OCR Notebook](https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/structured_ocr.ipynb)。

感謝以上服務提供者的技術支持！

---

## 授權

根據 MIT 授權發布，詳見 [LICENSE](./LICENSE)。

**版權**：© 2025 David Chang

---

## 聯繫與反饋

- **作者**：David Chang
- **GitHub**：https://github.com/dodo13114arch/mistralocr-pdf2md-translator
- **問題與建議**：歡迎在 GitHub 提交 Issue 或 Pull Request！
- **支持本專案**：如果覺得有用，請給個星星 ⭐！

---

**免責聲明**  
本工具僅供學習與研究用途。使用者需自行遵守 API 提供者的條款（[Mistral](https://mistral.ai/terms)、[Gemini](https://ai.google.dev/terms)、[OpenAI](https://openai.com/policies)），並確保上傳的 PDF 合法。翻譯結果僅供參考，可能存在不準確之處，請自行驗證。