File size: 5,477 Bytes
0a62c81 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 |
---
title: Mistral OCR 翻譯工具
emoji: 📄
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: "5.25.2"
app_file: mistralocr_app_demo.py
pinned: false
---
# Mistral OCR & 翻譯工具
**English**: Convert PDF files to Markdown with OCR and English-to-Traditional Chinese translation, powered by Mistral, Gemini, and OpenAI.
**中文**: 將 PDF 文件轉為 Markdown 格式,支援圖片 OCR 和英文到繁體中文翻譯,使用 Mistral、Gemini 和 OpenAI 模型。
---
## 功能亮點
- 📄 **PDF OCR**:使用 Mistral 模型提取 PDF 中的文字和圖片內容。
- 🌐 **翻譯**:將英文內容翻譯為繁體中文,支援 Gemini 和 OpenAI 模型。
- 🖼️ **圖片處理**:自動儲存 PDF 中的圖片並嵌入 Markdown。
- 💾 **多格式輸出**:生成英文原文和繁體中文翻譯的 Markdown 檔案。
- 🖥️ **Gradio 介面**:直觀的網頁 UI,無需本地安裝即可使用。
---
## 快速開始
本工具部署於 Hugging Face Spaces,無需本地設置即可試用。請按照以下步驟操作:
1. **上傳 PDF**:
- 在 Gradio 介面拖曳或點擊「上傳 PDF 檔案」,選擇你的 PDF 文件。
- 建議使用小型 PDF(<10MB)以確保快速處理。
2. **輸入 API 金鑰**:
- **Mistral API 金鑰**(必要):用於 OCR 處理。
- **Gemini/OpenAI 金鑰**(可選):用於翻譯或結構化。
3. **設置選項**:
- 選擇輸出格式(中文翻譯、英文原文,可多選)。
- 啟用「處理圖片 OCR」(預設開啟,適合掃描文件或圖表)。
4. **開始處理**:
- 點擊「開始處理」按鈕。
- 在「處理日誌」標籤查看進度,完成後從「下載檔案」標籤下載結果(Markdown 和圖片)。
> **提示**:確保網路穩定以完成 API 請求。首次使用可選擇包含文字和圖表的 PDF,體驗完整的 OCR 和翻譯功能。
---
## 需求
- **Mistral API 金鑰**(必要):從 [Mistral Console](https://console.mistral.ai/) 獲取,用於 PDF 和圖片 OCR。
- **Gemini API 金鑰**(可選):從 [Google AI Studio](https://aistudio.google.com/app/apikey) 獲取,用於翻譯或結構化。
- **OpenAI API 金鑰**(可選):從 [OpenAI Platform](https://platform.openai.com/api-keys) 獲取,用於 GPT 模型。
- **網路連線**:穩定的連線以確保 API 請求順暢。
> **注意**:所有 API 金鑰僅在處理期間使用,不會儲存。
---
## API 使用量參考(粗略估計)
以下為兩個實際測試場景的 API 使用情況,可供預估大致耗用量:
### 測試場景一(Gemini 全流程)
- **PDF 範例**:Jones & Bergen (2025) 論文前 3 頁(含 1 張圖片)
- **Mistral OCR**:消耗約 **4 Pages**(含圖片額外一次處理)
- **Gemini 2.0 Flash**:
- 結構化 + 翻譯(單模型)
- 輸入 Token 約 **7,300 Tokens**
### 測試場景二(分開處理:Gemini 結構化 + GPT-4o Mini 翻譯)
- **PDF 範例**:另一份 3 頁英文文件(含圖片)
- **Mistral OCR**:消耗約 **4 Pages**
- **Gemini 2.0 Flash**(僅做結構化):
- 輸入 Token 約 **2,357 Tokens**
- **GPT-4o Mini**(做翻譯):
- 輸入 Token 約 **4,440 Tokens**
> **注意**:實際耗用量會根據 PDF 頁數、內容密度、圖片比例與翻譯範圍有所不同,以上數據僅供參考。
測試樣本之一引用:
Jones, C. R., & Bergen, B. K. (2025). *Large Language Models Pass the Turing Test*. *arXiv preprint* [arXiv:2503.23674](https://arxiv.org/abs/2503.23674)
本測試僅借用該論文前 3 頁作為輸入範例進行處理流程測試,未轉載、修改或散佈其內容。
---
## 注意事項
- **檔案大小**:大型 PDF(>50MB)可能因 API 配額或 Spaces 資源限制而處理緩慢。
- **翻譯準確性**:AI 翻譯可能有誤,請對照原文驗證重要內容。
- **版權規範**:請確保上傳的 PDF 符合版權法規,您有權進行 OCR 和翻譯。
- **檢查點**:工具會儲存暫存檢查點以加速重複處理,可手動禁用。
---
## 技術與引用
本專案整合以下技術,並基於 Mistral 官方範例進行延伸:
- [Mistral AI](https://mistral.ai/):PDF 和圖片 OCR。
- [Google Gemini](https://ai.google.dev/):翻譯與結構化。
- [OpenAI](https://openai.com/):GPT 模型支援。
- [Gradio](https://www.gradio.app/):互動式介面。
- 改編自 [Mistral OCR Notebook](https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/structured_ocr.ipynb)。
感謝以上服務提供者的技術支持!
---
## 授權
根據 MIT 授權發布,詳見 [LICENSE](./LICENSE)。
**版權**:© 2025 David Chang
---
## 聯繫與反饋
- **作者**:David Chang
- **GitHub**:https://github.com/dodo13114arch/mistralocr-pdf2md-translator
- **問題與建議**:歡迎在 GitHub 提交 Issue 或 Pull Request!
- **支持本專案**:如果覺得有用,請給個星星 ⭐!
---
**免責聲明**
本工具僅供學習與研究用途。使用者需自行遵守 API 提供者的條款([Mistral](https://mistral.ai/terms)、[Gemini](https://ai.google.dev/terms)、[OpenAI](https://openai.com/policies)),並確保上傳的 PDF 合法。翻譯結果僅供參考,可能存在不準確之處,請自行驗證。 |