--- title: Mistral OCR 翻譯工具 emoji: 📄 colorFrom: indigo colorTo: purple sdk: gradio sdk_version: "5.25.2" app_file: mistralocr_app_demo.py pinned: false --- # Mistral OCR & 翻譯工具 **English**: Convert PDF files to Markdown with OCR and English-to-Traditional Chinese translation, powered by Mistral, Gemini, and OpenAI. **中文**: 將 PDF 文件轉為 Markdown 格式,支援圖片 OCR 和英文到繁體中文翻譯,使用 Mistral、Gemini 和 OpenAI 模型。 --- ## 功能亮點 - 📄 **PDF OCR**:使用 Mistral 模型提取 PDF 中的文字和圖片內容。 - 🌐 **翻譯**:將英文內容翻譯為繁體中文,支援 Gemini 和 OpenAI 模型。 - 🖼️ **圖片處理**:自動儲存 PDF 中的圖片並嵌入 Markdown。 - 💾 **多格式輸出**:生成英文原文和繁體中文翻譯的 Markdown 檔案。 - 🖥️ **Gradio 介面**:直觀的網頁 UI,無需本地安裝即可使用。 --- ## 快速開始 本工具部署於 Hugging Face Spaces,無需本地設置即可試用。請按照以下步驟操作: 1. **上傳 PDF**: - 在 Gradio 介面拖曳或點擊「上傳 PDF 檔案」,選擇你的 PDF 文件。 - 建議使用小型 PDF(<10MB)以確保快速處理。 2. **輸入 API 金鑰**: - **Mistral API 金鑰**(必要):用於 OCR 處理。 - **Gemini/OpenAI 金鑰**(可選):用於翻譯或結構化。 3. **設置選項**: - 選擇輸出格式(中文翻譯、英文原文,可多選)。 - 啟用「處理圖片 OCR」(預設開啟,適合掃描文件或圖表)。 4. **開始處理**: - 點擊「開始處理」按鈕。 - 在「處理日誌」標籤查看進度,完成後從「下載檔案」標籤下載結果(Markdown 和圖片)。 > **提示**:確保網路穩定以完成 API 請求。首次使用可選擇包含文字和圖表的 PDF,體驗完整的 OCR 和翻譯功能。 --- ## 需求 - **Mistral API 金鑰**(必要):從 [Mistral Console](https://console.mistral.ai/) 獲取,用於 PDF 和圖片 OCR。 - **Gemini API 金鑰**(可選):從 [Google AI Studio](https://aistudio.google.com/app/apikey) 獲取,用於翻譯或結構化。 - **OpenAI API 金鑰**(可選):從 [OpenAI Platform](https://platform.openai.com/api-keys) 獲取,用於 GPT 模型。 - **網路連線**:穩定的連線以確保 API 請求順暢。 > **注意**:所有 API 金鑰僅在處理期間使用,不會儲存。 --- ## API 使用量參考(粗略估計) 以下為兩個實際測試場景的 API 使用情況,可供預估大致耗用量: ### 測試場景一(Gemini 全流程) - **PDF 範例**:Jones & Bergen (2025) 論文前 3 頁(含 1 張圖片) - **Mistral OCR**:消耗約 **4 Pages**(含圖片額外一次處理) - **Gemini 2.0 Flash**: - 結構化 + 翻譯(單模型) - 輸入 Token 約 **7,300 Tokens** ### 測試場景二(分開處理:Gemini 結構化 + GPT-4o Mini 翻譯) - **PDF 範例**:另一份 3 頁英文文件(含圖片) - **Mistral OCR**:消耗約 **4 Pages** - **Gemini 2.0 Flash**(僅做結構化): - 輸入 Token 約 **2,357 Tokens** - **GPT-4o Mini**(做翻譯): - 輸入 Token 約 **4,440 Tokens** > **注意**:實際耗用量會根據 PDF 頁數、內容密度、圖片比例與翻譯範圍有所不同,以上數據僅供參考。 測試樣本之一引用: Jones, C. R., & Bergen, B. K. (2025). *Large Language Models Pass the Turing Test*. *arXiv preprint* [arXiv:2503.23674](https://arxiv.org/abs/2503.23674) 本測試僅借用該論文前 3 頁作為輸入範例進行處理流程測試,未轉載、修改或散佈其內容。 --- ## 注意事項 - **檔案大小**:大型 PDF(>50MB)可能因 API 配額或 Spaces 資源限制而處理緩慢。 - **翻譯準確性**:AI 翻譯可能有誤,請對照原文驗證重要內容。 - **版權規範**:請確保上傳的 PDF 符合版權法規,您有權進行 OCR 和翻譯。 - **檢查點**:工具會儲存暫存檢查點以加速重複處理,可手動禁用。 --- ## 技術與引用 本專案整合以下技術,並基於 Mistral 官方範例進行延伸: - [Mistral AI](https://mistral.ai/):PDF 和圖片 OCR。 - [Google Gemini](https://ai.google.dev/):翻譯與結構化。 - [OpenAI](https://openai.com/):GPT 模型支援。 - [Gradio](https://www.gradio.app/):互動式介面。 - 改編自 [Mistral OCR Notebook](https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/structured_ocr.ipynb)。 感謝以上服務提供者的技術支持! --- ## 授權 根據 MIT 授權發布,詳見 [LICENSE](./LICENSE)。 **版權**:© 2025 David Chang --- ## 聯繫與反饋 - **作者**:David Chang - **GitHub**:https://github.com/dodo13114arch/mistralocr-pdf2md-translator - **問題與建議**:歡迎在 GitHub 提交 Issue 或 Pull Request! - **支持本專案**:如果覺得有用,請給個星星 ⭐! --- **免責聲明** 本工具僅供學習與研究用途。使用者需自行遵守 API 提供者的條款([Mistral](https://mistral.ai/terms)、[Gemini](https://ai.google.dev/terms)、[OpenAI](https://openai.com/policies)),並確保上傳的 PDF 合法。翻譯結果僅供參考,可能存在不準確之處,請自行驗證。