A newer version of the Gradio SDK is available:
5.33.2
title: Mistral OCR 翻譯工具
emoji: 📄
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: 5.25.2
app_file: mistralocr_app_demo.py
pinned: false
Mistral OCR & 翻譯工具
English: Convert PDF files to Markdown with OCR and English-to-Traditional Chinese translation, powered by Mistral, Gemini, and OpenAI.
中文: 將 PDF 文件轉為 Markdown 格式,支援圖片 OCR 和英文到繁體中文翻譯,使用 Mistral、Gemini 和 OpenAI 模型。
功能亮點
- 📄 PDF OCR:使用 Mistral 模型提取 PDF 中的文字和圖片內容。
- 🌐 翻譯:將英文內容翻譯為繁體中文,支援 Gemini 和 OpenAI 模型。
- 🖼️ 圖片處理:自動儲存 PDF 中的圖片並嵌入 Markdown。
- 💾 多格式輸出:生成英文原文和繁體中文翻譯的 Markdown 檔案。
- 🖥️ Gradio 介面:直觀的網頁 UI,無需本地安裝即可使用。
快速開始
本工具部署於 Hugging Face Spaces,無需本地設置即可試用。請按照以下步驟操作:
- 上傳 PDF:
- 在 Gradio 介面拖曳或點擊「上傳 PDF 檔案」,選擇你的 PDF 文件。
- 建議使用小型 PDF(<10MB)以確保快速處理。
- 輸入 API 金鑰:
- Mistral API 金鑰(必要):用於 OCR 處理。
- Gemini/OpenAI 金鑰(可選):用於翻譯或結構化。
- 設置選項:
- 選擇輸出格式(中文翻譯、英文原文,可多選)。
- 啟用「處理圖片 OCR」(預設開啟,適合掃描文件或圖表)。
- 開始處理:
- 點擊「開始處理」按鈕。
- 在「處理日誌」標籤查看進度,完成後從「下載檔案」標籤下載結果(Markdown 和圖片)。
提示:確保網路穩定以完成 API 請求。首次使用可選擇包含文字和圖表的 PDF,體驗完整的 OCR 和翻譯功能。
需求
- Mistral API 金鑰(必要):從 Mistral Console 獲取,用於 PDF 和圖片 OCR。
- Gemini API 金鑰(可選):從 Google AI Studio 獲取,用於翻譯或結構化。
- OpenAI API 金鑰(可選):從 OpenAI Platform 獲取,用於 GPT 模型。
- 網路連線:穩定的連線以確保 API 請求順暢。
注意:所有 API 金鑰僅在處理期間使用,不會儲存。
API 使用量參考(粗略估計)
以下為兩個實際測試場景的 API 使用情況,可供預估大致耗用量:
測試場景一(Gemini 全流程)
- PDF 範例:Jones & Bergen (2025) 論文前 3 頁(含 1 張圖片)
- Mistral OCR:消耗約 4 Pages(含圖片額外一次處理)
- Gemini 2.0 Flash:
- 結構化 + 翻譯(單模型)
- 輸入 Token 約 7,300 Tokens
測試場景二(分開處理:Gemini 結構化 + GPT-4o Mini 翻譯)
- PDF 範例:另一份 3 頁英文文件(含圖片)
- Mistral OCR:消耗約 4 Pages
- Gemini 2.0 Flash(僅做結構化):
- 輸入 Token 約 2,357 Tokens
- GPT-4o Mini(做翻譯):
- 輸入 Token 約 4,440 Tokens
注意:實際耗用量會根據 PDF 頁數、內容密度、圖片比例與翻譯範圍有所不同,以上數據僅供參考。
測試樣本之一引用:
Jones, C. R., & Bergen, B. K. (2025). Large Language Models Pass the Turing Test. arXiv preprint arXiv:2503.23674
本測試僅借用該論文前 3 頁作為輸入範例進行處理流程測試,未轉載、修改或散佈其內容。
注意事項
- 檔案大小:大型 PDF(>50MB)可能因 API 配額或 Spaces 資源限制而處理緩慢。
- 翻譯準確性:AI 翻譯可能有誤,請對照原文驗證重要內容。
- 版權規範:請確保上傳的 PDF 符合版權法規,您有權進行 OCR 和翻譯。
- 檢查點:工具會儲存暫存檢查點以加速重複處理,可手動禁用。
技術與引用
本專案整合以下技術,並基於 Mistral 官方範例進行延伸:
- Mistral AI:PDF 和圖片 OCR。
- Google Gemini:翻譯與結構化。
- OpenAI:GPT 模型支援。
- Gradio:互動式介面。
- 改編自 Mistral OCR Notebook。
感謝以上服務提供者的技術支持!
授權
根據 MIT 授權發布,詳見 LICENSE。
版權:© 2025 David Chang
聯繫與反饋
- 作者:David Chang
- GitHub:https://github.com/dodo13114arch/mistralocr-pdf2md-translator
- 問題與建議:歡迎在 GitHub 提交 Issue 或 Pull Request!
- 支持本專案:如果覺得有用,請給個星星 ⭐!
免責聲明
本工具僅供學習與研究用途。使用者需自行遵守 API 提供者的條款(Mistral、Gemini、OpenAI),並確保上傳的 PDF 合法。翻譯結果僅供參考,可能存在不準確之處,請自行驗證。