dodo13114's picture
Upload 3 files
0a62c81 verified

A newer version of the Gradio SDK is available: 5.33.2

Upgrade
metadata
title: Mistral OCR 翻譯工具
emoji: 📄
colorFrom: indigo
colorTo: purple
sdk: gradio
sdk_version: 5.25.2
app_file: mistralocr_app_demo.py
pinned: false

Mistral OCR & 翻譯工具

English: Convert PDF files to Markdown with OCR and English-to-Traditional Chinese translation, powered by Mistral, Gemini, and OpenAI.
中文: 將 PDF 文件轉為 Markdown 格式,支援圖片 OCR 和英文到繁體中文翻譯,使用 Mistral、Gemini 和 OpenAI 模型。


功能亮點

  • 📄 PDF OCR:使用 Mistral 模型提取 PDF 中的文字和圖片內容。
  • 🌐 翻譯:將英文內容翻譯為繁體中文,支援 Gemini 和 OpenAI 模型。
  • 🖼️ 圖片處理:自動儲存 PDF 中的圖片並嵌入 Markdown。
  • 💾 多格式輸出:生成英文原文和繁體中文翻譯的 Markdown 檔案。
  • 🖥️ Gradio 介面:直觀的網頁 UI,無需本地安裝即可使用。

快速開始

本工具部署於 Hugging Face Spaces,無需本地設置即可試用。請按照以下步驟操作:

  1. 上傳 PDF
    • 在 Gradio 介面拖曳或點擊「上傳 PDF 檔案」,選擇你的 PDF 文件。
    • 建議使用小型 PDF(<10MB)以確保快速處理。
  2. 輸入 API 金鑰
    • Mistral API 金鑰(必要):用於 OCR 處理。
    • Gemini/OpenAI 金鑰(可選):用於翻譯或結構化。
  3. 設置選項
    • 選擇輸出格式(中文翻譯、英文原文,可多選)。
    • 啟用「處理圖片 OCR」(預設開啟,適合掃描文件或圖表)。
  4. 開始處理
    • 點擊「開始處理」按鈕。
    • 在「處理日誌」標籤查看進度,完成後從「下載檔案」標籤下載結果(Markdown 和圖片)。

提示:確保網路穩定以完成 API 請求。首次使用可選擇包含文字和圖表的 PDF,體驗完整的 OCR 和翻譯功能。


需求

  • Mistral API 金鑰(必要):從 Mistral Console 獲取,用於 PDF 和圖片 OCR。
  • Gemini API 金鑰(可選):從 Google AI Studio 獲取,用於翻譯或結構化。
  • OpenAI API 金鑰(可選):從 OpenAI Platform 獲取,用於 GPT 模型。
  • 網路連線:穩定的連線以確保 API 請求順暢。

注意:所有 API 金鑰僅在處理期間使用,不會儲存。


API 使用量參考(粗略估計)

以下為兩個實際測試場景的 API 使用情況,可供預估大致耗用量:

測試場景一(Gemini 全流程)

  • PDF 範例:Jones & Bergen (2025) 論文前 3 頁(含 1 張圖片)
  • Mistral OCR:消耗約 4 Pages(含圖片額外一次處理)
  • Gemini 2.0 Flash
    • 結構化 + 翻譯(單模型)
    • 輸入 Token 約 7,300 Tokens

測試場景二(分開處理:Gemini 結構化 + GPT-4o Mini 翻譯)

  • PDF 範例:另一份 3 頁英文文件(含圖片)
  • Mistral OCR:消耗約 4 Pages
  • Gemini 2.0 Flash(僅做結構化):
    • 輸入 Token 約 2,357 Tokens
  • GPT-4o Mini(做翻譯):
    • 輸入 Token 約 4,440 Tokens

注意:實際耗用量會根據 PDF 頁數、內容密度、圖片比例與翻譯範圍有所不同,以上數據僅供參考。

測試樣本之一引用:
Jones, C. R., & Bergen, B. K. (2025). Large Language Models Pass the Turing Test. arXiv preprint arXiv:2503.23674
本測試僅借用該論文前 3 頁作為輸入範例進行處理流程測試,未轉載、修改或散佈其內容。


注意事項

  • 檔案大小:大型 PDF(>50MB)可能因 API 配額或 Spaces 資源限制而處理緩慢。
  • 翻譯準確性:AI 翻譯可能有誤,請對照原文驗證重要內容。
  • 版權規範:請確保上傳的 PDF 符合版權法規,您有權進行 OCR 和翻譯。
  • 檢查點:工具會儲存暫存檢查點以加速重複處理,可手動禁用。

技術與引用

本專案整合以下技術,並基於 Mistral 官方範例進行延伸:

感謝以上服務提供者的技術支持!


授權

根據 MIT 授權發布,詳見 LICENSE

版權:© 2025 David Chang


聯繫與反饋


免責聲明
本工具僅供學習與研究用途。使用者需自行遵守 API 提供者的條款(MistralGeminiOpenAI),並確保上傳的 PDF 合法。翻譯結果僅供參考,可能存在不準確之處,請自行驗證。