Spaces:

Futyn-Maker
/

ocr_notebooks_app

Sleeping

App Files Files Community

Futyn-Maker commited on Mar 23

Commit

2602ab3

1 Parent(s): ba1b3f0

Add the app

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +152 -0
requirements.txt +111 -0

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: Ocr Notebooks App
-emoji: 🔥
 colorFrom: gray
 colorTo: indigo
 sdk: gradio

 ---
 title: Ocr Notebooks App
+emoji: 📄
 colorFrom: gray
 colorTo: indigo
 sdk: gradio

app.py ADDED Viewed

	@@ -0,0 +1,152 @@

+import os
+import numpy as np
+import cv2
+import torch
+import gradio as gr
+from PIL import Image
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+from kraken import blla, binarization
+# Инициализация модели и процессора
+print("Загрузка модели OCR...")
+model_name = "Futyn-Maker/trocr-base-ru-notebooks"
+processor = TrOCRProcessor.from_pretrained(model_name)
+model = VisionEncoderDecoderModel.from_pretrained(model_name)
+# Проверка доступности GPU
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+print(f"Использование устройства: {device}")
+def segment_image(image):
+    """
+    Сегментирует изображение на строки с помощью Kraken
+    """
+    # Конвертация в бинарное изображение
+    bw_img = binarization.nlbin(image, threshold=0.5, escale=2.0, border=0.1, high=0.9)
+    # Сегментация на строки
+    lines = blla.segment(bw_img, text_direction='horizontal-lr')
+    # Сортировка и объединение близких строк
+    sorted_lines = sorted(lines.lines, key=lambda line: line.baseline[0][1])  # Сортировка по y-координате
+    merged_lines = []
+    if sorted_lines:
+        current_line = sorted_lines[0]
+        for next_line in sorted_lines[1:]:
+            current_y = current_line.baseline[0][1]
+            next_y = next_line.baseline[0][1]
+            if abs(next_y - current_y) < 15:
+                current_line.baseline.extend(next_line.baseline)
+            else:
+                merged_lines.append(current_line)
+                current_line = next_line
+        merged_lines.append(current_line)
+    else:
+        merged_lines = sorted_lines
+    # Извлечение областей строк
+    line_images = []
+    for line in merged_lines:
+        baseline = np.array(line.baseline)
+        x0 = int(np.min(baseline[:, 0]))  # Минимальная x-координата
+        y0 = int(np.min(baseline[:, 1]))  # Минимальная y-координата
+        x1 = int(np.max(baseline[:, 0]))  # Максимальная x-координата
+        y1 = int(np.max(baseline[:, 1]))  # Максимальная y-координата
+        # Добавление отступа для лучшего распознавания
+        padding = 30
+        y0 = max(0, y0 - padding)
+        y1 = min(image.height, y1 + padding)
+        # Вырезаем область строки
+        line_image = image.crop((x0, y0, x1, y1))
+        line_images.append(line_image)
+    return line_images
+def recognize_text(image):
+    """
+    Распознает текст на изображении, сегментированном на строки
+    """
+    # Сегментация изображения на строки
+    line_images = segment_image(image)
+    if not line_images:
+        return "Не удалось обнаружить строки текста на изображении."
+    # Распознавание текста для каждой строки
+    recognized_lines = []
+    for line_image in line_images:
+        # Подготовка изображения для модели
+        pixel_values = processor(line_image, return_tensors="pt").pixel_values
+        pixel_values = pixel_values.to(device)
+        # Распознавание текста
+        with torch.no_grad():
+            generated_ids = model.generate(
+                pixel_values,
+                max_length=256,
+                num_beams=4,
+                early_stopping=True
+            )
+        # Декодирование результата
+        line_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        recognized_lines.append(line_text)
+    # Объединение всех строк в один текст
+    full_text = "\n".join(recognized_lines)
+    return full_text
+def save_text_to_file(text):
+    """
+    Сохраняет распознанный текст в файл
+    """
+    with open("recognized_text.txt", "w", encoding="utf-8") as f:
+        f.write(text)
+    return "recognized_text.txt"
+def process_image(input_image):
+    """
+    Основная функция для обработки изображения
+    """
+    # Конвертация в PIL Image, если необходимо
+    if not isinstance(input_image, Image.Image):
+        input_image = Image.fromarray(input_image)
+    # Распознавание текста
+    recognized_text = recognize_text(input_image)
+    # Сохранение результата в файл
+    output_file = save_text_to_file(recognized_text)
+    return recognized_text, output_file
+# Создание интерфейса Gradio
+with gr.Blocks(title="Распознавание рукописного текста") as demo:
+    gr.Markdown("# Распознавание рукописного текста")
+    gr.Markdown("Загрузите изображение с рукописным текстом для распознавания.")
+    with gr.Row():
+        input_image = gr.Image(type="pil", label="Изображение")
+    with gr.Row():
+        submit_btn = gr.Button("Распознать текст")
+    with gr.Row():
+        text_output = gr.Textbox(label="Распознанный текст", lines=10)
+        file_output = gr.File(label="Скачать текстовый файл")
+    submit_btn.click(
+        fn=process_image,
+        inputs=input_image,
+        outputs=[text_output, file_output]
+    )
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,111 @@

+aiofiles==23.2.1
+aiohappyeyeballs==2.6.1
+aiohttp==3.11.14
+aiosignal==1.3.2
+annotated-types==0.7.0
+anyio==4.9.0
+async-timeout==5.0.1
+attrs==25.3.0
+cattrs==24.1.2
+certifi==2025.1.31
+charset-normalizer==3.4.1
+click==8.1.8
+coremltools==8.2
+exceptiongroup==1.2.2
+fastapi==0.115.11
+ffmpy==0.5.0
+filelock==3.18.0
+frozenlist==1.5.0
+fsspec==2025.3.0
+gradio==5.22.0
+gradio_client==1.8.0
+groovy==0.1.2
+h11==0.14.0
+httpcore==1.0.7
+httpx==0.28.1
+huggingface-hub==0.29.3
+idna==3.10
+imageio==2.37.0
+importlib_resources==6.5.2
+Jinja2==3.1.6
+joblib==1.4.2
+jsonschema==4.23.0
+jsonschema-specifications==2024.10.1
+kraken==5.3.0
+lazy_loader==0.4
+lightning==2.4.0
+lightning-utilities==0.14.2
+lxml==5.3.1
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mpmath==1.3.0
+multidict==6.2.0
+networkx==3.4.2
+numpy==2.0.2
+nvidia-cublas-cu12==12.1.3.1
+nvidia-cuda-cupti-cu12==12.1.105
+nvidia-cuda-nvrtc-cu12==12.1.105
+nvidia-cuda-runtime-cu12==12.1.105
+nvidia-cudnn-cu12==9.1.0.70
+nvidia-cufft-cu12==11.0.2.54
+nvidia-curand-cu12==10.3.2.106
+nvidia-cusolver-cu12==11.4.5.107
+nvidia-cusparse-cu12==12.1.0.106
+nvidia-nccl-cu12==2.20.5
+nvidia-nvjitlink-cu12==12.8.93
+nvidia-nvtx-cu12==12.1.105
+opencv-python==4.11.0.86
+orjson==3.10.15
+packaging==24.2
+pandas==2.2.3
+pillow==11.1.0
+propcache==0.3.0
+protobuf==6.30.1
+pyaml==25.1.0
+pyarrow==19.0.1
+pydantic==2.10.6
+pydantic_core==2.27.2
+pydub==0.25.1
+Pygments==2.19.1
+python-bidi==0.6.6
+python-dateutil==2.9.0.post0
+python-multipart==0.0.20
+pytorch-lightning==2.5.1
+pytz==2025.1
+PyYAML==6.0.2
+referencing==0.36.2
+regex==2024.11.6
+requests==2.32.3
+rich==13.9.4
+rpds-py==0.23.1
+ruff==0.11.2
+safehttpx==0.1.6
+safetensors==0.5.3
+scikit-image==0.24.0
+scikit-learn==1.5.2
+scipy==1.13.1
+semantic-version==2.10.0
+shapely==2.0.7
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+starlette==0.46.1
+sympy==1.13.3
+threadpoolctl==3.5.0
+tifffile==2025.3.13
+tokenizers==0.20.3
+tomlkit==0.13.2
+torch==2.4.1
+torchmetrics==1.7.0
+torchvision==0.19.1
+tqdm==4.67.1
+transformers==4.45.0
+triton==3.0.0
+typer==0.15.2
+typing_extensions==4.12.2
+tzdata==2025.2
+urllib3==2.3.0
+uvicorn==0.34.0
+websockets==15.0.1
+yarl==1.18.3