mns-tesseract
Дообученный языковой пакет Tesseract для мансийского языка
Базируется на официальной модели rus.traineddata
(Tesseract 5) и дообучен на специализированном корпусе сканов со шрифтами размера 12–26 pt.
Информация о модели
- Имя: mns-tesseract
- Базовая модель: rus.traineddata (Tesseract 5)
- Размер шрифтов обучения: 12, 14, 24, 26 pt
- Кол-во шрифтов: 40 (список потом)
- Данные для дообучения:
- TIFF-изображения (
.tif
) с аннотациями в формате.box
- Генерация LSTM-тренировочных примеров через:
for f in /app/data/ground-truth_other/*.tif; do tesseract "$f" "${f%.tif}" -l mns --psm 6 lstm.train done
- TIFF-изображения (
- Конфигурация PSM: оптимально
--psm 6
для строкового OCR.
Использование
Установка
Скопируйтеmns.traineddata
в каталогtessdata
(C:\Program Files\Tesseract-OCR\tessdata
или/usr/share/tesseract-ocr/5/tessdata
).Запуск OCR
tesseract <image> <output> -l mns --oem 1 --psm 11
Пример:
tesseract images/toc.png images/toc -l mns --psm 11 pdf pdftotext -layout images/toc.pdf images/toc.txt
Поддерживаемые форматы
JPEG, TIFF, PNG, BMP и др.
Предобработка для качества
- Удалите фон (thresholding или adaptiveThreshold).
- Уберите шум (медианный фильтр, морфологические операции).
- Повысите контраст и яркость.
Ограничения
- Шрифты вне диапазона 12–26 pt распознаются хуже.
- Модель обучена на кириллице; латинские буквы могут распознаваться некорректно.
Ресурсы
Лицензия
Apache 2.0
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support