Image-to-Text
Mansi
artudwrrr commited on
Commit
81597d9
·
verified ·
1 Parent(s): 9cd37c8

Upload 2 files

Browse files
Files changed (3) hide show
  1. .gitattributes +1 -0
  2. README.md +70 -3
  3. mns.traineddata +3 -0
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ mns.traineddata filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -1,3 +1,70 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # mns-tesseract
2
+
3
+ **Дообученный языковой пакет Tesseract для мансийского языка**
4
+ Базируется на официальной модели `rus.traineddata` (Tesseract 5) и дообучен на специализированном корпусе сканов со шрифтами размера 12–26 pt.
5
+
6
+ ---
7
+
8
+ ## Информация о модели
9
+
10
+ - **Имя:** mns-tesseract
11
+ - **Базовая модель:** rus.traineddata (Tesseract 5)
12
+ - **Размер шрифтов обучения:** 12, 14, 24, 26 pt
13
+ - **Кол-во шрифтов:** 40 (список потом)
14
+ - **Данные для дообучения:**
15
+ - TIFF-изображения (`.tif`) с аннотациями в формате `.box`
16
+ - Генерация LSTM-тренировочных примеров через:
17
+ ```bash
18
+ for f in /app/data/ground-truth_other/*.tif; do
19
+ tesseract "$f" "${f%.tif}" -l mns --psm 6 lstm.train
20
+ done
21
+ ```
22
+ - **Конфигурация PSM:** оптимально `--psm 6` для строкового OCR.
23
+
24
+ ---
25
+
26
+ ## Использование
27
+
28
+ 1. **Установка**
29
+ Скопируйте `mns.traineddata` в каталог `tessdata` (`C:\Program Files\Tesseract-OCR\tessdata` или `/usr/share/tesseract-ocr/5/tessdata`).
30
+
31
+ 2. **Запуск OCR**
32
+ ```bash
33
+ tesseract <image> <output> -l rus --oem 1 --psm 11
34
+ ```
35
+ *Пример:*
36
+ ```bash
37
+ tesseract images/toc.png images/toc -l rus --psm 11 pdf
38
+ pdftotext -layout images/toc.pdf images/toc.txt
39
+ ```
40
+
41
+ 3. **Поддерживаемые форматы**
42
+ JPEG, TIFF, PNG, BMP и др.
43
+
44
+ ---
45
+
46
+ ## Предобработка для качества
47
+
48
+ - Удалите фон (thresholding или adaptiveThreshold).
49
+ - Уберите шум (медианный фильтр, морфологические операции).
50
+ - Повысите контраст и яркость.
51
+
52
+ ---
53
+
54
+ ## Ограничения
55
+
56
+ - Шрифты вне диапазона 12–26 pt распознаются хуже.
57
+ - Модель обучена на кириллице; латинские буквы могут распознаваться некорректно.
58
+
59
+ ---
60
+
61
+ ## Ресурсы
62
+
63
+ - [Tesseract Command-Line Usage](https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html#simplest-invocation-to-ocr-an-image)
64
+ - [Training Tesseract 5](https://github.com/tesseract-ocr/tessdoc/blob/main/tess5/TrainingTesseract-5.md)
65
+
66
+ ---
67
+
68
+ ## Лицензия
69
+
70
+ Apache 2.0
mns.traineddata ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f3004aa9da7811ee8f7aab01a3804b701df7492231bd844aa0b147a3f63bb85
3
+ size 12054685