tesseract_jpn-vert

Für dieses Repository braucht man folgende Libraries und Software...

Python Libraries

Pillow
Pyocr
OpenCV
Urllib (Nur für die Erstellung der Schriftzeichentabelle)

Software

Tesseract (>=4)
tessdata - jpn_vert

Anwendung von ocr_tess.py

$ python ocr_tess.py [input file name] [output file name] [-l jpn_vert2 (Default-Wert jpn_vert)]

Ordner

Der Ordner "images" enthält original Bilder
Der Ordner "results" enthält Ergebnisse des OCR-Verfahrens (Bilder und Texte)
Der Ordner "traindata" enthält die Daten, mit denen man tesseract trainiert hat
Der Ordner "trained_jpn-vert" enthält das trainierte Modell
Der Ordner "Vorarbeiten" enthält Python-Codes, mit denen man die Vor-Prozess der OCR ausführt

Training mit Tesstrain

Für das Training wurde tesstrain verwendet. So wie in README von tesstrain steht, wurde zuerst "tesseract built with the training tools and matching leptonica bindings" installiert. Tesstrain braucht noch folgende Python Libraries:

Pillow>=6.2.1
python-bidi>=0.4
matplotlib
pandas

Das Repo tesstrain clonen:

$ git clone https://github.com/tesseract-ocr/tesstrain.git

...und nach der Erläuterung von tesstrain packt man die div. Daten unter dem tesstrain-Ordner:

Start-Modell, das fine getunt werden soll, unter ./usr/share/tessdata/
Ground-Truth-Daten (Texte und Image) unter ./data/[Name des Modells]-ground-truth

Dann unter dem Ordner tesstrain den Befehl eingeben:

$ nohup time -f "Run time = %E\n" make training MODEL_NAME=jpn_vert START_MODEL=jpn_vert PSM=5 >> train.log 2>&1 &

PSM=5 ist für jpn_vert notwendig...

Um die log-Daten zu checken

$ tail -f train.log

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Vorarbeiten		Vorarbeiten
images		images
results		results
traindata		traindata
trained_jpn_vert		trained_jpn_vert
README.md		README.md
chrlist.py		chrlist.py
create_train_text.py		create_train_text.py
ocr_tess.py		ocr_tess.py
ocr_tessV2.py		ocr_tessV2.py
tx2im.py		tx2im.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tesseract_jpn-vert

Für dieses Repository braucht man folgende Libraries und Software...

Python Libraries

Software

Anwendung von ocr_tess.py

Ordner

Training mit Tesstrain

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

tesseract_jpn-vert

Für dieses Repository braucht man folgende Libraries und Software...

Python Libraries

Software

Anwendung von ocr_tess.py

Ordner

Training mit Tesstrain

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages