Tesseract für Windows
1. Installation der Software
1.1 Download von Tesseract über Windows Installer
Die UB Mannheim stellt verschiedene Tesseract-Installer-Versionen bereits. Wobei die Version 5.2 die aktuellste ist (Stand Juli 2022).
Sie gehen nun wie folgt vor, um Tesseract unter Windows zu installieren:
- Datei speichern
- Installation ausführen durch Doppelklick oder Rechtsklick und „Ausführen“
- Im Folgenden wird den Anweisungen des Installers gefolgt und entsprechende Einstellungen vorgenommen:
- Sprache auswählen
- Lizenzvereinbarungen annehmen
- Zu installierende Komponenten auswählen:
- ScrollView;
- Training Tools;
- Shortcuts creation,
- Language data;
- additional Script und Language data auswählen (für die meisten wahrscheinlich wichtig: Latin Script, Fraktur Script, evtl. Greek Script);
- additonal Language Data auswählen (für die meisten wahrscheinlich wichtig: German, Latin, English – Middle (1100-1500), evtl. Greek, French, German Fraktur, French – Middle (ca. 1400-1600), Greek Ancient (-1453), Italian, Italian (Old), Spanish, Spanish (old))
- Zielverzeichnis, indem das Programm gespeichert werden soll, auswählen
- Startmenü Ordner für Programmverknüpfungen oder neuen Ordner benennen
- Installation fertigstellen
1.2 Nachträgliches Herunterladen von Standardmodellen
→ Best-Modelle liefern die besten Ergebnisse, jedoch langsamer als Fast-Modelle. Empfehlung: Fast Modelle verwenden, da die Best Modelle kaum besser sind, jedoch deutlich langsamer.
→ Sie können eine Liste aller verfügbaren Sprachen und Schriften (Standardmodelle) auf Github finden.
Die Modelle finden Sie unter den folgenden Links:
Gehen Sie wie folgt vor:
- Gewünschtes Modell auswählen (Schriften in Ordner Scripts)
- Downloaden
- Datei aus Downloadordner ausschneiden und unter “C:\Program Files\Tesseract-OCR\tessdata” (kann sich je nach Speicherort unterscheiden)
1.3 Nachträgliches Herunterladen von Spezialmodellen:
Für historische Drucke laden Sie die Spezialmodelle der UB Mannheim herunter.
Für Frakturtexte können vor allem die Modelle frak2012 und Gt4HistOCR relevant sein
Gehen Sie wie folgt vor:
- Gewünschtes Modell auswählen
- tessdata_fast/ auswählen (möglich auch tessdata_best/, jedoch sind Ergebnisse von tessdata_fast/ gleichwertig und die Texterkennung ist deutlich schneller)
- Version auswählen und Datei speichern
- Datei im Downloadordner umbenennen, da jedes mal der exakte Name angegeben werden muss um Modell zu nutzen (es empfiehlt sich z. B. Namen wie frak2021_0.905_1587027_9141630.traineddata in frak2021.traineddata zu kürzen)
- Ausschneiden und unter “C:\Program Files\Tesseract-OCR\tessdata” speichern (kann sich je nach Speicherort unterscheiden)
1.4 Download von Tesseract Xplore
TesseractXplore ist eine graphische Oberfläche für Tesseract, die die Handhabung deutlich erleichtert, da es ansonsten über die Kommandozeile bedient werden muss. Tesseract Xplore steht auf Github zum Download zur Verfügung.
- Datei speichern
- TesseractXplore ausführen (evtl. muss Smartscreen deaktiviert werden; Windows Sicherheit → App-& Browsersteuerung → Zuverlässigkeitsbasierter Schutz → Einstellungen → SmartScreen für Microsoft Edge deaktivieren)
- Lizenzabkommen annehmen
- Zielverzeichnis, indem das Programm gespeichert werden soll auswählen
- Installation fertigstellen
Graphische Oberfläche funktioniert automatisch, wenn Tesseract wie in Punkt 1.1 beschrieben vorher installiert wurde, ansonsten kann es in den Settings unter „Settings“ → „Extra Tesseract-Settings“ über Button „Install tesseract“ nachträglich installiert werden
Schriften und Sprachen nachträglich in TesseractXplore installieren:
Über Spalte „select model“ → “find a new model“ → gewünschte Sprache eingeben wie z.B. „Spanish“ und ggf. Filter einstellen (Best oder Fast und Script oder Language) → „Download“ (funktioniert auch für Spezialmodelle)
2. Anwendung von Tesseract
2.1 Anwendung von TesseractXplore
- Bilder oder Ordner per Drag & Drop in das Fenster ziehen
Oder über “Image Selection” die entsprechenden Bilder bzw. Ordner auswählen. - Anschließend die „Tesseract Settings“ einstellen
- Select Model: hier ein geeignetes Model auswählen, welches die besten Ergebnisse für das ausgewählte Dokument erzielt.
- Select Page Segmentation: Je nachdem wie das Layout des Dokumentes beschaffen ist, sollte die Seitensegmentierung eingestellt werden.
- Select OCR Engine Mode (OEM): Wählt aus, mit welcher Methode der Text erkannt werden soll. Die Standardeinstellung sollte in den meisten Fällen beibehalten werden.
- Select Output format: Hier wird ausgewählt in welchem Dateiformat der erkannte Text ausgegeben werden soll. Zur Auswahl stehen HOCR, ALTO, PDF und TSV
- HOCR: Dokument, in dem sich zusätzlich zum Text, auch Layout, Erkennungsgenauigkeit, Formatierungen und andere Infos erfassen lassen
- ALTO: offenes XML Schema zur Beschreibung von Layout-Informationen digitalisierter Objekte
- PDF: Transkription wird als Textlayer über PDF gelegt
- TSV: einfache Textdateien, die im Texteditor geöffnet und editiert werden können
- Print on Screen: Wenn diese Funktion eingeschalten ist, wird der erzeugte Text direkt auf dem Bildschirm angezeigt. Dies ist vor allem bei Testläufen sinnvoll.
- Select Output Directory: Hier kann angegeben werden, wo die Zieldatei abgelegt werden soll. Durch die Standardeinstellung wird es im gleichen Ordner wie die Ausgangsdatei abgelegt.
- Create Group Folder: Kann ein eigener Ordner für erkannte Texte angelegt werden, ansonsten werden sie einfach in Ausgangsordner abgelegt. Zudem kann ein Subfolder angelegt werden, wo dann z.B. nach Dateityp getrennt, Dokumente abgelegt werden wie hocr, alto, pdf etc.
- Mit einem Rechtsklick auf das hochgeladene Bild, öffnen sich eine Reihe von Optionen. Man kann beispielsweise über „Edit Image“ das Bild bearbeiten. Es können z.B. die Kontraste, Helligkeit oder Neigung des Textes verändert werden. Über „Remove from Selection“ kann das Bild wieder entfernt werden.
- Nachdem alle Einstellungen vorgenommen und evtl. die Bilder bearbeitet wurden, kann die Texterkennung über den „Run“-Button gestartet werden.
- Wenn man verschiedene Modelle vergleichen möchte kann man den Text jeweils auf dem Bildschirm anzeigen lassen und über den Button „save to stdout“ speichern. Mittels eines Rechtsklick auf das Bild können dann über „Compare stdout“ die Ergebnisse direkt miteinander verglichen werden.
Keyboard Shortcuts
Das Nutzen von Shortcuts erleichtert die Handhabung von Tesseract Xplore. Die wichtigsten Shortcuts finden Sie auch auf Github.
Tasten | Aktion | Bildschirm |
---|---|---|
F1 | Zu den Kivy-Einstellungen wechseln | Alle |
F2 | Zu den App-Einstellungen wechsel | Alle |
F5 | Zum Home-Bildschirm wechseln | Alle |
F6 | Zur Modell-Auswahl wechseln | Alle |
F7 | Zur Modell-Suche wechseln | Alle |
F9 | Online bzw. Offline schalten | Alle |
F10 | Randlos schalten | Alle |
F11 | Vollbild anschalten | Alle |
F11 | Darkmode bzw. Lightmode anschalten | Alle |
Strg + S | Einstellungen speichern | Alle |
Strg + Q | Verlassen | Alle |
Strg + R | Tesseract Einstellungn zurücksetzen | Image Selection |
Strg + O | Ausgewählten Bilderordner öffnen | Image Selection |
Strg + ‘+’ | Heranzoomen | Image Selection |
Strg + ‘-‘ | Herauszoomen | Image Selection |
Strg + Enter | Bild-Tagger ausführen | Image Selection |
Strg + Enter | Modelsuche starten | Modellsuche |
Shift + Strg + X | Löscht ausgewählte Bilder | Image Selection |
Shift + Strg + X | Löscht Suchfilter | Modellsuche |
2.2 Anwendung von Tesseract über die Kommandozeile
Beispiel für Windows Pfad: “C:\Users\<USER>\Documents\Tesseract_Test”
- Nun öffnen Sie die Tesseract-OCR-Console:
- Am einfachsten ist die Anwendung, wenn man angibt, dass man die Outputdatei dort ablegt, wo sich die Inputdatei befindet:
→ Befehl Zum wechseln des Verzeichnissses (engl.: change directory):
$ cd <Pfad>
→ Beispiel:
$ cd "C:\Users\muster\Documents\Beispielbilder_OCR"
→ Befehl zur Transkription:
$ tesseract <Name der Inputdatei> <Name der Outputdatei> -l <Modell> <gewünschte Outputformate wie pdf txt; mehrere durch Leerzeichen trennen>
→ es können auch weitere Parameter spezifiert werden:
$ tesseract <Name der Inputdatei> <Name der Outputdatei> -l <Modell> --<oem ocrenginemode> --<psm pagesegmode> [Outputformate]
→ Beispiel:
$ tesseract img01.jpg ocrimg01 -l frak2021 pdf txt alto
Andere Möglichkeit, bei der Input- und Outputordner genau (mit absoluten Pfaden) definiert werden:
tesseract <Pfad zur Inputdatei> <Pfad zur Outputdatei> -l <Modell> <gewünschte Outputformate>
Beispiel:
$ tesseract "C:\Users\muster\Documents\Beispielbilder OCR\bsb-demo.jpg" c:\temp\bsb-demo-ocr -l frak2021 txt
Hinweis: Es können mehrere Modelle verwendet werden, wenn diese durch ein „+“ miteinander verbunden werden.
Tesseract kann nur nicht mit lokal verfügbaren Dateien umgehen sondern auch mit auf entferten Servern liegenden. Dazu wird nur die URL zum jew. Bild benötigt und anstatt dem Pfad zu lokalen Datei verwendet:
$ tesseract <URL> <Name der Outputdatei> -l <Modell> <gewünschte Outputformate wie pdf txt; mehrere durch Leerzeichen trennen>
3. Voraussetzungen für erfolgreiche Texterkennung
- Neigung, Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes, Auflösung und Qualität der Bilddatei
- Unterstützt werden folgende Formate: BMP, PNM, PNG, JFIF, JPEG, and TIFF.
- Verwendung eines passenden Modells, v.a. bei Fraktur empfehlen sich die Spezialmodelle der UB Mannheim
- Für bestmögliche Ergebnisse müssen einige Voraussetzungen erfüllt werden: gute Auflösung der Vorlagen (300-400dpi); Bereinigung von Flecken etc., Begradigung; Text darf nicht „um die Ecke gehen“ bzw. im Falz verschwinden; Kontrastverschärfung; keine Binarisierung
3.1 Hilfsprogramme
- Scantailor: Bearbeitung von Scans: u.a. Seiten aufgeteilt, begradigt, Entfernung unerwünschter Ränder, Bearbeitung automatisiert, aber auch manuell
- Unpaper: Kommandozeilenprogramm für Nachbearbeitung von Scans und Bildern; gut für automatische Stapelverarbeitung von großen Datenmengen, Vorbereitung von Texterkennung, Digitalisierung, Konservierung und Archivierung von Scans
- Convert: Teil der Softwaresammlung ImageMagick; Verbesserung von Scans
- ExactImage: Sammlung von Kommandozeilen-Werkzeugen zur Bearbeitung von Grafik-Dateien; hohe Bearbeitungsgeschwindigkeit, für schwache Rechner geeignet
- Meld: bietet die Möglichkeit verschiedene Transkriptionen miteinander zu vergleichen
4. Häufige Fehler, die zu schlechten Ergebnissen führen
- Verwendung ungeeigneter Modelle
- zu schlechte Bildqualität der Inputdatei
- andere Probleme mit Scan wie schwache Kontraste, Wellenbewegung des Textes im Falz etc., schiefer Text, Tabellen, Vorkommen verschiedener Schriftarten