Stirling-PDF als Docker-Container installieren

In diesem Beitrag werde ich das Tool „Stirling PDF“ als Docker Container einrichten. Hierzu benötigt ihr eine lauffähige Docker-Instanz mit Docker-Compose.

Nachdem wir uns via SSH auf die Docker-Instanz verbunden haben müssen wir sicherstellen, dass wir als root eingeloggt sind. sollte am Anfang der Eingabezeile nicht „root@…“ stehen, so müsst ihr euch kurz als root User definieren.

sudo su

Als root User erstellen wir uns einen Ordner, welcher die Dateien für diesen Container enthalten soll.

mkdir /root/stirling-pdf

Wir wechseln direkt in den angelegten Ordner.

cd /root/stirling-pdf/

Im selben Ordner erstellen wir nun eine Datei, welche Docker-Compose Befehle zur Einrichtung unseres Containers enthält.

nano docker-compose.yml

in diese Datei tragen wir dann die notwendigen Konfigurationen ein.

version: '3.3'
services:
  stirling-pdf:
    image: frooodle/s-pdf:latest # Das Image, welches geladen werden soll
    ports:
# Hier wird der Port angegeben unter welchem der Container nach der Einrichtung erreicht werden kann.
      - '8080:8080'
    volumes:
      - /root/stirling-pdf/trainingData:/usr/share/tesseract-ocr/4.00/tessdata
# Die beiden naechsten Zeilen werden fuer weitere OCR Sprachen benoetigt (Standardmaeßig ist nur Englisch mit an Board)
      - /root/stirling-pdf/extraConfigs:/configs
      - /root/stirling-pdf/customFiles:/customFiles/
    environment:
      - DOCKER_ENABLE_SECURITY=false
    restart: always

Wir starten den Container, welcher nun durch unsere zuvor hinterlegte Docker-Compose Datei anfängt die notwendigen Pakete herunterzuladen.

docker-compose up -d

um nun neben der Englischen OCR-Sprache auch eine andere Sprache nutzen zu können müssen wir in den Ordner „trainingData“ wechseln.

cd /root/stirling-pdf/traningData/

Jede Sprache wir in einer separaten Datei gepflegt, welche mit der Länderbezeichnung beginnt und als Dateiendung „.traineddata“ versehen ist. In dem wir uns den Ordnerinhalt anzeigen lassen, können wir die installierten Sprachpakete einsehen. Sollte der Ordner leer sein, so habt ihr noch keine weiteren Sprachen hinzugefügt.

ls

Für weiter Sprachen müssen wir uns den entsprechenden Link besorgen. Hierzu gehen wir auf die GitHub Seite von tesseract und suchen uns die entsprechende Sprache aus der Dateiliste heraus.

tesseract Sprachdateien

Wir machen einen Rechtsklick auf die entsprechende Sprachdatei und wählen den Punkt „Link kopieren“ oder „Adresse des Links kopieren“ (Abhängig vom genutzten Browser).

Um diese Datei nun herunterzuladen, geben wir den Befehl wget gefolgt von dem Link der Sprachdatei an.

wget https://github.com/tesseract-ocr/tessdata_fast/blob/main/deu.traineddata

Um die Änderungen zu übernehmen wechseln wir in den Hauptordner zurück.

cd ..

Schalten den Container ab.

docker-compose down

und wieder ein.

docker-compose up -d

Wenn ihr jetzt in eurem Browser die IP-Adresse eurer Docker-Instanz mit einem angehangenen „:8080“ eingebt (sofern ihr den Port oben nicht angepasst habt), solltet ihr eure Stirling-PDF Web-GUI erreichen.

Um zu prüfen ob die Übernahme eurer OCR-Sprache funktioniert hat, suchen wir im Suchfeld nach „ocr“ und klicken auf das dann angezeigte Kästchen.

Ihr solltet nun alle durch euch installierten Sprachen aufgelistet sehen zuzüglich Englisch.

Stirling-PDF als Docker-Container installieren

Kommentare

Schreibe einen Kommentar Antwort abbrechen