Mit Structmeta lassen sich durch die Ablage von Scans in einer speziellen Ordnerstruktur DDB- bzw. Zeitungsportal konforme METS/MODS XML-Dateien herstellen.
Wenn OCR erzeugt werden soll, schaut das Programm zunächst ob es ursprünglich TIFFs gab. Wenn das der Fall ist, dann nutzt Tesseract die TIFF Datei. Ansonsten wird die JPG Datei genutzt. Wenn aber mit der Option max_dimensions die Bilder verkleinert werden, passen die Koordinaten der Texterkennung im ALTO nicht.