AI6 Min. Lesezeit20. März 2026

Wie OCR Text aus Bildern liest

Du fotografierst einen Kassenbon, und Sekunden später steht der Text auf deinem Bildschirm - bearbeitbar, durchsuchbar und kopierbar. Hinter dieser einfachen Interaktion stecken Jahrzehnte Forschung in der optischen Zeichenerkennung - der Technologie, die Computern das Lesen beibringt. Wie schaut eine Maschine auf Pixel und erkennt darin Buchstaben?

Eine kurze Geschichte

OCR begann in den 1950er-Jahren, als Postdienste Briefe automatisch sortieren mussten. Frühe Systeme konnten nur speziell entworfene Schriften lesen, die mit magnetischer Tinte gedruckt waren (die blockigen Zahlen am unteren Rand von Schecks sind ein Relikt aus dieser Zeit). In den 1990ern machten Scanner und OCR-Software für den Desktop die Digitalisierung von Dokumenten praktikabel. Heute läuft OCR in Echtzeit auf Smartphone-Kameras und liest Schilder, Speisekarten und Nummernschilder.

Wie moderne OCR funktioniert

Moderne OCR-Pipelines zerlegen das Problem in vier Stufen:

Bildvorverarbeitung - in Graustufen umwandeln, Rauschen entfernen, Schräglage korrigieren, Kontrast normalisieren. Dieser Schritt hat den größten Einfluss auf die Genauigkeit.
Texterkennung - Bildbereiche lokalisieren, die Text enthalten. Moderne Systeme verwenden neuronale Netze, um Bounding Boxes um Textzeilen und Wörter zu ziehen.
Zeichensegmentierung - einzelne Zeichen isolieren (oder in modernen Systemen ganze Wörter auf einmal mit Sequenzmodellen verarbeiten).
Erkennung - jedes Zeichen per Mustervergleich oder neuronalen Netzen klassifizieren und anschließend Sprachmodelle anwenden, um mehrdeutige Zeichen zu korrigieren.

Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
  │         │              │                    │               │
  │     Grayscale      Bounding boxes      Split or         Neural net
  │     Deskew         around lines        sequence         + language
  │     Denoise                            model            model

Die Tesseract-Engine

Tesseract ist die am weitesten verbreitete Open-Source-OCR-Engine. Ursprünglich in den 1980ern bei Hewlett-Packard entwickelt, wurde sie 2005 als Open Source veröffentlicht und wird heute von Google gepflegt. Tesseract 5 nutzt ein LSTM-Netzwerk (Long Short-Term Memory) für die Erkennung, was die Genauigkeit gegenüber dem älteren Mustervergleich drastisch verbessert hat.

Tesseract unterstützt über 100 Sprachen und Schriftsysteme, darunter Chinesisch, Arabisch und Devanagari. Es kann über WebAssembly auch im Browser laufen (über Bibliotheken wie Tesseract.js). Dadurch kann OCR vollständig clientseitig stattfinden, ohne Bilder auf einen Server hochzuladen.

Was OCR schwierig macht

Herausforderung	Warum es schwierig ist	Gegenmaßnahme
Handschrift	Unendliche Unterschiede zwischen Schreibenden	Spezialisierte Handschriftmodelle (HTR)
Gebogener Text	Zeichen verzerren sich entlang von Bögen	Vorverarbeitung zur Textbegradigung
Niedriger Kontrast	Heller Text auf hellem Hintergrund	Adaptive Schwellenwertbildung, Histogramm-Equalisierung
Nichtlateinische Schriften	Mehr Glyphen, verbundene Zeichen	Sprachspezifische Modelle
Komplexe Layouts	Tabellen, Spalten, gemischte Inhalte	Layoutanalyse vor der Erkennung

Vorverarbeitung ist die halbe Miete. Bevor du ein Bild an eine OCR-Engine übergibst, erhöhe die Auflösung möglichst auf mindestens 300 DPI, wandle es in Graustufen um und schärfe es. Diese Schritte allein können die Genauigkeit bei sauber gedrucktem Text von 70 % auf 95 %+ steigern.

Einflussfaktoren auf die Genauigkeit

Die Genauigkeit von OCR hängt viel stärker von der Qualität des Inputs ab als von der Engine:

Auflösung - höhere DPI bedeuten mehr Pixel pro Zeichen und geben dem Modell mehr Daten. 300 DPI sind der Standard für gescannte Dokumente.
Kontrast - dunkler Text auf weißem Hintergrund ist ideal. Farbige Hintergründe, Verläufe und Wasserzeichen verringern die Genauigkeit.
Schriftklarheit - Standardschriften (Arial, Times) werden fast fehlerfrei erkannt. Dekorative, handschriftliche oder stark stilisierte Schriften führen zu Fehlern.
Bildrauschen - Staub, Knicke und JPEG-Kompressionsartefakte verwirren die Zeichengrenzen.

Praktische Einsatzgebiete

Kassenbon-Scanning - Apps zur Ausgabenverfolgung extrahieren Summen, Daten und Händlernamen
Dokumentendigitalisierung - Bibliotheken machen Bücher und Archive als durchsuchbaren Text verfügbar
Nummernschilderkennung - Mautsysteme und Parkhäuser lesen Kennzeichen in Echtzeit
Barrierefreiheit - Screenreader nutzen OCR, um sehbehinderten Nutzern Text in Bildern zu beschreiben

OCR liest nicht nur Text - es schlägt eine Brücke zwischen der physischen und der digitalen Welt. Jedes gescannte Formular, jedes fotografierte Whiteboard und jedes übersetzte Schild beruht auf einer Maschine, die gelernt hat, Buchstaben in Pixeln zu sehen.

Probier es selbst aus

Setze das Gelernte mit unserem Image to Text (OCR) in die Praxis um.

Wie OCR Text aus Bildern liest

Eine kurze Geschichte

Wie moderne OCR funktioniert

Die Tesseract-Engine

Was OCR schwierig macht

Einflussfaktoren auf die Genauigkeit

Praktische Einsatzgebiete

Probier es selbst aus

Weitere Artikel

Wie KI-Inpainting fehlende Bildbereiche ergänzt

Wie Alpha-Blending-Wasserzeichen funktionieren (und warum sie umkehrbar sind)

Farbformate verstehen: HEX, RGB & HSL