ai mascot
AI6 Min. Lesezeit

Wie OCR Text aus Bildern liest

Du fotografierst einen Kassenbon, und Sekunden später steht der Text auf deinem Bildschirm - bearbeitbar, durchsuchbar und kopierbar. Hinter dieser einfachen Interaktion stecken Jahrzehnte Forschung in der optischen Zeichenerkennung - der Technologie, die Computern das Lesen beibringt. Wie schaut eine Maschine auf Pixel und erkennt darin Buchstaben?


Eine kurze Geschichte

OCR begann in den 1950er-Jahren, als Postdienste Briefe automatisch sortieren mussten. Frühe Systeme konnten nur speziell entworfene Schriften lesen, die mit magnetischer Tinte gedruckt waren (die blockigen Zahlen am unteren Rand von Schecks sind ein Relikt aus dieser Zeit). In den 1990ern machten Scanner und OCR-Software für den Desktop die Digitalisierung von Dokumenten praktikabel. Heute läuft OCR in Echtzeit auf Smartphone-Kameras und liest Schilder, Speisekarten und Nummernschilder.


Wie moderne OCR funktioniert

Moderne OCR-Pipelines zerlegen das Problem in vier Stufen:

VorverarbeitungErkennenSegmentierenErkennen
  1. Bildvorverarbeitung - in Graustufen umwandeln, Rauschen entfernen, Schräglage korrigieren, Kontrast normalisieren. Dieser Schritt hat den größten Einfluss auf die Genauigkeit.
  2. Texterkennung - Bildbereiche lokalisieren, die Text enthalten. Moderne Systeme verwenden neuronale Netze, um Bounding Boxes um Textzeilen und Wörter zu ziehen.
  3. Zeichensegmentierung - einzelne Zeichen isolieren (oder in modernen Systemen ganze Wörter auf einmal mit Sequenzmodellen verarbeiten).
  4. Erkennung - jedes Zeichen per Mustervergleich oder neuronalen Netzen klassifizieren und anschließend Sprachmodelle anwenden, um mehrdeutige Zeichen zu korrigieren.
Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
  │         │              │                    │               │
  │     Grayscale      Bounding boxes      Split or         Neural net
  │     Deskew         around lines        sequence         + language
  │     Denoise                            model            model

Die Tesseract-Engine

Tesseract ist die am weitesten verbreitete Open-Source-OCR-Engine. Ursprünglich in den 1980ern bei Hewlett-Packard entwickelt, wurde sie 2005 als Open Source veröffentlicht und wird heute von Google gepflegt. Tesseract 5 nutzt ein LSTM-Netzwerk (Long Short-Term Memory) für die Erkennung, was die Genauigkeit gegenüber dem älteren Mustervergleich drastisch verbessert hat.

Tesseract unterstützt über 100 Sprachen und Schriftsysteme, darunter Chinesisch, Arabisch und Devanagari. Es kann über WebAssembly auch im Browser laufen (über Bibliotheken wie Tesseract.js). Dadurch kann OCR vollständig clientseitig stattfinden, ohne Bilder auf einen Server hochzuladen.


Was OCR schwierig macht

HerausforderungWarum es schwierig istGegenmaßnahme
HandschriftUnendliche Unterschiede zwischen SchreibendenSpezialisierte Handschriftmodelle (HTR)
Gebogener TextZeichen verzerren sich entlang von BögenVorverarbeitung zur Textbegradigung
Niedriger KontrastHeller Text auf hellem HintergrundAdaptive Schwellenwertbildung, Histogramm-Equalisierung
Nichtlateinische SchriftenMehr Glyphen, verbundene ZeichenSprachspezifische Modelle
Komplexe LayoutsTabellen, Spalten, gemischte InhalteLayoutanalyse vor der Erkennung
Hello World300 DPI, clean scan99% accuracyvsHe11o Wor1d72 DPI, noisy photo72% accuracy
Vorverarbeitung ist die halbe Miete. Bevor du ein Bild an eine OCR-Engine übergibst, erhöhe die Auflösung möglichst auf mindestens 300 DPI, wandle es in Graustufen um und schärfe es. Diese Schritte allein können die Genauigkeit bei sauber gedrucktem Text von 70 % auf 95 %+ steigern.

Einflussfaktoren auf die Genauigkeit

Die Genauigkeit von OCR hängt viel stärker von der Qualität des Inputs ab als von der Engine:

  • Auflösung - höhere DPI bedeuten mehr Pixel pro Zeichen und geben dem Modell mehr Daten. 300 DPI sind der Standard für gescannte Dokumente.
  • Kontrast - dunkler Text auf weißem Hintergrund ist ideal. Farbige Hintergründe, Verläufe und Wasserzeichen verringern die Genauigkeit.
  • Schriftklarheit - Standardschriften (Arial, Times) werden fast fehlerfrei erkannt. Dekorative, handschriftliche oder stark stilisierte Schriften führen zu Fehlern.
  • Bildrauschen - Staub, Knicke und JPEG-Kompressionsartefakte verwirren die Zeichengrenzen.

Praktische Einsatzgebiete

  • Kassenbon-Scanning - Apps zur Ausgabenverfolgung extrahieren Summen, Daten und Händlernamen
  • Dokumentendigitalisierung - Bibliotheken machen Bücher und Archive als durchsuchbaren Text verfügbar
  • Nummernschilderkennung - Mautsysteme und Parkhäuser lesen Kennzeichen in Echtzeit
  • Barrierefreiheit - Screenreader nutzen OCR, um sehbehinderten Nutzern Text in Bildern zu beschreiben
OCR liest nicht nur Text - es schlägt eine Brücke zwischen der physischen und der digitalen Welt. Jedes gescannte Formular, jedes fotografierte Whiteboard und jedes übersetzte Schild beruht auf einer Maschine, die gelernt hat, Buchstaben in Pixeln zu sehen.

Probier es selbst aus

Setze das Gelernte mit unserem Image to Text (OCR) in die Praxis um.

Wie OCR Text aus Bildern liest | ToolsCanvas