Wie KI-Inpainting fehlende Bildbereiche ergänzt
Von Clone Stamp bis LaMa: wie KI lernte, Objekte aus Fotos zu entfernen, indem sie mit Fourier-Faltungen plausible Texturen halluziniert.
Du fotografierst einen Kassenbon, und Sekunden später steht der Text auf deinem Bildschirm - bearbeitbar, durchsuchbar und kopierbar. Hinter dieser einfachen Interaktion stecken Jahrzehnte Forschung in der optischen Zeichenerkennung - der Technologie, die Computern das Lesen beibringt. Wie schaut eine Maschine auf Pixel und erkennt darin Buchstaben?
OCR begann in den 1950er-Jahren, als Postdienste Briefe automatisch sortieren mussten. Frühe Systeme konnten nur speziell entworfene Schriften lesen, die mit magnetischer Tinte gedruckt waren (die blockigen Zahlen am unteren Rand von Schecks sind ein Relikt aus dieser Zeit). In den 1990ern machten Scanner und OCR-Software für den Desktop die Digitalisierung von Dokumenten praktikabel. Heute läuft OCR in Echtzeit auf Smartphone-Kameras und liest Schilder, Speisekarten und Nummernschilder.
Moderne OCR-Pipelines zerlegen das Problem in vier Stufen:
Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
│ │ │ │ │
│ Grayscale Bounding boxes Split or Neural net
│ Deskew around lines sequence + language
│ Denoise model modelTesseract ist die am weitesten verbreitete Open-Source-OCR-Engine. Ursprünglich in den 1980ern bei Hewlett-Packard entwickelt, wurde sie 2005 als Open Source veröffentlicht und wird heute von Google gepflegt. Tesseract 5 nutzt ein LSTM-Netzwerk (Long Short-Term Memory) für die Erkennung, was die Genauigkeit gegenüber dem älteren Mustervergleich drastisch verbessert hat.
Tesseract unterstützt über 100 Sprachen und Schriftsysteme, darunter Chinesisch, Arabisch und Devanagari. Es kann über WebAssembly auch im Browser laufen (über Bibliotheken wie Tesseract.js). Dadurch kann OCR vollständig clientseitig stattfinden, ohne Bilder auf einen Server hochzuladen.
| Herausforderung | Warum es schwierig ist | Gegenmaßnahme |
|---|---|---|
| Handschrift | Unendliche Unterschiede zwischen Schreibenden | Spezialisierte Handschriftmodelle (HTR) |
| Gebogener Text | Zeichen verzerren sich entlang von Bögen | Vorverarbeitung zur Textbegradigung |
| Niedriger Kontrast | Heller Text auf hellem Hintergrund | Adaptive Schwellenwertbildung, Histogramm-Equalisierung |
| Nichtlateinische Schriften | Mehr Glyphen, verbundene Zeichen | Sprachspezifische Modelle |
| Komplexe Layouts | Tabellen, Spalten, gemischte Inhalte | Layoutanalyse vor der Erkennung |
Die Genauigkeit von OCR hängt viel stärker von der Qualität des Inputs ab als von der Engine:
OCR liest nicht nur Text - es schlägt eine Brücke zwischen der physischen und der digitalen Welt. Jedes gescannte Formular, jedes fotografierte Whiteboard und jedes übersetzte Schild beruht auf einer Maschine, die gelernt hat, Buchstaben in Pixeln zu sehen.
Von Clone Stamp bis LaMa: wie KI lernte, Objekte aus Fotos zu entfernen, indem sie mit Fourier-Faltungen plausible Texturen halluziniert.
Die Mathematik hinter halbtransparenten Wasserzeichen, warum feste Muster verlustfrei umkehrbar sind und worin sich sichtbare und unsichtbare Wasserzeichen unterscheiden.
Warum Bildschirme rotes, grünes und blaues Licht mischen, was die HEX-Kurzschreibweise wirklich codiert und wann HSL das Leben leichter macht.