Cómo el inpainting con IA rellena partes faltantes de las fotos
De los sellos de clonado a LaMa: cómo la IA aprendió a borrar objetos de fotos imaginando texturas plausibles con convoluciones de Fourier.
Haces una foto a un recibo y, segundos despues, el texto aparece en tu pantalla, editable, buscable y listo para copiar y pegar. Detras de esa interaccion tan simple hay decadas de investigacion en Optical Character Recognition, la tecnologia que ensena a los ordenadores a leer. ?Como mira una maquina los pixeles y ve letras?
El OCR empezo en la decada de 1950, cuando los servicios postales necesitaban clasificar correo automaticamente. Los primeros sistemas solo podian leer tipografias especialmente disenadas e impresas con tinta magnetica (los numeros cuadrados de la parte inferior de los cheques son un vestigio de esa epoca). En los anos 90, los escaneres y el software de OCR de escritorio hicieron practica la digitalizacion documental. Hoy, el OCR funciona en tiempo real en las camaras de los telefonos, leyendo carteles, menus y matriculas.
Los pipelines modernos de OCR dividen el problema en cuatro etapas:
Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
│ │ │ │ │
│ Grayscale Bounding boxes Split or Neural net
│ Deskew around lines sequence + language
│ Denoise model modelTesseract es el motor OCR de codigo abierto mas usado. Fue desarrollado originalmente por Hewlett-Packard en la decada de 1980, se publico como open source en 2005 y hoy lo mantiene Google. Tesseract 5 usa una red neuronal LSTM (Long Short-Term Memory) para el reconocimiento, lo que mejoro drasticamente la precision frente al antiguo enfoque de coincidencia de patrones.
Tesseract admite mas de 100 idiomas y escrituras, entre ellos chino, arabe y devanagari. Puede ejecutarse en el navegador mediante WebAssembly (a traves de librerias como Tesseract.js), lo que significa que el OCR puede ocurrir totalmente en el cliente sin subir imagenes a un servidor.
| Desafio | Por que es dificil | Mitigacion |
|---|---|---|
| Escritura a mano | Variacion infinita entre personas | Modelos especializados de escritura manuscrita (HTR) |
| Texto curvo | Los caracteres se distorsionan a lo largo de arcos | Preprocesamiento de rectificacion de texto |
| Bajo contraste | Texto claro sobre fondos claros | Umbral adaptativo, ecualizacion de histograma |
| Escrituras no latinas | Mas glifos, caracteres conectados | Modelos especificos por idioma |
| Diseños complejos | Tablas, columnas, contenido mixto | Analisis de layout antes del reconocimiento |
La precision del OCR depende mucho mas de la calidad de la entrada que del motor:
El OCR no solo lee texto: une el mundo fisico y el digital. Cada formulario escaneado, pizarra fotografiada y cartel traducido depende de una maquina que aprendio a ver letras en pixeles.
De los sellos de clonado a LaMa: cómo la IA aprendió a borrar objetos de fotos imaginando texturas plausibles con convoluciones de Fourier.
Las matemáticas detrás de las marcas de agua semitransparentes, por qué algunos patrones fijos pueden revertirse sin pérdida y la diferencia entre marcas visibles e invisibles.
Por qué las pantallas mezclan luz roja, verde y azul, qué codifica realmente la notación HEX y cuándo HSL te facilita la vida.