ai mascot
IA6 de lectura

Cómo el OCR lee texto en imágenes

Haces una foto a un recibo y, segundos despues, el texto aparece en tu pantalla, editable, buscable y listo para copiar y pegar. Detras de esa interaccion tan simple hay decadas de investigacion en Optical Character Recognition, la tecnologia que ensena a los ordenadores a leer. ?Como mira una maquina los pixeles y ve letras?


Breve historia

El OCR empezo en la decada de 1950, cuando los servicios postales necesitaban clasificar correo automaticamente. Los primeros sistemas solo podian leer tipografias especialmente disenadas e impresas con tinta magnetica (los numeros cuadrados de la parte inferior de los cheques son un vestigio de esa epoca). En los anos 90, los escaneres y el software de OCR de escritorio hicieron practica la digitalizacion documental. Hoy, el OCR funciona en tiempo real en las camaras de los telefonos, leyendo carteles, menus y matriculas.


Como funciona el OCR moderno

Los pipelines modernos de OCR dividen el problema en cuatro etapas:

PreprocesarDetectarSegmentarReconocer
  1. Preprocesamiento de imagen — convertir a escala de grises, eliminar ruido, corregir inclinacion y normalizar el contraste. Este paso es el que mas impacta en la precision.
  2. Deteccion de texto — localizar las regiones de la imagen que contienen texto. Los sistemas modernos usan redes neuronales para dibujar cuadros delimitadores alrededor de lineas y palabras.
  3. Segmentacion de caracteres — aislar caracteres individuales (o, en sistemas modernos, procesar palabras completas de una vez usando modelos de secuencia).
  4. Reconocimiento — clasificar cada caracter con coincidencia de patrones o redes neuronales y despues aplicar modelos de lenguaje para corregir caracteres ambiguos.
Image → Preprocess → Detect text regions → Segment characters → Recognise → Output text
  │         │              │                    │               │
  │     Grayscale      Bounding boxes      Split or         Neural net
  │     Deskew         around lines        sequence         + language
  │     Denoise                            model            model

El motor Tesseract

Tesseract es el motor OCR de codigo abierto mas usado. Fue desarrollado originalmente por Hewlett-Packard en la decada de 1980, se publico como open source en 2005 y hoy lo mantiene Google. Tesseract 5 usa una red neuronal LSTM (Long Short-Term Memory) para el reconocimiento, lo que mejoro drasticamente la precision frente al antiguo enfoque de coincidencia de patrones.

Tesseract admite mas de 100 idiomas y escrituras, entre ellos chino, arabe y devanagari. Puede ejecutarse en el navegador mediante WebAssembly (a traves de librerias como Tesseract.js), lo que significa que el OCR puede ocurrir totalmente en el cliente sin subir imagenes a un servidor.


Que hace dificil al OCR

DesafioPor que es dificilMitigacion
Escritura a manoVariacion infinita entre personasModelos especializados de escritura manuscrita (HTR)
Texto curvoLos caracteres se distorsionan a lo largo de arcosPreprocesamiento de rectificacion de texto
Bajo contrasteTexto claro sobre fondos clarosUmbral adaptativo, ecualizacion de histograma
Escrituras no latinasMas glifos, caracteres conectadosModelos especificos por idioma
Diseños complejosTablas, columnas, contenido mixtoAnalisis de layout antes del reconocimiento
Hello World300 DPI, clean scan99% accuracyvsHe11o Wor1d72 DPI, noisy photo72% accuracy
El preprocesamiento es la mitad de la batalla. Antes de pasar una imagen a un motor OCR, prueba a subir la resolucion al menos a 300 DPI, convertirla a escala de grises y aplicar nitidez. Solo con esos pasos la precision puede pasar del 70 % al 95 %+ en texto impreso limpio.

Factores de precision

La precision del OCR depende mucho mas de la calidad de la entrada que del motor:

  • Resolucion — un DPI mas alto significa mas pixeles por caracter, lo que le da al modelo mas datos con los que trabajar. 300 DPI es el estandar para documentos escaneados.
  • Contraste — el texto oscuro sobre fondo blanco es ideal. Los fondos coloreados, degradados y marcas de agua reducen la precision.
  • Claridad tipografica — las fuentes estandar (Arial, Times) se reconocen con precision casi perfecta. Las tipografias decorativas, manuscritas o muy estilizadas provocan errores.
  • Ruido de imagen — polvo, arrugas y artefactos de compresion JPEG confunden los limites de los caracteres.

Usos en el mundo real

  • Escaneo de recibos — apps de control de gastos extraen importes, fechas y nombres de comercios
  • Digitalizacion documental — bibliotecas convierten libros y archivos en texto buscable
  • Reconocimiento de matriculas — los peajes y aparcamientos leen matriculas en tiempo real
  • Accesibilidad — los lectores de pantalla usan OCR para describir texto dentro de imagenes a usuarios con discapacidad visual
El OCR no solo lee texto: une el mundo fisico y el digital. Cada formulario escaneado, pizarra fotografiada y cartel traducido depende de una maquina que aprendio a ver letras en pixeles.

Pruébalo tú mismo

Pon en práctica lo que aprendiste con nuestro Image to Text (OCR).

Cómo el OCR lee texto en imágenes | ToolsCanvas