PNG vs JPG vs WebP: cuándo usar cada formato de imagen
Compresión con pérdida y sin pérdida, cuándo importa la transparencia y por qué WebP está reemplazando a PNG y JPG en la web.
Una fotografía es una cuadrícula plana y bidimensional de píxeles. Sin embargo, cuando miras una foto de una cordillera o de una calle urbana, tu cerebro entiende al instante qué objetos están lo bastante cerca como para tocarlos y cuáles están a kilómetros de distancia. Ese proceso de recuperar la tercera dimensión a partir de una imagen 2D se llama estimación de profundidad.
Un mapa de profundidad es una imagen especializada en la que cada píxel representa la distancia entre la cámara y el objeto en ese punto. A diferencia de una foto normal, que almacena color (rojo, verde, azul), un mapa de profundidad normalmente guarda un solo valor por píxel, a menudo visualizado como una imagen en escala de grises.
Los humanos, con dos ojos, usamos la estereopsis para triangular distancias. Pero ¿cómo percibe profundidad una sola cámara? Eso se conoce como estimación monocular de profundidad y se apoya en varias pistas visuales:
Los modelos modernos de IA, como Depth Anything, se entrenan con millones de imágenes donde la profundidad "real" se conoce gracias a sistemas LiDAR o configuraciones estéreo.
El modelo convierte una imagen en color en un mapa de profundidad mediante una tubería especializada:
La magia de la IA moderna es su capacidad para entender el contexto. Sabe que una persona de pie en una acera probablemente está más cerca que el edificio que tiene detrás.
Una vez que tienes un mapa de profundidad, puedes manipular una foto 2D como si fuera una escena 3D:
La estimación de profundidad es el puente entre el mundo 2D de las imágenes y el mundo 3D que habitamos.
Compresión con pérdida y sin pérdida, cuándo importa la transparencia y por qué WebP está reemplazando a PNG y JPG en la web.
Qué pasa cuando mueves el control de calidad, cómo las transformadas DCT cambian las fotos y por qué las capturas se comprimen distinto.
Cómo un QR codifica datos en módulos binarios, por qué la corrección de errores permite poner logos al centro y para qué sirven los cuadros de las esquinas.