Imagen6 de lectura23 de marzo de 2026

Cómo los mapas de profundidad convierten fotos planas en 3D

Una fotografía es una cuadrícula plana y bidimensional de píxeles. Sin embargo, cuando miras una foto de una cordillera o de una calle urbana, tu cerebro entiende al instante qué objetos están lo bastante cerca como para tocarlos y cuáles están a kilómetros de distancia. Ese proceso de recuperar la tercera dimensión a partir de una imagen 2D se llama estimación de profundidad.

¿Qué es un mapa de profundidad?

Un mapa de profundidad es una imagen especializada en la que cada píxel representa la distancia entre la cámara y el objeto en ese punto. A diferencia de una foto normal, que almacena color (rojo, verde, azul), un mapa de profundidad normalmente guarda un solo valor por píxel, a menudo visualizado como una imagen en escala de grises.

Los píxeles brillantes (blanco) representan los objetos más cercanos a la cámara.
Los píxeles oscuros (negro) representan los objetos más lejanos.
Los grises representan todo lo intermedio.

Profundidad vs. disparidad: En contextos técnicos, quizá escuches el término "disparidad". Mientras la profundidad es la distancia real en metros, la disparidad es el desplazamiento aparente de un objeto entre dos puntos de vista. Están relacionadas de forma inversa.

Cómo una sola cámara "ve" la profundidad

Los humanos, con dos ojos, usamos la estereopsis para triangular distancias. Pero ¿cómo percibe profundidad una sola cámara? Eso se conoce como estimación monocular de profundidad y se apoya en varias pistas visuales:

Oclusión - Si un objeto bloquea a otro, el que bloquea está más cerca.
Tamaño relativo - Los objetos más pequeños se perciben como más lejanos.
Perspectiva lineal - Las líneas paralelas parecen converger en la distancia.
Gradientes de textura - Los detalles finos se difuminan en una textura uniforme al alejarse.
Perspectiva atmosférica - Los objetos lejanos se ven más pálidos y azulados.

Cómo aprenden la profundidad los modelos de IA

Los modelos modernos de IA, como Depth Anything, se entrenan con millones de imágenes donde la profundidad "real" se conoce gracias a sistemas LiDAR o configuraciones estéreo.

La arquitectura encoder-decoder

El modelo convierte una imagen en color en un mapa de profundidad mediante una tubería especializada:

Encoder - Una red neuronal descompone la imagen en características abstractas.
Decoder - Proyecta esas características de vuelta a resolución, estimando distancias.

La magia de la IA moderna es su capacidad para entender el contexto. Sabe que una persona de pie en una acera probablemente está más cerca que el edificio que tiene detrás.

¿Qué se puede hacer con mapas de profundidad?

Una vez que tienes un mapa de profundidad, puedes manipular una foto 2D como si fuera una escena 3D:

Paralaje 3D - Desplazar capas a distintas velocidades para crear un efecto de movimiento.
Modo retrato - Usar el mapa como máscara para aplicar desenfoque al fondo.
Composición VFX - Colocar objetos digitales detrás de elementos reales.
Reconstrucción 3D - Crear nubes de puntos o mallas a partir de valores de profundidad.

Limitaciones y desafíos

Profundidad relativa vs. métrica - La IA tiene dificultades con medidas exactas.
Transparencia - El vidrio y los espejos suelen confundir al modelo.
Artefactos en los bordes - Los límites bruscos pueden provocar efectos de "halo".
Patrones repetidos - Las áreas uniformes ofrecen pocas pistas visuales.

La estimación de profundidad es el puente entre el mundo 2D de las imágenes y el mundo 3D que habitamos.

Pruébalo tú mismo

Pon en práctica lo que aprendiste con nuestro Depth Map Generator.

Más artículos

Imagen7 de lectura

PNG vs JPG vs WebP: cuándo usar cada formato de imagen

Compresión con pérdida y sin pérdida, cuándo importa la transparencia y por qué WebP está reemplazando a PNG y JPG en la web.

20 de marzo de 2026Leer

Imagen8 de lectura

Cómo funciona realmente la compresión de imágenes

Qué pasa cuando mueves el control de calidad, cómo las transformadas DCT cambian las fotos y por qué las capturas se comprimen distinto.

20 de marzo de 2026Leer

Imagen6 de lectura

Códigos QR: cómo guardan datos en cuadrados

Cómo un QR codifica datos en módulos binarios, por qué la corrección de errores permite poner logos al centro y para qué sirven los cuadros de las esquinas.

20 de marzo de 2026Leer