image mascot
Imagen6 de lectura

Cómo los mapas de profundidad convierten fotos planas en 3D

Una fotografía es una cuadrícula plana y bidimensional de píxeles. Sin embargo, cuando miras una foto de una cordillera o de una calle urbana, tu cerebro entiende al instante qué objetos están lo bastante cerca como para tocarlos y cuáles están a kilómetros de distancia. Ese proceso de recuperar la tercera dimensión a partir de una imagen 2D se llama estimación de profundidad.


¿Qué es un mapa de profundidad?

Un mapa de profundidad es una imagen especializada en la que cada píxel representa la distancia entre la cámara y el objeto en ese punto. A diferencia de una foto normal, que almacena color (rojo, verde, azul), un mapa de profundidad normalmente guarda un solo valor por píxel, a menudo visualizado como una imagen en escala de grises.

  • Los píxeles brillantes (blanco) representan los objetos más cercanos a la cámara.
  • Los píxeles oscuros (negro) representan los objetos más lejanos.
  • Los grises representan todo lo intermedio.
Profundidad vs. disparidad: En contextos técnicos, quizá escuches el término "disparidad". Mientras la profundidad es la distancia real en metros, la disparidad es el desplazamiento aparente de un objeto entre dos puntos de vista. Están relacionadas de forma inversa.

Cómo una sola cámara "ve" la profundidad

Los humanos, con dos ojos, usamos la estereopsis para triangular distancias. Pero ¿cómo percibe profundidad una sola cámara? Eso se conoce como estimación monocular de profundidad y se apoya en varias pistas visuales:

OCLUSIÓNPERSPECTIVATAMAÑO RELATIVOPISTAS VISUALES DE PROFUNDIDAD
  • Oclusión - Si un objeto bloquea a otro, el que bloquea está más cerca.
  • Tamaño relativo - Los objetos más pequeños se perciben como más lejanos.
  • Perspectiva lineal - Las líneas paralelas parecen converger en la distancia.
  • Gradientes de textura - Los detalles finos se difuminan en una textura uniforme al alejarse.
  • Perspectiva atmosférica - Los objetos lejanos se ven más pálidos y azulados.

Cómo aprenden la profundidad los modelos de IA

Los modelos modernos de IA, como Depth Anything, se entrenan con millones de imágenes donde la profundidad "real" se conoce gracias a sistemas LiDAR o configuraciones estéreo.

La arquitectura encoder-decoder

El modelo convierte una imagen en color en un mapa de profundidad mediante una tubería especializada:

IMAGENEntrada RGBENCODERCaracterísticasDECODERUpsamplingMAPA DE PROFUNDIDADEscala de grises
  1. Encoder - Una red neuronal descompone la imagen en características abstractas.
  2. Decoder - Proyecta esas características de vuelta a resolución, estimando distancias.
La magia de la IA moderna es su capacidad para entender el contexto. Sabe que una persona de pie en una acera probablemente está más cerca que el edificio que tiene detrás.

¿Qué se puede hacer con mapas de profundidad?

Una vez que tienes un mapa de profundidad, puedes manipular una foto 2D como si fuera una escena 3D:

FOTO+PROFUNDIDADAPLICACIONES• Efectos de paralaje 3D• Bokeh digital (desenfoque)• Generación de malla 3D
  • Paralaje 3D - Desplazar capas a distintas velocidades para crear un efecto de movimiento.
  • Modo retrato - Usar el mapa como máscara para aplicar desenfoque al fondo.
  • Composición VFX - Colocar objetos digitales detrás de elementos reales.
  • Reconstrucción 3D - Crear nubes de puntos o mallas a partir de valores de profundidad.

Limitaciones y desafíos

  • Profundidad relativa vs. métrica - La IA tiene dificultades con medidas exactas.
  • Transparencia - El vidrio y los espejos suelen confundir al modelo.
  • Artefactos en los bordes - Los límites bruscos pueden provocar efectos de "halo".
  • Patrones repetidos - Las áreas uniformes ofrecen pocas pistas visuales.
La estimación de profundidad es el puente entre el mundo 2D de las imágenes y el mundo 3D que habitamos.

Pruébalo tú mismo

Pon en práctica lo que aprendiste con nuestro Depth Map Generator.

Cómo los mapas de profundidad convierten fotos planas en 3D | ToolsCanvas