Reconstrucció de la profunditat d'una imatge

A partir d'una única imatge es poden obtenir reconstruccions del seu camp de profunditat mitjançant l'anàlisi de característiques com variacions de textura, el color, etc. que aporten molta informació sobre la profunditat. Tot i això, actualment la majoria d'esforços s'estan posant en desenvolupar algorismes que treballen amb dues o més imatges i aquesta vessant de la reconstrucció de la profunditat està poc desenvolupada.

Estimació de la profunditat d'una imatge[modifica]

Per fer l'estimació de la profunditat d'una imatge es divideix aquesta en regions quadrades sense superposició. A partir de l'anàlisi d'aquestes regions es pot obtenir informació sobre la profunditat absoluta (la profunditat d'una regió respecte a la resta de la imatge) i la profunditat relativa (la profunditat d'una regió respecte a les regions veïnes) de cada regió.

Profunditat absoluta[modifica]

La profunditat absoluta d'una regió indica quina és la seva profunditat en el context global de la imatge. Per estimar la profunditat absoluta d'una regió no n'hi ha prou amb les característiques locals d'aquesta, són necessàries característiques globals de la imatge. Per aconseguir una bona estimació es treballa amb la imatge a diferents escales. Això és útil per trobar la profunditat absoluta perquè regions a diferents profunditats tenen comportaments completament diferents quan són analitzats a diverses escales. Per exemple, el cel apareix molt similar a diferents escales, però una zona d'herba es veu molt diferent. Per altra banda, objectes propers apareixen més grans en la imatge, per tant es capturaran en escales grans, mentre que objectes més llunyans només apareixeran a escales més petites.

Profunditat relativa[modifica]

La profunditat relativa d'una regió indica quina és la seva profunditat respecte a les seves regions veïnes. Per estimar la profunditat relativa d'una regió es consideren característiques de les regions veïnes. Així, dues regions veïnes amb similars característiques de textura i color tindran profunditats semblants, mentre que si difereixen considerablement estaran a diferents profunditats.

Model probabilístic[modifica]

D'esquerra a dreta: fotografía, el seu corresponent mapa de profunditat, la reconstrucció del seu mapa de profunditat segons el model gaussià i la reconstrucció del seu mapa de profunditat segons el model laplacià

Com que les característiques locals de la imatge no són suficients per estimar la seva profunditat amb prou exactitud cal un análisi global de l'estructura espacial de l'escena. El model probabilístic estableix relacions entre la profunditat de diferents regions de la imatge mitjançant un Camp Aleatori de Markov. El model probabilístic es pot calcular de dues maneres diferents.

Model gaussià[modifica]

El model gaussià és un Camp Aleatori de Markov Gaussià que es defineix amb la següent equació:

P_{G}(d\vert X;\theta ;\sigma )={\frac {1}{Z_{G}}}\exp \left(-\sum _{i=1}^{M}{\frac {(d_{i}(1)-x_{i}^{T}\theta _{r})^{2}}{2\sigma _{1r}^{2}}}-\sum _{s=1}^{3}\sum _{i=1}^{M}\sum _{j\in N_{s}(i)}{\frac {(d_{i}(s)-d_{j}(s))^{2}}{2\sigma _{2rs}^{2}}}\right)

El vector d_i(s) conté les profunditats a les diferents escales s=1,2,3 per cada regió de la imatge. N_s(i) correspon a les quatre regions veïnes de i a l'escala s. M és el nombre total de regions de la imatge; Z és la constant de normalització del model; x_i és el vector de característiques de profunditat absoluta per la regió i; ϕ i σ són paràmetres del model.

Model laplacià[modifica]

El model laplacià utilitza laplacians per modelar la distribució de profunditats. L'equació que el defineix és la següent:

P_{L}(d\vert X;\theta ;\lambda )={\frac {1}{Z_{L}}}\exp \left(-\sum _{i=1}^{M}{\frac {\vert d_{i}(1)-x_{i}^{T}\theta _{r}\vert }{\lambda _{1r}}}-\sum _{s=1}^{3}\sum _{i=1}^{M}\sum _{j\in N_{s}(i)}{\frac {\vert d_{i}(s)-d_{j}(s)\vert }{\lambda _{2rs}}}\right)

On ϕ_r, λ_1r i λ_2r són paràmetres propis del model. El model laplacià presenta certs avantatges davant el model gaussià. En primer lloc, l'histograma de les profunditats relatives (d_i – d_j) és empíricament més semblant al laplacià que al gaussià. En segon lloc, el laplacià és més robust a errors. En tercer lloc, el model gaussià té dificultats per oferir mapes de profunditat amb contorns afilats, mentre que el laplacià tendeix a modelar les transicions afilades millor.

Referències[modifica]

http://www.cs.cornell.edu/~asaxena/learningdepth/ijcv_monocular3dreconstruction.pdf