Codificació multivista

De la Viquipèdia, l'enciclopèdia lliure

Els sistemes d'adquisició multi-vista són aquells que prenen seqüències de vídeo gravades al mateix temps des de múltiples càmeres, per a oferir sobre tecnologies 3D una visió amb punt de vista lliure (FVT, Free viewpoint television). Per poder-ho dur a terme es necessita un sistema de càmeres configurades i calibrades amb precisió que proporcionin certa informació al codificador, com la posició exacta des de la que s'està gravant respecte d'una matriu establerta prèviament, el punt focal, la posició relativa entre les diferents càmeres, etc. En aquest cas les seqüències de vídeo acostumen a compartir contingut i per tant, l'eficiència en la codificació pot augmentar si passem d'un sol punt de vista a un sistema multi-vista explotant les similituds entre les diferents seqüències reduint al mateix temps la redundància temporal.

La necessitat per a la codificació de vídeo multi-vista està impulsada per dos desenvolupaments tecnològics recents: les noves tecnologies de pantalles tridimensionals i la creixent utilització de múltiples conjunts de càmeres. Existeixen una varietat d'empreses que ja estan comencen a produir tecnologies de visualització en 3D que no necessiten ulleres i que poden ser vistes per diverses persones al mateix temps. Els resultats obtinguts amb aquestes pantalles 3D demostren el potencial de crear un mercat de vídeo 3D i a més a més, la necessitat de desenvolupament i recerca dels sistemes de compressió de vídeo multi-vista. D'una altra banda, fins i tot amb pantalles 2D, les matrius multi-càmera s'utilitzen cada vegada més per capturar una escena des de diferents angles. El conjunt de dades multi-vsta resultants permet a l'espectador observar una imatge des de qualsevol punt de vista i es pot emprar com una altra aplicació de la compressió multi-vista.

Característiques[modifica]

Patró de codificació per imatges de tipus I, B i P.

En els còdecs de vídeo estàndard, una eina important és la compressió i predicció de moviment que realitza el codificador en el quadre actual respecte de quadres anteriors o posteriors. A més de la predicció temporal estàndard, el còdec multi-vista permet predir una imatge a partir de les imatges obtingudes per altres càmeres o a partir de vistes interpolades virtuals. Alguns còdecs multi-vista fins i tot, modifiquen el programari de referència de MPEG, el JSVM (Joint Scalable Video Model) per a permetre la inserció de mostres multi-vista en el buffer del descodificador així com de diverses llistes de paràmetres de referència. Per a la descomposició de la seqüència existeixen diverses maneres, puguen obtenir la predicció espaciotemporal de manera més eficient que la simple predicció temporal. A més, si disposem dels paràmetres de la càmera, podem obtenir interpolant, vistes virtuals i utilitzar-les de referència. Per exemple, hi ha còdecs que combinen dues vistes per interpolar en mig una nova vista sintètica que es pot emprar en la predicció d'una possible seqüència paral·lela. L'ús de vistes virtuals sovint millora els resultats de les referències temporals.

Tot i que no existeix un estàndard definit encara, tots els mètodes utilitzats avui en dia s'implementen sobre H.264/MPEG-4 AVC per ser el millor estàndard per a un sol punt de vista. En primer lloc les dades de les diferents seqüències es reorganitzen en un flux de bits sense comprimir. Per a beneficiar-nos de les similituds entre les imatges en el temps, així com entre els diferents enfocaments de cada punt de vista, s'aplica un model de codificació que utilitza una jerarquia amb imatges tipus I, P i B tant per a les seqüències temporals com per a les espacials, a més a més de les possibles vistes virtuals. Aquesta metodologia s'ha desenvolupat a partir d'una anàlisi estadística i pensat per a un nombre de càmeres (GoP, Group of Pictures) d'entre 8 i 12, disposades linealment.

Això no obstant, el model de codificació pot adaptar-se d'acord amb la configuració de les càmeres, així com del número del GoP. El descodificador per la seva part, llegeix el flux de bits com si fos una seqüència uniespacial sense tenir en compte el sistema mult-vista. Per aquest motiu és compatible amb H.264, perquè el flux de bits s'ordena i codifica com si es tractés d'un sistema convencional. La reorganització de les diferents seqüències en funció de la posició i configuració de les càmeres la duu a terme el reproductor, intentant minimitzar l'ús de memòria però necessitant tot i això, una grandària del buffer receptor major.

Futur[modifica]

Actualment s'està treballant perquè en un futur pròxim es pugui definir un estàndard de codificació multi-vista sobre MPEG i per a millorar la tecnologia de pantalles 3D sobre la qual s'aplicarà el model de visió amb punt de vista lliure, amb els consegüents avenços en la gestió dels buffers, de l'accés aleatori i de les vistes virtuals.