Face hallucination

De la Viquipèdia, l'enciclopèdia lliure

Face Hallucination és una tècnica de superresolució que permet obtenir una imatge d'alta resolució a partir d'una imatge d'entrada de baixa resolució. S'aplica en sistemes de reconeixement facial perquè la identificació i l'anàlisi d'un rostre sigui més fàcil i eficaç.

Degut a la importància de les imatges en els sistemes de reconeixement facial, face hallucination s'ha convertit en un espai d'interès i de recerca per als investigadors


Diferència amb súper-resolució d'imatges[modifica]

La súper-resolució d'imatges és un conjunt de tècniques que permeten obtenir una imatge d'alta resolució normalment a partir d'una seqüència d'imatges de baixa resolució. La principal diferència entre les dues tècniques és que face hallucination és la súper-resolució d'una imatge d'una cara humana.

Mesures[modifica]

Una imatge es considera d'alta resolució quan té una mida de 128x96 pixels. Per tant, l'objectiu és fer que la imatge d'entrada obtingui aquest nombre de pixels. Els valors més comuns de la imatge d'entrada són de 32x24 pixels i 16x12 pixels.

A més, com que la majoria de mètodes utilitzen un conjunt d'imatges entrenades, un altre repte és fer que la imatge d'entrada estigui alineada amb les imatges d'entrenament. En cas contrari, el mètode podria no resultar efectiu i es podria obtenir un resultat inesperat.

L'algorisme[modifica]

En les últimes dècades, s'han presentat un gran nombre d'algorismes específics per dur a terme aquesta tècnica, ja que es pot fer de diferents maneres. Tot i que s'han aconseguit grans resultats amb els mètodes existents, encara hi ha un gran marge de millora.

Els algorismes més comuns normalment es basen en dos passos: El primer pas genera una imatge global del rostre que manté les principals característiques de la realitat utilitzant el mètode probabilístic del màxim a posteriori (MAP). En el segon pas es produeix la diferència de la imatge per compensar el resultat del primer pas. A més, un gran nombre d'algorismes es basen en un conjunt de parelles d'imatges d'alta i baixa resolució entrenades.

Qualsevol algorisme de face hallucination ha de complir amb tres restriccions:

Restricció de dades

La imatge de sortida ha de ser semblant a la d'entrada quan aquesta està sent mostrejada.

Restricció global

La imatge de sortida ha de tenir totes les característiques comuns d'una cara humana. Les característiques facials han de ser sempre coherents. Sense aquesta restricció, la imatge de sortida pot tindre soroll.

Restricció local

La imatge resultant ha de tenir sempre característiques molt especifiques d'un rostre. Sense aquesta restricció, la imatge resultant podria ser massa llisa.

Mètodes[modifica]

Face hallucination millora les característiques d'un rostre humà augmentant la resolució mitjançant diferents mètodes.

El mètode més fàcil per a incrementar la resolució d'una imatge és la interpolació de la intensitat dels píxels. La interpolació es pot fer utilitzant l'algorisme del veí més proper, la interpolació bilineal o variants de la cubic spline interpolation.

També es pot fer una interpolació amb un conjunt d'imatges d'alta resolució entrenades juntament amb la imatge corresponent de baixa resolució. Tot i així, la interpolació directa té uns resultats molt pobres perquè no s'afegeix mai nova informació en el procés. Degut a això, s'han proposat nous mètodes en els últims anys.

Face hallucination basat en la formulació Bayesiana[modifica]

Aquest mètode va ser desenvolupat per Baker i Kanade,[1] que són considerats els pioners de la tècnica face hallucination.

L'algorisme està basat en la formulació MAP (Màxim a posteriori) bayesiana i utilitza un gradient descendent per a optimitzar l'objectiu de la funció. Genera els detalls d'alta freqüència a partir d'una estructura de matriu amb l'ajuda de mostres entrenades.

Súper-resolució utilitzant aprenentatge d'imatges[modifica]

Capel i Zisserman [2] van ser els primers a proposar un mètode basat en la imatge local d'alta resolució.

Aquest algorisme divideix la imatge de la cara en quatre regions clau: Els ulls, el nas, la boca i les galtes. Per a cada àrea, fa una anàlisi de components principals (PCA) i reconstrueix cada àrea per separat. Tot i així, a la imatge reconstruïda es poden observar petits errors entre cada regió.

Face Hallucination via Sparse Coding[modifica]

Aquest mètode va ser desenvolupat per J. Yang i H. Tang[3] i es basa en una aproximació de la factorització de la matriu no negativa (NMF) explotant les característiques facials per aprendre un subespai basat en la part localitzada. Aquest subespai és efectiu per a recuperar l'estructura de la cara global i les principals característiques.

Per a millorar més la informació dels detalls locals, es pot utilitzar la tècnica de sparse representation.

Face Hallucination per Eigentransformation[modifica]

El mètode proposat per Wang i Tang[4] utilitza una eigentransformation. Aquest mètode veu la solució al problema com una transformació entre diferents estils d'imatge i utilitza l'anàlisi de components principals (PCA) aplicada a la imatge de baixa resolució. Seleccionant el nombre d'eigenfaces, es pot extreure una gran quantitat d'informació facial de la imatge de baixa resolució i eliminar el soroll. És a dir, la imatge de sortida és la combinació lineal d'un conjunt d'imatges d'entrenament d'alta resolució i els coeficients extrets amb l'anàlisi de components principals de la imatge de baixa resolució.

L'algorisme millora la resolució de la imatge afegint detalls d'alta freqüència. Degut a la similitud estructural que hi ha entre diferents rostres, existeix una forta correlació entre la banda d'alta freqüència i la de baixa freqüència.

Two-Step approach[modifica]

Aquest mètode creat per C. Liu i Shum [5][6] utilitza un model global paramètric i un model local no paramètric. El model global paramètric generalitza bé amb les cares comunes i el model local no paramètric està basat en el camp aleatori de Markov (MRF) que aprèn les textures locals d'un exemple de rostres.

En el primer pas s'aprèn la relació entre la imatge d'alta resolució i la mateixa però delmada i en el segon pas es modela la resta entre l'original d'alta resolució i la d'alta resolució reconstruïda després d'haver aplicat un model lineal d'aprenentatge amb la xarxa de Markov no paramètrica per capturar un alt nombre de píxels. És a dir, per obtenir la imatge d'alta resolució primer es fa un entrenament amb una llarga col·lecció de rostres en alta definició. Amb aquest conjunt d'imatges, derivem un model global i es realitza la resta entre aquest conjunt d'imatges. La resta entre aquestes dues es modela amb la xarxa de Markov per poder capturar l'alta freqüència dels rostres.

Face Hallucination based on MCA[modifica]

Aquest algorisme tracta la súper-resolució com un problema de descomposició de la imatge i proposa un mètode basat en anàlisi de components morfològics (MCA).[7]

El mètode es fa en tres passos. En el primer, la imatge d'entrada es mostreja amb una interpolació. La imatge interpolada es pot representar com la superposició de la imatge d'alta resolució global i una màscara de desenfocament. En el segon pas, la imatge interpolada es descompon en una imatge d'alta resolució mitjançant l'ús d'una anàlisi de components morfològics. Finalment, es realitza una compensació del residu en la cara global per millorar la qualitat visual.

Altres mètodes[modifica]

  • Face hallucination by tensor patch super-resolution and coupled residue compensation.
  • Súper-resolució a través de sparse representation per a seqüències de vídeo.
  • Hallucinating face by position patch.
  • Position-based.
  • LPH super-resolution and neighbor reconstruction for residue compensation.

Resultats[modifica]

Tots els mètodes presentats anteriorment tenen resultats molt satisfactoris i que compleixen amb el que s'esperava, per tant és difícil determinar quin mètode és el més efectiu i quin dona un millor resultat.

Tot i així, es pot afirmar que:

  • El mètode de Baker i Kanade pot distorsionar els trets característics d'un rostre.
  • El resultat del mètode desenvolupat per Wang i Tang pot crear un efecte ringing.

Referències[modifica]

  1. Baker and Kanade «Hallucinating faces» (en anglès), 2000. [Consulta: 16 novembre 2014].
  2. Capel, D. and A. Zisserman. Super-resolution from multiple views using learnt image models. Proceedings of the Computer Society Conference on Computer Vision and Pattern Recognition (en anglès), 2001, p. 627-634. 
  3. Yanchao Yang, Hao Tang «Face Hallucination via Sparse Coding» (en anglès), 2008. Arxivat de l'original el 2015-09-24. [Consulta: 17 novembre 2014].
  4. Xiaogang Wang and Xiaoou Tang «Hallucinating Face by Eigentransformation» (en anglés), 2005. [Consulta: 17 novembre 2014].
  5. C. Liu, H.Y. Shum and W.T Freeman «Face Hallucination: Theory and Practice» (en anglés), Oct. 2007. [Consulta: 20 novembre 2014].
  6. C. Liu, H.Y. Shum and W.T Freeman «Face Hallucination: Theory and Practice» (en anglés), Oct. 2007. [Consulta: 20 novembre 2014].
  7. Yan Liang, Xiaohua Xie, Jian-Huang Lai «Face Hallucination based on Morphological Component Analysis» (en anglès), Oct. 2012. Arxivat de l'original el 2014-12-05. [Consulta: 21 novembre 2014].

Bibliografia[modifica]

Enllaços externs[modifica]