Captura de moviment facial

De la Viquipèdia, l'enciclopèdia lliure

Captura de moviment facial és el procés de convertir electrònicament els moviments de la cara d'una persona en una base de dades digital que utilitza càmeres o escàners de làser. Aquesta base de dades pot ser utilitzada per a elaborar gràfics d'ordinador (CG), sistemes de producció d'animació a ordinador per pel·lícules i jocs, o avatars en temps real. Com que el moviment dels personatges de CG deriven dels moviments de persones reals, l'animació resultant és molt més realista i concreta que si hagués estat creada de manera manual.

Una base de dades de captura de moviment facial descriu les coordenades o posicions relatives de referència en la cara de l'actor. La captura pot ser en dues dimensions; en aquest cas el procés de captura és anomenat "seguiment o rastreig d'expressió", o bé pot estar en tres dimensions. La captura bidimensional pot ser aconseguida utilitzant una càmera sola i un software o porgrama de captura. Això produeix un seguiment menys sofisticat i és incapaç de capturar completament moviments tridimensionals com la rotació de cap, per exemple. La captura tridimensional és acomplerta utilitzant equipaments multi-càmera o sistemes làser marker. Els anomenats sistemes són molt més cars, complexos i requereixen destinar-hi més temps. Hi ha dues tecnologies que predominen; sistemes de seguiment marker i sistemes de seguiment markerless.

La captura de moviment facial està relacionada amb la captura de moviment del cos, però és més desafiant i complicada a causa dels requisits de resolució més alts per detectar i rastrejar les expressions subtils possibles de moviments petits dels ulls i els llavis. Aquests moviments són sovint de menys d'uns quants mil·límetres, requerint encara més matisos, una resolució major i diferents tècniques filtrants de les que s'utilitzen normalment en una captura completa de cos. Les limitacions addicionals de la cara també permet més oportunitats per utilitzar models i regles.

La captura d'expressió facial és similar a la captura de moviment facial. És un procés en el qual s'utilitzen mitjans visuals o mecànics per manipular personatges generats per ordinador amb inputs i aportacions de cares humanes, o per reconèixer emocions d'un usuari.

Història[modifica]

Una de les primeres persones a parlar sobre l'animació conduïda per l'actuació va ser Lance Williams l'any 1990. En el seu article descrivia aquest procés com "un mitjà que adquireix les expressions de rostres reals per aplicar-les en les cares generades per ordinador[1]".

Tecnologies[modifica]

Amb marcadors[modifica]

Els sistemes basats en tecnologies marker apliquen fins a 350 marcadors a la cara de l'actor o actriu i fa un seguiment del moviment del marcador amb càmeres d'alta resolució. Això ha estat utilitzat en pel·lícules com El Polar Expressar i Beowulf per permetre a un actor com Tom Hanks conduir les expressions facials de diversos personatges. Malauradament això és relativament feixuc i fa que les expressions dels actors estiguin massa conduïdes i controlades un cop han estat suavitzades i filtrades.


Els sistemes de pròxima generació com CaptiveMotion utilitza offshoots del tradicional sistema de marcadors amb un nivell més alt de detall. Actualment l'anomenada tecnologia Active LED Marker està sent emprada per conduir i dirigir l'animació facial en temps real per a proporcionar retroalimentació a l'usuari.

Sense marcadors[modifica]

Aquest tipus de tecnologies utilitzen les característiques de la cara com els narius, els laterals dels llavis i ulls, i arrugues i seguidament les rastregen. Aquesta tecnologia sense marcadors és demostrada a CMU, IBM, Universitat de Manchester (on part d'aquesta va començar amb Tim Cootes, Gareth Edwards i Chris Taylor) i en altres llocs, utilitzant models d'aspecte actiu, anàlisi de component principal, eigen tracking, models de superfície deformables i altres tècniques per rastrejar les característiques facials desitjades en cada fotograma.[2][3] Aquesta tecnologia és molt menys enutjosa i permet a l'actor una major expressivitat.

Aquestes aproximacions basades en la visió també tenen l'habilitat de seguir moviments molt concrets com els de les pupil·les, parpelles i l'oclusió de les dents amb els llavis i la llengua, els quals suposen complicacions per a la majoria de les animacions per ordinador. Les limitacions típiques d'aquest tipus d'aproximacions són la resolució i l'índex d'enquadrament, però aquestes es van reduint a mesura que càmeres CMOS d'altra velocitat i resolució esdevenen disponibles gràcies a diverses fonts.


La tecnologia pel rastrejament facial sense marcadors està vinculada a un sistema de reconeixement facial, ja que un sistema de reconeixement facial pot ser potencialment aplicat seqüencialment a cada frame de vídeo, resultant en el seguiment o rastrejament facial. Per exemple, el sistema de Visió Neven (anteriorment Eyematics, ara adquirit per Google) va permetre el seguiment facial 2D en temps real sense la participació i implicació d'una persona específica; el sistema va estar també entre els millors sistemes de reconeixement facial l'any 2002 en el Facial Recognition Venedor Test (FRVT) del govern dels Estats Units.[4]

D'altra banda, alguns sistemes de reconeixement no fan un seguiment explícit d'expressions o fins i tot fallen en expressions no neutres, i per tant, no són adequats per fer un rastreig. Per contra, sistemes com deformable surface models permeten obtenir resultats més fidels i precisos.

El seguiment facial sense marcadors ha derivat en sistemes comercials com Image Metrics, el qual ha estat utilitzar en pel·lícules com Matrix i El Curioso Caso de Benjamin Button.[5] Aquesta última va emprar el sistema Mova per capturar un model facial deformable, el qual va ser posteriorment animat combinant el seguiment manual i el de visió.[6] Per exemple, a Avatar es va utilitzar marcadors pintats. Dynamixyz[Enllaç no actiu] és un altre sistema comercial en ús actualment.

Els sistemes sense marcadors (markerless systems) poden ser classificats segons diversos criteris:

  • seguiment 2D versus seguiment 3D
  • Segons si es requereix entrenament amb una persona específica o qualsevol altre tipus d'assistència humana
  • Actuació en temps real (només possible si no es requereix cap supervisió ni formació)
  • Segons si necessiten una font addicional d'informació com patrons projectats o pintura invisible com l'emprada en el sistema Mova

Avui dia, cap sistema és ideal segons aquests criteris mencionats. Per exemple, el sistema de visió Neven era totalment automàtic i va requerir patrons no amagats, però era 2D. El sistema Face/Off és 3D, automàtic, i en temps real, però requereix la projecció de patrons.[7]

Captura d'expressió facial[modifica]

Tecnologia[modifica]

Els mètodes digitals basats en vídeo cada cop són més preferibles, ja que els sistemes mecànics tendeixen a ser més difícils d'emprar. En utilitzar càmeres digitals, les expressions de l'usuari d'entrada són processades per proporcionar la posició del cap, el qual permet al programa trobar els ulls, el nas i la boca. Inicialment la cara és calibrada utilitzant una expressió neutra. Aleshores, depenent de l'arquitectura, les celles, parpelles, galtes, i la boca, pot ser processada com diferències de l'expressió neutra. Això es fa buscant les vores dels llavis i reconeixent-lo com un objecte únic. L'ús de maquillatge contrastant i recalcador i l'aplicació de marcadors fa que el processament sigui més ràpid. Pel que fa al reconeixement de veu, les millors tècniques són realment útils un 90% de les vegades, requerint modificació manual o tolerant errors.


Com que els personatges generats per ordinador no tenen músculs realment, s'apliquen diferents tècniques per aconseguir els mateixos resultats. Alguns animadors creen ossos o objectes que són controlats pel programa de captura, i els mouen consegüentment, la qual cosa permet que quan el personatge és controlat i mogut correctament dona una aproximació molt bona. Com que les cares són molt elàstiques aquesta tècnica sovint és combinada amb d'altres, ajustant els pesos de manera heterogènia per l'elasticitat de la pell i altres factors depenent de les expressions desitjades.

Ús[modifica]

Diverses empreses comercials estan desenvolupant productes que han estat utilitzats, però són força cars.

És d'esperar que això esdevindrà un dispositiu d'entrada important per a jocs d'ordinador un cop el programa estigui disponible en un format assequible, però el hardware i el software no existeixen encara, malgrat que la recerca dels últims 15 anys ha produït resultats que són pràcticament utilitzables.

Vegeu també[modifica]

Referències[modifica]

  1. Performance-Driven Facial Animation, Lance Williams, Computer Graphics, Volume 24, Number 4, August 1990
  2. «Real World Real-time Automatic Recognition of Facial Expressions». Arxivat de l'original el 2015-11-19. [Consulta: 17 novembre 2015].
  3. Modelling and Search Software ("This document describes how to build, display and use statistical appearance models.")
  4. Wiskott, Laurenz; J.-M. Fellous & N. Kruger et al. (1997), "Face recognition by elastic bunch graph matching", Lecture Notes in Computer Science (Springer) 1296: 456–463, ISBN 978-3-540-63460-7, DOI 10.1007/3-540-63460-6_150
  5. Borshukov, George; D. Piponi & O. Larsen et al. (2003), "Universal Capture - Image-based Facial Animation for "The Matrix Reloaded"", ACM SIGGRAPH
  6. Barba, Eric & Steve Preeg, "The Curious Face of Benjamin Button", Presentation at Vancouver ACM SIGGRAPH Chapter, 18 March 2009.
  7. Weise, Thibaut; H. Li & L. Van Gool et al. (2009), "Face/off: Live Facial Puppetry", ACM Symposium on Computer Animation

Enllaços externs[modifica]