Micròfon visual

El micròfon visual és un codi o algorisme que, partint de qualsevol gravació de càmera DSLR capaç de gravar a alta velocitat, magnifica certs canvis i oscil·lacions en les imatges i ens mostra informació addicional sobre les imatges que no obtindríem a simple vista. El codi, és capaç d'interpretar aquestes vibracions i transformar-les en un senyal d'àudio obtenint una qualitat similar a les primeres gravacions de fonògraf.

El funcionament és l'equivalent al d'un microscopi però en lloc d'augmentar la imatge per veure coses petites, augmenta els petits moviments que generen els objectes en rebre influència d'ones mecàniques (com per exemple sonores) per obtenir informació.

Hi ha altres sistemes de visió per computadora que obtenen informació addicional d'una gravació, imatge o àudio com la llum estructurada (que obté informació 3D gravant patrons de llum), radiografies (que enregistren radiacions no visibles) o l'ecolocalització (que obté informació 3D a partir de reflexions d'ones sonores en superfícies).

Relació temàtica[modifica]

Al parlar d'un micròfon visual, la relació lògica que un fa és amb la d'un micròfon tradicional. El so es transmet a través de les vibracions d'un medi, sent el més comú l'aire. Un micròfon recull aquestes vibracions mitjançant un diafragma mòbil, que transforma aquesta energia cinètica en energia elèctrica que pot ser guardada i interpretada com a àudio. Existeixen altres tipus de micròfons que funcionen basats en un principi similar, com per exemple els micròfons làser.

El mode de funcionament d'un micròfon làser consisteix a emetre un pols de llum que rebota contra un objecte que funciona de diafragma extern. El mètode de captació consisteix a gravar les reflexions que es produeixen en la superfície de l'objecte.

Existeixen diferents models de micròfon làser. El més bàsic consisteix a gravar la fase del làser reflectit, un altre és el vibròmetre doppler làser (LDV). Ambdós tipus de micròfon poden recuperar àudio de bona qualitat a gran distància, però tenen limitacions com que han d'estar en una posició exacta i ser d'una superfície amb reflectància apropiada. Més endavant s'eliminarien certes limitacions utilitzant càmeres d'alta velocitat desenfocades. Això permetia una major flexibilitat en la posició del receptor, tot i això encara es depenia molt de la gravació del reflex del làser.

Per altra banda, el sistema del micròfon visual no depèn de la il·luminació activa. El sistema es basa a extreure moviments extremadament subtils d'una mostra de vídeo que serveixen per recuperar l'àudio.

Recuperació del so des del vídeo[modifica]

El so consisteix en una fluctuació de la pressió de l'aire en alguns objectes. Aquestes fluctuacions fan moure la superfície dels objectes, aquests moviments dels objectes és el que gravem amb la càmera. Quan s'aplica aquest algoritme al nostre vídeo aconseguim extreure el so de sortida.

Els passos que segueix el logaritme són tres, primer descompon el vídeo en franges espacials, aquests senyals es combinen amb una seqüència d'operacions de mitjana i alineament que produeix un senyal global del moviment de l'objecte, finalment treuen el soroll d'aquest senyal i el filtren per recuperar el so.

Senyal local de moviment[modifica]

Utilitzen variacions de fase en una representació piràmide orientable del vídeo. Aquesta piràmide és un filtre que trenca cada fotograma del vídeo en franges. Les funcions bàsiques d'aquesta transformació són escalades i orientades amb components de fase de sinus i cosinus. Cada parella de components es poden utilitzar per separar l'amplitud de la fase. Agafen cada fase local i la comparem amb un fotograma de referència per trobar la variació de fase.

Senyal global de moviment[modifica]

Per cada orientació i escala de la piràmide calculen una mitja ponderada del senyal local de moviment per a produir un sol senyal de moviment. Fan la mitjana perquè la fase és ambigua en les regions on no hi ha molta textura. Abans de fer la mitja alineen les diferents escales i orientacions per prevenir les interferències destructives.

Eliminació de soroll[modifica]

Aquest senyal global de moviment es processa per millorar el seu SNR. En molts vídeos es troben amb molt soroll a les freqüències baixes que no correspon amb l'àudio. Aquest soroll es pot eliminar aplicant un filtre passaalt butterworth amb una freqüència de tall de 20-100 Hz. Segons el que es vulgui aconseguir s'utilitza un algoritme o un altre per eliminar més soroll. Si es vol aconseguir precisió, s'utilitza una implementació de la tècnica coneguda com a sostracció espectral. Per aconseguir intel·ligibilitat s'utilitza un algoritme de millora d'expressió, que treballa calculant una estimació bayesiana del senyal sense soroll amb una funció que té en compte la percepció humana de la pronunciació. Els resultats podrien ser millors si s'utilitzessin algoritmes d'eliminació de soroll més sofisticats disponibles en software professional de processament d'àudio.

Experiments[modifica]

Per posar a prova la tècnica, es registren un seguit de vídeos amb un objecte, un altaveu, càmeres d'alta velocitat Plantem V10 a distàncies entre 0,5 i 2 metres, tot i que en altres experiments s'ha arribat a recuperar el so des de distàncies majors. Les velocitats dels fotogrames van de 2 a 20 kHz, un rang de resolucions d'entre 192x192 a 700x700 píxels. Els sons van ser reproduïts a alts nivells, entre 80 i 110 dB.

Recuperació del so de diferents objectes/materials[modifica]

La primera sèrie d'experiments tenien l'objectiu de comprovar el rang de freqüències recuperables dels diferents objectes. A partir de la reproducció d'un senyal sinusoidal que augmenta linealment la freqüència, de 100 Hz a 1 kHz durant 5 segons, i amb una varietat d'objectes diferents. Gràcies a l'ús d'una totxana (objecte rígid i pesat) com a objecte, podem deduir del senyal recuperat que el soroll i/o interferències que ens poden general el material serà mínim. Com que les freqüències més altes produeixen desplaçaments menors i s'atenuen amb més facilitat per la majoria de materials, en la majoria de resultats el senyal es debilitarà a freqüències altes.

Recuperació de veu[modifica]

El segon se centra a comprovar la capacitat de recuperació de la veu humana. Per això s'utilitzen exemples de veu estàndard del conjunt de dades TIMIT [Fisher et al. 1986], així com el discurs d'una veu humana reproduïda des d'un altaveu. A la majoria d'experiments, gravant una bossa de patates a 2200FPS amb una resolució espacial de 700x700 píxels i utilitzant un algoritme de millora de la veu podem recuperar els sons sense soroll.

Per mesurar la precisió s'utilitza la Relació Senyal Soroll (SNR) segmentada que calcula el SNR en funció del temps. Per mesurar la intel·ligibilitat utilitzem la mètrica basada en la percepció de Taal et al[2011]. A més, s'afegeix Log Likelihood Ratio(LLR) que mesura la semblança entre el senyal original i el recuperat.

Equalització i funció de transferència[modifica]

Per millorar la recuperació del senyal d'un objecte en concret podem fer una recuperació prèvia amb el senyal emprat al primer experiment per recaptar més informació del seu comportament. Per això es descriu un mètode on primer s'utilitza la Transformada de Fourier a temps curt d'un exemple d'entrenament (rampa lineal) per calcular els coeficients de la funció de transferència i a continuació equalitza nous senyals observats utilitzant aquests coeficients de transferència.

Anàlisis[modifica]

A l'hora d'avaluar com de bé treballa aquesta tècnica, s'han de tenir en compte 2 punts crítics en el recorregut que fa la informació des que es genera el so fins a l'obtenció del senyal procedent de l'algorisme un cop s'ha fet tot el recorregut: La resposta de l'objecte i el processament de l'algorisme.

Resposta de l'objecte[modifica]

En el punt A de la figura 1 s'ha de tenir en compte que cada superfície respon de manera diferent als estímuls d'ones mecàniques en funció del material de l'objecte, la mida, la forma, etc.

Sabent això, s'ha de calibrar cada objecte que s'enregistra amb uns tons de referència a uns volums concrets per veure el seu moviment en cada circumstància i relacionar aquests conceptes per poder obtenir una millor qualitat a l'hora de processar les imatges.

Està demostrat que la resposta és bastant lineal en relació directe a l'augment de la pressió exercida per les ones. Aquest fet suggereix el modelatge del comportament dels objectes com a sistemes lineals invariants en el temps (LTI).

Processament de l'algoritme[modifica]

El punt B de la figura 1 és el lloc on treballa l'algorisme per traduir el moviment enregistrat a senyal d'àudio. A l'hora de fer-ho, s'han de tenir en compte molts factors que poden influir en la qualitat del vídeo d'entrada com ara el zoom, la distància de la càmera a l'objecte, l'angle de visió, etc.

Aquests factors afecten directament sobre la relació moviment de l'objecte-desplaçament de píxel, la quantitat de pixels amb els que està representat l'objecte o la relació senyal-soroll(SNR) captat.

Basant-se amb tota aquesta informació i, un cop s'ha adaptat tot, l'algorisme processa la seqüència i genera el fitxer o senyal que posteriorment podrà ser reproduït i que ens proporcionarà la informació sonora de l'anàlisi.

Recuperació de so amb càmeres normals utilitzant Rolling Shutter[modifica]

Una de les limitacions de la tècnica presentada fins ara és la necessitat del vídeo a alta velocitat. S'està explorant la possibilitat de recuperar senyals a partir d'una gravació a una freqüència de fotogrames regular aprofitant els avantatges del rolling shutter en els sensors CMOS de la majoria dels telèfons mòbils i les càmeres DSLR. Amb el rolling shutter, els sensors de píxels queden exposats i llegeixen seqüencialment fila per fila a diferents moments de dalt a baix. Per tant aprofitem aquesta tècnica per incrementar la velocitat de mostratge d'una càmera i recuperar les freqüències de so per sobre de la velocitat de fotogrames de la càmera.

Com que cada sensor ens capturarà en diferents moments a cada fila, podrem recuperar un senyal d'àudio per cada fila, en canvi d'un per fotograma, incrementant la freqüència de mostreig de forma proporcional al nombre de files que estem gravant. Podem determinar plenament el mapeig de les files de sensors al senyal d'àudio si coneixem el temps d'exposició de la càmera(E), La línia de retard(d), que és el temps entre captures de files, el període de cada fotograma(T) i el retard del fotograma(D). Suposant que un objecte on la imatge està donada per B(x,y), es mou en moviment front-paral·lel coherent descrit per s(t) i que el moviment reflecteix l'àudio que volem recuperar. Si establim un temps d'exposició E=0, la trama n-ésima presa per la càmera es pot caracteritzar amb la següent equació:

I_n(x,y) = B(x − αs(nT + yd),y).

Aquesta equació ens reproduirà l'efecte de persiana. Si el retard entre fotogrames no és proper a 0, això ens generarà mostres on faltarà el senyal d'àudio, ja que la càmera no ens estarà gravant res, per la qual cosa s'utilitzarà un processament d'interpolació per revertir el problema.

Discussió i limitacions[modifica]

Informació de sons inintel·ligibles[modifica]

Es pot pensar que si el sistema no recupera un àudio intel·ligible no és útil, però es pot obtenir informació rellevant per camps, com pot ser la vigilància en poder identificar el nombre i gènere dels parlants d'una sala.

Modes de vibració visibles[modifica]

S'obté una mesura espacial del senyal d'àudio en diversos punts de l'objecte filmat pel fet que es recupera l'àudio a partir d'un vídeo. Podem utilitzar aquestes mesures espacials per recuperar els modes de vibració d'un objecte.

Els modes de vibració d'un objecte es caracteritzen per vibrar totes les seves parts en una mateixa freqüència temporal, modal i amb una relació de la fase fixa entre les diferents parts de l'objecte. Per trobar les freqüències modals es busquen els pics en l'espectre dels senyals de moviment locals. Per a cadascun dels pics s'obté un coeficient de Fourier que correspon a cada localització espacial de la imatge.

Aquests coeficients de Fourier donen el contorn dels modes de vibració amb una amplitud corresponent a la quantitat de moviment i a la fase corresponent a la fase fixa entre punts.

Limitacions[modifica]

Les limitacions més grans trobades són la magnificació de les lents. El SNR de l'àudio recuperat és proporcional a l'amplitud del moviment en píxels i al nombre de píxels que representen l'objecte, els quals incrementen en ambdós casos segons també s'incrementa la magnificació i decreixen quan la distància amb l'objecte augmenta. Com a conseqüència per recuperar un senyal d'àudio intel·ligible fa falta tenir unes lets d'augment considerable.

Conclusió[modifica]

Podem veure que les vibracions de molts objectes del dia a dia en resposta al so poden ser extretes de vídeos i utilitzades per recuperar l'àudio, transformant aquests objectes en el que anomenem micròfons visuals. Han descobert que la llum i els objectes rígids funcionen com micròfons visuals especialment bons. Aquest micròfon visual pot facilitar investigació i aplicacions interessants.

Referències[modifica]