So tridimensional

El so tridimensional o so immersiu (abreujat so 3D) és una reproducció de la banda sonora d'un espectacle o d'un film que dona a l'espectador la impressió de trobar-se al mig dels esdeveniments, tot i trobar-se en una butaca de cinema o el sofa de casa. Existeixen productes individuals amb auriculars, sistemes domèstics i equip professional per sales de cinema.^[1]

Per poder crear un espai sonor immersiu que s'apropa al so natural, s'estudia el comportament de l'orella humana davant els senyals sonors i la forma en què el cervell processa aquesta informació.

Un dels pioners d'aquesta tecnologia per a sales d'espectacles va ser l'empresa catalana Imm Sound, que el 2012 va ser adquirida per la multinacional Dolby.^[2]

Introducció[modifica]

L'humà i molts animals poden localitzar una font sonora en l'espai sense veure'l. Amb les primeres gravacions musicals, l'home va intentar recrear aquesta sensació de dimensionalitat del so. Es va passar del sistema monoaural amb un sol canal al so estereofònic amb dos canals) i més tard als sistemes de so multicanal que donen una sensació encara més natural, que enforteix la realitat augmentada.

Audició Espacial[modifica]

Quan ens arriba un so, el nostre sistema auditiu intenta respondre a dues preguntes:

On estic? (Informació relativa al lloc on ens trobem)
D'on ve? (Informació relativa a la font sonora)

Per fer-ho, el nostre sistema auditiu analitza el so que li arriba, i extreu els paràmetres que més li interessen a fi i efecte de localitzar una font sonora en l'espai tridimensional. Per tractar amb l'espai 3D, la forma més comuna és treballar sobre tres plans, que corresponen a diferents talls d'una esfera: pla frontal, pla horitzontal i pla mitjà.

Per referir-se a qualsevol punt en l'esfera teòrica, podem utilitzar coordenades polars o bé rectangulars. Per a un espai tridimensional necessitem tres coordenades rectangulars: X (dreta-esquerra), Y (davant-darrere) i Z (sobre-sota). Quan utilitzem coordenades polars, necessitem dos angles (azimut i elevació) i un vector de magnitud (distància).

A continuació es llisten una sèrie de paràmetres que el nostre cervell té en compte a l'hora de localitzar la font sonora en l'espai. Aquests es poden dividir en tres grups principals:

Paràmetres referents al pla horitzontal (azimut)[modifica]

ITD (Interaural Time Difference)[modifica]

És la diferència de temps que existeix entre l'arribada del so a una orella respecte a l'altra. Com la distància entre les orelles és aproximadament d'uns 20 centímetres i la velocitat de propagació del so a l'aire és de 340 metres per segon podem aproximar aquest temps a uns 0,6 ms. D'altra banda aquest paràmetre pateix variacions en funció de la freqüència degut a interferències (difracció del cap) i la seva percepció es veu afectada a freqüències baixes, sobretot per longituds d'ona de l'ordre del doble de la distància entre les orelles. En aquests casos la diferència de temps entre ambdues orelles és negligible. Aquest tipus d'arribada del so ens permet localitzar el so en el pla horitzontal: 90° (dreta) – 270° (esquerra).

ILD (Interaural Loudness Difference)[modifica]

És la diferència d'intensitat o amplitud que hi ha entre el so que arriba a una orella i l'altra. Per exemple si ens fiquem de perfil davant d'una font sonora, el "volum" que sentim a un costat és més elevat' que el del costat oposat, d'aquesta forma podem localitzar d'on prové el so. Aquest paràmetre es veu igualment afectat pel cap i pels pavellons auditius que actuen com un filtre reforçant certes freqüències i atenuant-ne d'altres. L'ILD, igual que l'ITD, serveixen per localitzar la font sonora en el pla horitzontal.

Paràmetres referents al pla mitjà[modifica]

HRTF (Head Related Transfer Function)[modifica]

Quan la font sonora es troba en un pla mitjà, els ITD's i ILD's són iguals per ambdues orelles. Llavors entra en joc el HRTF, que per localitzar la font sonora, es basa en la convolució del senyal amb la resposta impulsional del nostre tors superior, cap, coll i orelles (anomenat HRIR que significa Head-Related Impulse Response). Aquest paràmetre depèn de quatre variables, tres espacials i una freqüencial i permet determinar tant l'elevació com la posició davantera o posterior de la font sonora.

Exemple de diferència de les respostes freqüencials entre les dues orelles

Paràmetres referents a la distància[modifica]

Volum global[modifica]

És un paràmetre molt poc fiable que pot ajudar en la localització de fonts sonores. La poca fiabilitat es deu al fet que el volum no està linealment relacionat amb l'amplitud d'un senyal (la forma d'ona que veuriem en un PC) i depèn directament dels conéixements previs de les fonts sonores que creen aquest so. Per això no creiem que una persona que estigui xiuxiuejant a prop de nosaltres, tingui més volum que un individu cridant a tot pulmó a una distància considerable.

D/R Ratio[modifica]

En habitacions tancades, com més gran la distància que ha de recórrer el raig de so directe (sense reverberació) menor és el seu nivell. En aquest cas el so reverberant de la sala, en comparació amb el so directe, va guanyant presència. És el que s'anomena D/R Ratio, el quocient entre so directe i so reverberant. A priori, és el paràmetre més important per localitzar una font sonora en un espai reverberant.

Absorció d'altes freqüències[modifica]

Té relació amb els gasos de l'aire. Aquest efecte és similar al d'un filtre passabaix, que retalla les altes freqüències donant la sensació que el so és més greu o que perd "brillantor". Aquest efecte es considera rellevant per a distàncies superiors a 50 metres.

Cal matisar que la majoria d'aquests paràmetres depenen de les característiques físiques de cada persona (mida del cap, posició de les orelles, forma del canal auditiu…) Els paràmetres anteriors són els més importants en la localització d'una font sonora, però hi ha altres elements que cal tenir en compte per poder recrear el so d'una forma fidel a la realitat.

Altres paràmetres influents[modifica]

Efecte Doppler[modifica]

L'efecte Doppler és un efecte de compressió/descompressió que pateixen les ones acústiques degut al moviment entre una font sonora i l'oient. Aquest produeix una desviació en la longitud d'ona, cosa que fa que variï el to del so que es rep. És el típic efecte acústic que es percep quan passa un cotxe a gran velocitat.

Efecte Haas[modifica]

L'efecte Haas o efecte de precedència, ens diu que si diferents sons arriben a la nostra orella en un interval inferior a 50 ms, aquesta els integrarà i els interpretarà com un de sol. Aquest efecte té conseqüències en la localització de la font sonora, ja que el cervell treballa de la forma següent: → Si el retard del so directe arriba en un interval inferior a 5 ms, el cervell localitza la font en la direcció del primer estímul, independentment dels altres. → Si el retard del so directe es troba entre els 5 i els 50 ms, l'oïent percep un únic so, d'intensitat doble i localitza la font sonora a mig camí entre totes.

Característiques de la sala[modifica]

RT60: És el temps que tarda el so directe a caure 60 dB, conegut també com a temps de reverberació.
Balanç espectral: Les habitacions actuen com filtres, modificant l'espectre del senyal. L'espectre de la resposta en impuls d'una bona habitació, ha de ser el més plana possible en tot l'amplada de banda del senyal.
Difusió: Té a veure amb l'absorció dels materials. Normalment les altes freqüències cauen més ràpidament.

Caracterísitiques de la font sonora[modifica]

Si una font radia en l'espai de la mateixa forma, es diu que és una font omnidireccional. Normalment, les fonts sonores són direccionals, cosa que pot falsejar, en dependència de la posició de l'oient, la localització de les mateixes en l'espai.

So binaural[modifica]

Per recrear un efecte tridimensional convincent, n'hi ha prou amb dos canals amb auriculars. Per obtenir-lo fa menester un enregistrament binaural, que es basa en la gravació del so emulant les condicions en les quals escoltem els sons naturals.

La gravació es du a terme amb un cap dummy. Un dummy és el bust d'un maniquí, el qual té uns canals auditius construïts amb el màxim de similitud amb els nostres. A l'interior d'aquests, s'introdueixen dos micròfons que realitzen la gravació del so. D'aquesta forma s'intenta recrear el comportament de les ones sonores a l'interior del nostre sistema auditiu i així, generar les mateixes diferències de temps d'arribada (ITD) i de nivell (fase i amplitud del senyal) entre ambdues orelles, tal com ho fem nosaltres de manera natural. A partir del buste utilitzat per a la gravació, es fan una sèrie de mesures variant l'azimut i l'elevació de la font sonora per tal d'adquirir el HRIR (si fem la transformada de Fourier obtenim l'HRTF). Un cop tenim aquesta informació, s'utilitza un algorisme que combina els sons captats a les dues orelles en una sola pista d'àudio. Aquest algorisme de la companyia Starkey s'anomena Cetera i malauradament no és de codi lliure i no és possible aconseguir-lo. Inicialment l'empresa el va dissenyar per permetre als sords d'ambdues orelles, a més de suplir l'audició perduda, localitzar la font sonora. Finalment, al reproduir aquesta pista amb uns auriculars, el nostre cervell té tota la informació necessària per donar-nos una sensació tridimensional molt realista.

Esquema dun cap "Dummy"
Exemple de maniqui utilitzat

Limitacions[modifica]

El sistema binaural té una sèrie de limitacions que cal tenir en compte:

És necessari escoltar una gravació binaural amb auriculars perquè l'efecte sigui bo.
Si l'oïent es desplaça, la font sonora també.
Les fonts sonores que es troben davant de l'oïent semblen estar molt a prop.
Com la forma dels canals auditius, cap i tors de cada individu és diferent, l'HRTF varia i això fa que el resultat no sigui el mateix per a tots els oients.

Holofonía[modifica]

Podríem dir que la holofonía és per l'àudio el que vindría a ser un holograma en imatge. Aquest sistema va ésser desenvolupat l'any 1980 per l'argentí Hugo Zuccarelli, el qual va aplicar el concepte d'holograma al so i va millorar els efectes aconseguits amb el sistema binaural. Segons Zuccarelli, igual que en les holografíes, per crear els patrons d'interferència, calia un so de referència. D'aquesta forma, aquest so de referència, en teoria, seria l'orella qui el generaria i contribuiria a generar el patró de referència que permitiria al nostre cervell localitzar la font sonora. Zucarelli va afegir al seu cap de maniqui anomenat "'Ringo'", una emissió de so interna (inaudible) de referència. D'aquesta forma els micròfons enregistren les interferències creades entre el so propi i l'exterior, aconseguint la tridimensionalitat quasi perfecta del so.

La holofonía dona uns resultats superiors a la gravació binaural basada en HRTF, ja que aquesta última intenta simular mitjançant processament de senyal el que la holofonía enregistra de forma directa.

Actualitat^{[Cal actualitzar]}[modifica]

En els últims anys, el so 3D està començant a ser un tema de gran interés per moltes empreses d'arreu del món, que ja compten amb un gran nombre de productes per realitzar gravacions binaurals o holofóniques.

Hi ha bastants problemes al voltant de la comercialització del so 3D:

Només és efectiu amb auriculars: Això impossibilita el seu ús en cinemes, pel·lícules, video-jocs...
Si l'oïent es mou, la font sonora es mou: Impossibilita l'aplicació en pel·lícules i realitat virtuals.
Cada individu és diferent: No es pot definir un HRTF estàndard per a tothom, aleshores caldria que tothom que volgués un sistema de so 3D es fes un estudi del seu HRTF.

Cal afegir que aquests problemes pot ser que es resolguin en un futur, ja que Hugo Zucarelli afirma haver construït uns altaveus Holofónics que alliberarien l'oient de l'ús d'auriculars. També s'estan desenvolupant sistemes d'altaveus per reproduir so 3D que es basen en una tècnica anomenada cross-talk-cancelled stereo (o transaural stereo).

Aplicacions[modifica]

Les tècniques de so 3D ja s'han aplicat en la indústria discogràfica diverses vegades. Aquest són alguns exemples de discs enregistrats amb sistema binaural o holofonía:

The final cut de Pink Floyd (1982)
Binaural de Pearl Jam (2000)
Fire Garden de Steve Vai (1996)

En un futur el so 3D pot trobar la forma d'entrar al mercat de forma fixa i podríem retransmetre notícies, partits, concerts d'una forma tan realista que creurem estar al lloc dels fets.

Empreses[modifica]

Neumann: KU-100 (7000$), KU-81
Head Acoustics: HMS III (Aachen Head)
Sound Professionals: Sp-TFB-2

Referències[modifica]

↑ Domingo, Robert Barti; Rossell, Ivana «Disseny i implementació d'un sistema de so tridimensional basat en l'HRTF». Input: revista divulgativa de tecnologies d'informació i gestió de recursos de l'Escola d'Enginyeria la Salle (EUETT-ETTSEI), 14, 1997. ISSN: 1134-3281.
↑ «Barcelona Media, fàbrica d'innovació». VillaWeb, 31-10-2013.

Enllaços externs[modifica]

[1] Arxivat 2009-12-12 a Wayback Machine. Estudi de la SEA (Sociedad Española d'Acústica)
[2] Arxivat 2008-12-20 a Wayback Machine. So bianural i holofonia
[3] Hispasonic
[4] Article a 20minutos amb vídeo demostratiu
[5] Arxivat 2010-06-20 a Wayback Machine. Article sobre l'holofonia en català, amb un vídeo explicatiu i demostratiu

A Wikimedia Commons hi ha contingut multimèdia relatiu a: So tridimensional

[1] Domingo, Robert Barti; Rossell, Ivana «Disseny i implementació d'un sistema de so tridimensional basat en l'HRTF». Input: revista divulgativa de tecnologies d'informació i gestió de recursos de l'Escola d'Enginyeria la Salle (EUETT-ETTSEI), 14, 1997. ISSN: 1134-3281.

[2] «Barcelona Media, fàbrica d'innovació». VillaWeb, 31-10-2013.

[1]

[2]