Full-HD Voice

Full-HD Voice, també conegut com a "Full-band", és un servei de qualitat Full HD per a l'àudio en diferents aplicacions multimèdia. Augmenta el rang de freqüències dels senyals d'àudio fins al màxim perceptible per al Sistema Auditiu Humà (SAH). El seu rang de freqüències va des dels 20 Hz fins als 20KHz.

Antecedents

Fins ara, existien dos tipus principals de serveis d'àudio per a la telefonia mòbil: el primer servei va ser el "Voiceband" (servei regular de trucades) que limitava els senyals d'àudio entre els 300 Hz i els 3’4 KHz, basat en el treball dels laboratoris Bell en els anys 20.

El 1988 la ITU (Unió Internacional de Telecomunicacions), va aprovar l'estàndard G.722 pel servei d' HD Voice ("Wideband") amb el qual es limitaven les freqüències des de 50 Hz a 7 KHz, aquest servei s'acostava al rang de freqüències de la veu humana (80Hz a 14KHz).

Encara que el servei suportava freqüències fins als 7 KHz, només s'utilitzava fins als 3,4 KHz, ja que requerien una millora d'infraestructures telefòniques i, a causa d'això, arribava a tenir menys qualitat que l'estàndard normal.

El nou Full-HD Voice comprèn tot l'espectre audible que l'oïda humana pot percebre, és a dir aporta quatre vegades més espectre d'àudio que les trucades telefòniques regulars i dues vegades més que les trucades HD però amb una taxa de bits similar.

Evolució sobre el Full-HD Voice

Les primeres proves que es van dur a terme sobre la implementació d'aquest servei per a telèfons intel·ligents (en anglès smartphones) se’ls hi atribueix a l'institut de circuits integrats (Institut für Integrierte Schaltungen) Fraunhofer, una cadena de 66 centres repartits per tota Alemanya dedicada a l'ensenyament i investigació en temes tecnològics de compressió d'àudio des de fa més de 20 anys, en el “Mobile World Congress” del 2012, en els quals ja duien integrat el còdec AAC-ELD i treballaven sobre una xarxa LTE feta pel mateix institut.

El següent pas consistia a portar aquest servei a altres tipus de suports visuals, per aquest motiu van voler donar el salt cap a televisions intel·ligents (SmartTVs) en el congrés de la IFA (International Fiscal Association) de Berlín del 31 d'Agost fins al 5 de Septembre del 2012 sense alterar el software AAC-ELD, implementat ja en dispositiu mòbils.

A partir d'aquestes dues fites, l'institut va anar contemplant diferents formes per on es podia fer funcionar aquest servei. En primer lloc el van incorporar en les aplicacions de veu sobre IP (VoIP) amb l'objectiu que l'usuari destinatari pogués rebre la mateixa qualitat que l'emissor en una comunicació per Internet, el qual l'han deixat en la llibreria del còdec FDK de Fraunhofer (Fraunhofer FDK Codec Library) en Android des de la versió 4.1 i en iOS des de la versió 4.0.

A continuació es van fer diferents proves en sistemes de videoconferència per la xarxa social per institucions portugueses SAPO Campus amb èxit el Juliol de 2013 amb la col·laboració del projecte europeu Vconect i amb la finalitat d'implementar-lo passats dos mesos en diferents escoles per mostrar la seva eficàcia. El servei es presentava amb forma de plug-in del navegador on s'hi trobaven les dues coses necessàries per fer-lo funcionar, des d'eines perquè fos fiable la transmissió de senyals d'àudio fins l'algoritme del propi còdec AAC-ELD.

Finalment els resultats de totes les proves mencionades es van presentar al congrés IFA celebrat a Berlín, podent arribar a concloure que la majoria de persones entre 17 i 30 anys eren les que més van participar, que el mode de visió en rajola o Tiled fou el més usat dintre del campus, que dintre d'aquest mode els paràmetres que més s'usaven eren els de seguiment (Keep Track) i el natural (LifeLike) en pantalla completa (Full Screen) i el que menys, era el mode per silencis usat en tipus Hangout (Utilitzat per gent major de 30 anys que l'usa per vídeoconferències en el seu treball).

El darrer pas de Fraunhofer en la recerca de futurs sistemes de qualitat per mòbils que funcionin en concret sobre una xarxa de veu sobre LTE (Volte) i veu sobre Wifi (VoWifi) és la creació del primer còdec EVS que treballa en comunicacions 3GPP presentat al Mobile World Congress de l'any 2015. Gràcies a aquest còdec es guanya més eficiència respecte al còdec anterior AAC-ELD fent que les trucades siguin molt més còmodes.

Per demostrar la seva nova implementació, Fraunhofer feia una trucada des d'un mòbil fins a uns auriculars.

Còdecs

Enhanced Voice Services (EVS)

L’EVS és el primer còdec sobre 3rd Generation Partnership Project (3GPP) amb banda super ample, capaç de codificar la veu amb una taxa de bits molt baixa. A més, pot codificar música o contingut mixt amb una qualitat equiparable als còdecs actuals, perquè combina dos modes de codificació: codificació especialitzada en veu i codificació de música.

El còdec utilitzat per l'EVS de veu és una variant millorada del Algebraic Code-Excited Linear Prediction (ACELP) i utilitza una codificació de domini freqüencial (MDCT) per a l'àudio.

Es va desenvolupar conjuntament, per algunes de les companyies més importants en qüestió de codificació d'àudio i veu.

El còdec va ser estandarditzat al setembre de 2014 per 3GPP a partir dels següents punts:

Diagrama de blocs del codificador i decodificador EVS
Millora de la qualitat i eficiència dels serveis de veu, tant de banda estreta, com de banda ampla.
Millora de qualitat gràcies a la implementació als serveis de veu de banda super amble.
Millora de qualitat de contingut mixt amb música i veu.
Robustesa enfront de la pèrdua de paquets i retards de jitter.
Retrocompatibilitat amb el còdec AMR-WB.

A més d'això es van implementar més millores per a sistemes de comunicacions, com per exemple la detecció d'activitat de veu, la transmissió discontinua, el generador de soroll de confort o el gestor de buffer del jitter, entre d'altres.

El primer còdec que tenia la característica de decidir al moment si el senyal rebut era de veu o d'àudio combinant dos codificadors diferents va ser l'USAC, però tenia l'inconvenient que el retard era de més de 100 ms. L'EVS aconsegueix, a partir d'uns algoritmes, decidir al moment quin codificador utilitzar amb un retard de només 32 ms. Aquesta rapidesa és el gran avanç de l'EVS.

AAC-ELD

El còdec AAC-ELD treballa tant en mono, en estèreo com en multicanal i està optimitzat per tenir un retard molt petit, essencial per a les comunicacions en temps real. La seva aplicació pràctica, a part de les conferències, és la de transmetre música o altres tipus de soroll ambient, ja que aquest còdec compren tot l'espectre audible humà. Cal dir que aquest còdec és, bàsicament utilitzat sobre xarxes basades en comunicacions IP.

AAC-ELD v1

La primera versió del còdec AAC-ELD pot ser utilitzat en tres tipus de modes de funcionament:

Mode AAC-ELD core: Aquest mode de funcionament pot ser utilitzat en qualsevol aplicació on les seves taxes de bits siguin grans. Està optimitzat per tenir un retard menor que el còdec AAC-LD (HD voice) gràcies a una sèrie de filtres.
Mode AAC-ELD amb SBR: És el mode més flexible del còdec AAC-ELD. Compta amb una àmplia varietat de taxes de bits disponibles (de 32 a 64 kbits/canal) amb retard constant. El LD-SBR codifica la part més alta de l'espectre, mentre que el AAC-ELD core codifica la part més baixa d'aquest. Aquest mode de funcionament és perfecte per aplicacions que requereixen una taxa de bits d'entre 32-64 kbits/canal.

AAC-ELD amb DUAL RATE SBR: Aquest mode de funcionament s'utilitza per aplicacions que requereixin taxes de bits baixes com, per exemple, les emissions en directe. Aquest mode pot arribar a oferir taxes de bits per sota dels 24 kbits/canal, encara que introdueix una mica més de retard que els dos modes anteriors. Al igual que el mode anterior, el LD-SBR codifica les freqüències més altes, però el AAC-ELD core codifica les freqüències més baixes amb la meitat de la freqüència de mostratge, el resultat d'aquesta operació és la d'obtenir la millor qualitat possible d'àudio a una taxa de bits baixa.

Diagrama de blocs del codificador AAC-ELD v2

AAC-ELD v2

L' AAC-ELD v2, per tal d'obtenir un rendiment semblant a un canal monofònic quant a bit-rate, afegeix una extensió paramètrica basada en Low Delay MPEG Surround (LD-MPS). Aquesta extensió extreu els paràmetres espacials del senyal per activar la reconstrucció del senyal original en estèreo al descodificador.

Diferències entre els còdecs

La principal diferència és que la familia AAC-ELD no està preparada per habilitar el servei Full-HD Voice als operadors de les principals xarxes de telefonia mòbil a causa que les taxes de bits utilitzades són massa baixes. En canvi, amb el nou còdec de EVS dins del 3GPP es va aconseguir un canvi molt significatiu en l'eficiència de l'àudio en la telefonia mòbil disponible en l'actualitat.

Enllaços externs

«Pàgina de l'Institut Fraunhofer sobre el Full-HD Voice». (anglès)
«Institut Fraunhofer (Còdecs) - lloc web oficial». (anglès)