MP3
De Viquipèdia
| Extensió del fitxer | .mp3 |
|---|---|
| MIME | audio/mpeg |
| Tipus de format: | Àudio |
| Estàndard | ISO/IEC 11172-3, ISO/IEC 13818-3 |
MPEG-1 Audio Layer III o MP3 és un format d’àudio digital basat en la compressió amb pèrdues, desarollat pel grup d’experts Media Picture Group (MPEG) i avalats per la ISO.
MPEG-1 Audio o Part 3 està dissenyat pel emmagatzemament i distrubució d’àudio en temps real. MP3 és un dels nivells de compressió d’aquest estàndard, concretament el nivell o capa 3. Aquest nivell és el que té més complexitat i pot aconseguir un bitrate d’uns 192 kbps, per aquest motiu el seu ús més freqüent és la transmissió per XDSI i xarxes TCP/IP.
L’objectiu de l’algoritme de compressió d’aquest format és poder comprimir qualsevol senyal que estigui destinat a ser escoltat i explotar al màxim les limitacions del Sistema Auditiu Humà o SAH.
Taula de continguts |
[edita] Codificador
Les tècniques emprades en la codificació MPEG són:
- Models perceptuals
- Assignació dinàmica de bits
- Commutació de finestres
Els blocs del codificador són:
- Analisis per filtres
- Transformada MDCT amb enfinestrament
- FFT
- Emmascarament temporal i freqüencial
- Escalabilitat i quantificació
- Codificació de Huffman
[edita] Banc de Filtres
MP3 utilitza 32 banc de filtres híbrits col•locats en casacada. Aquest filtres són polifàsics, és a dir, amb un retard baix i incorporen una transformada MDCT amb un número màxim de punts de 576. Degut a l’aplicació de la MDCT és pot eliminar informació redundant.
[edita] Transformació en freqüència
La transformada utilitzada en la codificació és la MDCT (Transformada de Discreta de Cosinus Modificada). Aquesta transformació incorpora un enfinestrament per tal d’evitar pre-ecos produits per un número de mostres de la transformada elevat en les zones de silenci-percussió. Aquest enfinestrament es realitza mitjantçant quatre tipus de finestres segons sigui el senyal:
- Finestra normal o llarga
- 576 mostres
- Simètrica
- Zona homogènia
- Finestra d’inici
- 480 mostres
- Asimètrica
- Zona de transició
- Finestra de parada
- 480 mostres
- Asimètrica
- Zona de transició
- Finestra curta
- 196 mostres
- Simètrica
- Zona homogènia
Per passar de finestra normal o llarga a finestra curta sempre s’ha de passar per les finestres de transició.
[edita] Emmascarament Temporal i Freqüèncial
Degut a les limitacions del SAH es pot definir un model psicoacústic. Aquest model parteix de descompondre el senyal com lesbandes crítiques de l’oïda humana. Per tal de poder eliminar informació per emmascarament s’utilitza una transformada de Fourier (FFT) de 576 punts.
En aquest bloc es defineix l’umbral per tal de saber quins tons es consideren emmascarats, i per tant no audibles, i així utilitzar aquest informació per tal de fer la quantificatzió. Aquesta senyal emmascarada pot ser debut a senyals de baix nivell, soroll de quantificació, distorsió de solapament o errors de transmissió.
[edita] Emmascarament Freqüencial
Un so pot ser emmascarat degut a que dins la mateixa banda crítica hi hagi un altre so amb un nivell més elevat. Existiesen quatre tipus de fenòmens en que es produeix aquest emmascarament:
- To – To
- Soroll – To
- To – Soroll
- Soroll – Soroll
[edita] Emmascarament Temporal
El SAH té memoria auditiva per aquest motiu apareix el fenòmen d’emmascarament temporal. Aquest fenòmen apareix quant dos tons apareixen distanciats per un interval de temps molt petit i un dels tons té un nivell molt més elevat que l’altre. L’emmascarament anterior és més breu que el posterior.
[edita] Escalabilitat i Quantificació
Els umbrals d’emmascarament són utilitzats per determinar quina assignació de bits correspon a cada banda crítica. El codificador el que busca es trobar un assignació de bits el més constant posible.
[edita] Codificació de Huffmann
Els bits quantificats són codificats amb Huffman i emmagatzemades a la cadena de bits amb els seus factors d’escala i la seva informació lateral. Aquesta informació lateral incorpora els paràmetres que necessita el descodificador com poden ser la taula de Huffman, la commutació de finestres i el control de guany.
[edita] Descodificador
El descodificador ha de recuperar un senyal sintetitzat del senyal d’àudio PCM d’entrada al codificador.
El seus blocs són:
- Descodificador de Huffman
- Desquantificador
- MDCT inversa amb enfinestrament
- Filtre de síntesis
[edita] Estructura MP3
Els quadres MP3 són de 1152 mostres més el camp de ID3. Aquestes mostres estan compostes pels següents camps:
| Camp | Tamany | Descripció |
| Metadades | - | ID3v2 |
| Capçalera | 32 mostres | Capçalera MP3 |
| CRC | 0 - 16 mostres | Control d’errors |
| Informació Lateral | 136 – 256 mostres | Informació lateral per tal de realitzar la descodificació |
| Dades | - | Informació d’àudio |
| Metadades | 128 bytes | ID3v1 |
Les 32 mostres de la capçalera es descomposen:
| Camp | Valor |
| Paraula de sincronització | 111111111111 |
| ID | 1 (MPEG) |
| Capa | 01 (Capa 3) |
| Protecció d’errors | 1 (No) |
| Index de taxa de bits | - |
| Freqüència | 00 (44100 Hz) |
| Padding Bit | 0 (No) |
| Bit privat | - |
| Freqüència | 00 (44100 Hz) |
| Mode | - |
| Extensió de Mode | - |
| Còpia | 0 (No drets d’autor) |
| Original/Còpia | 0 (Còpia) |
| Enfàsis | 00 (Sense enfàsis) |
[edita] Taxa de Bits
MP3 permet les següents taxa de bits:
- 32 kbps
- 40 kbps
- 48 kbps
- 56 kbps
- 64 kbps
- 80 kbps
- 96 kbps
- 112 kbps
- 128 kbps
- 160 kbps
- 192 kbps
- 224 kbps
- 256 kbps
- 320 kbps
Les freqüències disponibles són:
- 32 kHz
- 44100 Hz
- 48 kHz
Es pot considerar que a partir d’una taxa de bits de 128 kbps obtenim una qualitat semblant a la del CD amb un factor de compressió de 11:1.
[edita] Vegeu també
[edita] Enllaços externs
|
|||||||||||||||||||||||||||||||||||||||||||