MP3

MPEG-1 Audio Layer 3
Tipus	Àudio
Extensió	.mp3
MIME	audio/mpeg
Magic number	494433
Desenvolupador	Fraunhofer-Gesellschaft, Karlheinz Brandenburg, Heinz Gerhäuser, Bernhard Grill i Harald Popp
Estàndard	ISO/IEC 11172-3, ISO/IEC 13818-3
Més informació
Stack Exchange	Etiqueta, Etiqueta, Etiqueta i Etiqueta
Wiki del format de fitxer	MP3
LocFDD	fdd000012
PRONOM	fmt/134

MPEG-1 Audio Layer III o mp3 to ogg és un format d'àudio digital basat en la compressió amb pèrdues, desenvolupat pel grup d'experts Media Picture Group (MPEG) i descrit per una norma ISO.

MPEG-1 Audio o Part 3 està dissenyat per a l'emmagatzematge i distribució d'àudio en temps real. MP3 és un dels nivells de compressió d'aquest estàndard, concretament el nivell o capa 3. Aquest nivell és el que té més complexitat i pot aconseguir un bitrate d'uns 192 kbps, per aquest motiu el seu ús més freqüent és la transmissió per XDSI i xarxes TCP/IP.

L'objectiu de l'algoritme de compressió d'aquest format és poder comprimir qualsevol senyal que estigui destinat a ser escoltat i explotar al màxim les limitacions del Sistema Auditiu Humà o SAH.

Codificador[modifica]

Les tècniques emprades en la codificació MPEG són:

Models perceptuals
Assignació dinàmica de bits
Commutació de finestres

Els blocs del codificador són:

Anàlisis per filtres
Transformada MDCT amb enfinestrament.
FFT
Emmascarament temporal i freqüencial
Escalabilitat i quantificació
Codificació de Huffman

Banc de Filtres[modifica]

MP3 utilitza 32 banc de filtres híbrids col·locats en cascada. Aquest filtres són polifàsics, és a dir, amb un retard baix i incorporen una transformada Transformada de Discreta de Cosinus Modificada amb un nombre màxim de punts de 576. Degut a l'aplicació de la MDCT es pot eliminar informació redundant.

Transformació en freqüència[modifica]

La transformada utilitzada en la codificació és la Transformada de Discreta de Cosinus Modificada (MDCT). Aquesta transformació incorpora un enfinestrament per tal d'evitar pre-ecos produïts per un nombre de mostres de la transformada elevat en les zones de silenci-percussió. Aquest enfinestrament es realitza mitjançant quatre tipus de finestres segons sigui el senyal:

Finestra normal o llarga
- 576 mostres
- Simètrica
- Zona homogènia
Finestra d'inici
- 480 mostres
- Asimètrica
- Zona de transició
Finestra de parada
- 480 mostres
- Asimètrica
- Zona de transició
Finestra curta
- 196 mostres
- Simètrica
- Zona homogènia

Per passar de finestra normal o llarga a finestra curta sempre s'ha de passar per les finestres de transició.

Emmascarament temporal i freqüencial[modifica]

Degut a les limitacions del SAH es pot definir un model psicoacústic. Aquest model parteix de descompondre el senyal com les bandes crítiques de l'oïda humana. Per tal de poder eliminar informació per emmascarament s'utilitza una transformada de Fourier (FFT) de 576 punts.

En aquest bloc es defineix el llindar per tal de saber quins tons es consideren emmascarats, i per tant no audibles, i així utilitzar aquest informació per tal de fer la quantificació. Aquest senyal emmascarat pot ser causat per senyals de baix nivell, soroll de quantificació, distorsió de solapament o errors de transmissió.

Emmascarament freqüencial[modifica]

Un so pot ser emmascarat pel fet que dins la mateixa banda crítica hi hagi un altre so amb un nivell més elevat. Existeixen quatre tipus de fenòmens en què es produeix aquest emmascarament:

To – To
Soroll – To
To – Soroll
Soroll – Soroll

Emmascarament temporal[modifica]

El SAH té memoria auditiva per aquest motiu apareix el fenomen d'emmascarament temporal. Aquest fenomen apareix quant dos tons apareixen distanciats per un interval de temps molt petit i un dels tons té un nivell molt més elevat que l'altre. L'emmascarament anterior és més breu que el posterior.

Escalabilitat i Quantificació[modifica]

Els llindars d'emmascarament són utilitzats per determinar quina assignació de bits correspon a cada banda crítica. El codificador el que busca és trobar una assignació de bits el més constant possible.

Codificació de Huffmann[modifica]

Els bits quantificats són codificats amb Huffman i emmagatzemades a la cadena de bits amb els seus factors d'escala i la seva informació lateral. Aquesta informació lateral incorpora els paràmetres que necessita el descodificador com poden ser la taula de Huffman, la commutació de finestres i el control de guany.

Descodificador[modifica]

El descodificador ha de recuperar un senyal sintetitzat del senyal d'àudio PCM d'entrada al codificador.

Els seus blocs són:

Descodificador de Huffman.
Desquantificador.
MDCT inversa amb enfinestrament.
Filtre de síntesi.

Estructura MP3[modifica]

Els quadres MP3 són de 1152 mostres més el camp de ID3. Aquestes mostres estan compostes pels següents camps:

Camp	Mida	Descripció
Metadades	-	ID3v2
Capçalera	32 mostres	Capçalera MP3
CRC	0 - 16 mostres	Control d'errors
Informació Lateral	136 – 256 mostres	Informació lateral per tal de realitzar la descodificació
Dades	-	Informació d'àudio
Metadades	128 bytes	ID3v1

Les 32 mostres de la capçalera es descomponen:

Camp	Valor
Paraula de sincronització	111111111111
ID	1 (MPEG)
Capa	01 (Capa 3)
Protecció d'errors	1 (No)
Índex de taxa de bits	-
Freqüència	00 (44100 Hz)
Padding Bit	0 (No)
Bit privat	-
Freqüència	00 (44100 Hz)
Mode	-
Extensió de Mode	-
Còpia	0 (No drets d'autor)
Original/Còpia	0 (Còpia)
Èmfasi	00 (Sense èmfasi)

Taxa de bits[modifica]

MP3 permet les següents taxa de bits:

32 kbps
40 kbps
48 kbps
56 kbps
64 kbps
80 kbps
96 kbps
112 kbps
128 kbps
160 kbps
192 kbps
224 kbps
256 kbps
320 kbps

Les freqüències disponibles són:

32 kHz
44100 Hz
48 kHz

Es pot considerar que a partir d'una taxa de bits de 128 kbps obtenim una qualitat semblant a la del CD amb un factor de compressió d'11:1.

Vegeu també[modifica]

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: MP3

http://www.chiariglione.org/mpeg/ Arxivat 2008-11-09 a Wayback Machine.
http://www.mpeg.org/
http://www.iso.org/