Format de codificació de vídeo

De la Viquipèdia, l'enciclopèdia lliure

Un format de codificació de vídeo (o de vegades format de compressió de vídeo) és un format de representació de contingut per a l'emmagatzematge o transmissió de contingut de vídeo digital (com ara un fitxer de dades o un flux de bits). Normalment utilitza un algorisme de compressió de vídeo estandarditzat, més comunament basat en la codificació de la transformació del cosinus discret (DCT) i la compensació de moviment. Una implementació específica de programari, microprogramari o maquinari capaç de comprimir o descomprimir cap a/des d'un format de codificació de vídeo específic s'anomena còdec de vídeo.

Alguns formats de codificació de vídeo estan documentats per un document d'especificació tècnica detallada conegut com a especificació de codificació de vídeo. Algunes d'aquestes especificacions estan escrites i aprovades per les organitzacions de normalització com a estàndards tècnics, i per tant es coneixen com a estàndard de codificació de vídeo . El terme "estàndard" també s'utilitza de vegades per a estàndards de facto i estàndards formals.

El contingut de vídeo codificat amb un format de codificació de vídeo determinat normalment s'agrupa amb un flux d'àudio (codificat amb un format de codificació d'àudio) dins d'un format de contenidor multimèdia com ara AVI, MP4, FLV, RealMedia o Matroska. Com a tal, l'usuari normalment no té un fitxer H.264, sinó que té un fitxer de vídeo .mp4, que és un contenidor MP4 que conté vídeo codificat en H.264, normalment juntament amb àudio codificat amb AAC. Els formats de contenidors multimèdia poden contenir qualsevol dels diferents formats de codificació de vídeo; per exemple, el format de contenidor MP4 pot contenir vídeo en format de codificació de vídeo MPEG-2 Part 2 o H.264, entre d'altres. Un altre exemple és l'especificació inicial per al tipus de fitxer WebM, que especificava el format del contenidor (Matroska), però també exactament quin format de compressió de vídeo (VP8) i àudio (Vorbis) s'utilitza dins del contenidor Matroska, tot i que el format del contenidor Matroska en si. és capaç de contenir altres formats de codificació de vídeo (més tard es va afegir el suport de vídeo VP9 i àudio Opus a l'especificació WebM).

Distinció entre format i còdec[modifica]

Un format és el pla de disposició de les dades produïdes o consumides per un còdec.

Encara que els formats de codificació de vídeo com H.264 de vegades s'anomenen còdecs, hi ha una clara diferència conceptual entre una especificació i les seves implementacions. Els formats de codificació de vídeo es descriuen a les especificacions, i el programari, el microprogramari o el maquinari per codificar/descodificar dades en un format de codificació de vídeo determinat des de/cap a un vídeo no comprimit són implementacions d'aquestes especificacions. Com a analogia, el format de codificació de vídeo H.264 (especificació) és per al còdec OpenH264 (implementació específica) el que el llenguatge de programació C (especificació) és per al compilador GCC (implementació específica). Tingueu en compte que per a cada especificació (p H.264), hi pot haver molts còdecs que implementin aquesta especificació (per exemple, productes i implementacions x264, OpenH264, H.264/MPEG-4 AVC).

Aquesta distinció no es reflecteix de manera coherent terminològicament a la literatura. L'especificació H.264 anomena estàndards de codificació de vídeo H.261, H.262, H.263 i H.264 i no conté la paraula còdec.[1] L'Alliance for Open Media distingeix clarament entre el format de codificació de vídeo AV1 i el còdec que l'acompanya que estan desenvolupant, però anomena el propi format de codificació de vídeo una especificació de còdec de vídeo.[2] L'especificació VP9 anomena el propi format de codificació de vídeo VP9 un còdec.[3]

Història[modifica]

El concepte de compressió de vídeo analògic es remunta al 1929, quan RD Kell a Gran Bretanya va proposar el concepte de transmetre només les parts de l'escena que canviaven de fotograma a fotograma. El concepte de compressió de vídeo digital es remunta al 1952, quan els investigadors de Bell Labs BM Oliver i CW Harrison van proposar l'ús de la modulació de codi de pols diferencial (DPCM) en la codificació de vídeo. El 1959, els investigadors de la NHK Y. Taki, M. Hatori i S. Tanaka van proposar el concepte de compensació de moviment entre fotogrames, que van proposar la codificació predictiva de vídeo entre fotogrames en la dimensió temporal.[4] El 1967, els investigadors de la Universitat de Londres AH Robinson i C. Cherry van proposar la codificació de longitud d'execució (RLE), un esquema de compressió sense pèrdues, per reduir l'ample de banda de transmissió dels senyals de televisió analògica.[5]

DCT compensat per moviment[modifica]

La compressió de vídeo pràctica va sorgir amb el desenvolupament de la codificació DCT compensada de moviment (MC DCT),[6][7] també anomenada compensació de moviment en bloc (BMC) [8] o compensació de moviment DCT. Es tracta d'un algorisme de codificació híbrid,[8] que combina dues tècniques clau de compressió de dades: la codificació de la transformada del cosinus discret (DCT) [6] [7] en la dimensió espacial i la compensació predictiva del moviment en la dimensió temporal.[8]

Estàndards de codificació de vídeo[modifica]

El primer estàndard de codificació de vídeo digital va ser H.120, desenvolupat pel CCITT (ara ITU-T) l'any 1984. H.120 no es podia utilitzar a la pràctica, ja que el seu rendiment era massa pobre. H.120 utilitzava codificació DPCM compensada per moviment, un algorisme de compressió sense pèrdues que era ineficient per a la codificació de vídeo. A finals de la dècada de 1980, diverses empreses van començar a experimentar amb la codificació de transformada cosinus discreta (DCT), una forma de compressió molt més eficient per a la codificació de vídeo. El CCITT va rebre 14 propostes de formats de compressió de vídeo basats en DCT, en contrast amb una única proposta basada en la compressió de quantificació vectorial (VQ). L'estàndard H.261 es va desenvolupar basant-se en la compressió DCT compensada pel moviment. H.261 va ser el primer estàndard de codificació de vídeo pràctic i utilitza patents amb llicència de diverses empreses, com Hitachi, PictureTel, NTT, BT i Toshiba, entre d'altres. Des de l'H.261, tots els estàndards de codificació de vídeo principals (inclosos els formats H.26x i MPEG) han adoptat la compressió DCT amb moviment compensat.

Referències[modifica]

  1. «SERIES H: AUDIOVISUAL AND MULTIMEDIA SYSTEMS : Infrastructure of audiovisual services – Coding of moving video : Advanced video coding for generic audiovisual services» (en anglès). Itu.int. [Consulta: 6 gener 2015].
  2. «Front Page» (en anglès). Alliance for Open Media. [Consulta: 23 maig 2016].
  3. Adrian Grange. «VP9 Bitstream & Decoding Process Specification» (en anglès).
  4. «History of Video Compression» (en anglès). ITU-T p. 11, 24–9, 33, 40–1, 53–6. Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6), juliol 2002. [Consulta: 3 novembre 2019].
  5. Proceedings of the IEEE, 55, 1967, pàg. 356–364. DOI: 10.1109/PROC.1967.5493.
  6. 6,0 6,1 Lea, William. Video on demand: Research Paper 94/68 (en anglès). House of Commons Library, 1994. 
  7. 7,0 7,1 Ghanbari, Mohammed. Standard Codecs: Image Compression to Advanced Video Coding (en anglès). Institution of Engineering and Technology, 2003, p. 1–2. ISBN 9780852967102. 
  8. 8,0 8,1 8,2 «History of Video Compression» (en anglès). ITU-T p. 11, 24–9, 33, 40–1, 53–6. Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6), juliol 2002. [Consulta: 3 novembre 2019].