MPEG-7

De Viquipèdia
Salta a: navegació, cerca

MPEG-7 consisteix en una representació estàndard de la informació audiovisual que permet la descripció de continguts (metadades) per:

  • Paraules clau
  • Significat semàntic (qui, què, quan, on)
  • Significat estructural (formes, colors, textures, moviments, sons)

És un estàndard de l'Organització Internacional per a l'Estandardització ISO/IEC i desenvolupat pel grup MPEG. El nom formal per aquest standard és Interfície de Descripció del Contingut Multimedia (Multimedia Content Description Interface). La primera versió es va aprovar al juliol de 2001 (ISO/IEC 15938) i actualment l'última versió publicada i aprobada per l'ISO data de l'octubre de 2004.


Introducció[modifica]

Un cop finalitzat l’standard MPEG-4, juntament amb MPEG-1 i MPEG-2 queden cobertes les necessitats d'obtenir informació audiovisual a qualsevol lloc. També s'aconsegueix més llibertat d'interacció amb el contingut audiovisual (gràcies a MPEG-4). Amb MPEG-7 es busca la manera d’enllaçar els elements del contingut audiovisual, trobar i seleccionar la informació que l'usuari necessita i identificar i protegir els drets del contingut. MPEG-7 sorgeix a partir del moment en què apareix la necessitat de descriure els continguts audiovisuals degut a la creixent quantitat d'informació. El fet de gestionar els continguts és una feina complexa (trobar, seleccionar, filtrar, organitzar... el material audiovisual).

MPEG-7 ofereix un mecanisme per a descriure informació audiovisual, de manera que sigui possible desenvolupar sistemes capaços d'indexar grans bases de material multimèdia (aquest pot incloure: gràfics, imatges estàtiques, àudio, models 3D, vídeo i escenaris de com aquests elements són combinats) i cercar en aquestes bases de materials, manual o automàticament.

El format MPEG-7 s'associa de forma natural als continguts audiovisuals comprimits pels codificadors MPEG-1, MPEG-2 i MPEG-4. De totes maneres s'ha dissenyat perquè sigui independent del format del contingut.

MPEG-7 es basa en el llenguatge XML de metadades en un intent d’afavorir la interoperabilitat i la creació d'aplicacions, tot i que per a evitar problemes d'excés de volum de dades, s'ha creat un compressor anomenat BIM (Binary Format for MPEG-7). Aquest compressor presenta l'avantatge de ser més robust que l’XML davant els errors de transmissió.

Objectius d'MPEG-7[modifica]

  • Habilitar un mètode ràpid i eficient de cerca, filtratge i identificació de contingut.
  • Descriure aspectes principals del contingut (característiques de baix-nivell, estructura, semàntica, models, col·leccions, etc.).
  • Indexar un ventall molt ampli d'aplicacions.
  • El tipus d'informació audiovisual a tractar és: Àudio, veu, vídeo, imatges, gràfics i models 3D.
  • Informar de com els objectes estan combinats dins d'una escena.
  • Independència entre la descripció i el suport on es troba la informació.

Descripció de Continguts[modifica]

Els continguts poden ser descrits de diferents maneres depenent de la necessitat, ja que les característiques descriptives han de tenir un significat en el context de l'aplicació.

Aquestes descripcions hauran de ser diferents per a diferents dominis d'usuaris i sistemes. Això significa que no es pot generar un sistema únic per a la descripció de continguts, sinó que s'hauran de proveir un conjunt de mètodes i eines per a satisfer els diferents punts de vista que diferents usuaris poden tenir.

El material multimèdia, doncs, pot ser descrit utilitzant diferents nivells d'abstracció. Primer s'ha de començar pels nivells d'abstracció més baixos, ja que els nivells superiors descriuen les relacions semàntiques entre els inferiors (característiques del conjunt). Els nivells d'abstracció baixos són genèrics i flexibles, mentre que els nivells d'abstracció superiors són eficients i directes però presenten una baixa flexibilitat. Per tant, com més gran sigui el nivell d'abstracció, més difícil és efectuar un procés automàtic. Per exemple, els canvis de ritme d'una melodia poden catalogar-se com de baix nivell d'abstracció, mentre que la informació semàntica ‘aquesta cançó causà furor a l'estadi’,cau en un nivell més alt.

Nivells baixos d'abstracció per el material visual i d'audio:

  • Material visual: forma, mida, textura, color, moviment i posició en el quadre.
  • Material d'audio: to, timbre i ritme.

A més, però, de disposar de la descripció relacionada amb el contingut, també és necessari incloure altres tipus d'informació descriptiva, com pot ser:

  • Informació sobre la seva creació (aquí entren en joc descriptors com Dublin Core).
  • Informació sobre el format utilitzat.
  • Informació sobre els drets d'autor.
  • Punters cap a altres materials rellevants i el context on es realitzen les accions.

Relació entre Contingut i Descripció[modifica]

Descripció independent del contingut


L'arquitectura MPEG-7 es basa en el fet que la descripció ha d'estar separada del contingut audiovisual.

D'altra banda hi ha d'haver una relació entre contingut i descripció. Aquests dos elements estan comunicats de manera que la descripció s'ha de multiplexar amb el contingut.

L'esquema de la dreta mostra aquesta relació entre el contingut i la descripció.

Eines d'MPEG-7[modifica]

Relació entre les diferents eines i el procés d'elaboració de l'MPEG-7

A continuació tenim els quatre grans blocs amb els quals treballa l'estàndard:

  • Descriptors (D): un descriptor és una representació d'una característica definida sintàctica i semànticament.

És possible que un sol objecte estigui descrit per diversos descriptors.

  • Esquemes de descripció (Multimedia Description Schemes) (DS): especifica l'estructura i semàntica de les relacions entre els seus components, que poden ser descriptors (D) o esquemes de descripció (DS).
  • Llenguatge de definició de descripció (Description Definition Language, DDL): és un llenguatge basat en XML que s'utilitza per a definir les relacions estructurals entre els descriptors i permetre la creació i/o modificació d'esquemes de descripció (DS) i la creació de nous descriptors (D).
  • Eines del sistema: són eines que fan referència a la binarització, sincronització, transport i emmagatzemament de descriptors. També s'encarrega de la protecció de la propietat intel·lectual.

La relació entre totes aquestes eines es pot observar a la figura de la dreta.

Parts de l'MPEG-7[modifica]

L'MPEG-7 està organitzat en vuit parts, de les quals, de la 1a a la 5a, veurem que són eines que es refereixen a la "tecnologia" pròpiament dita de l'MPEG-7, mentre que la resta són parts anomenades "de suport".

  • Part 1:Sistemes: especifica les eines que es necessiten per a preparar les descripcions d'MPEG-7 per tal que es pugui dur a terme una binarització i un transport eficients i també per a permetre la sincronització entre el contingut i les descripcions per tal de protegir la propietat intel·lectual.
  • Part 2: Description Definition Language (DDL): especifica el llenguatge per a definir nous esquemes de descripció (i també nous descriptors).
  • Part 3: Visual: consisteix en les estructures bàsiques i descriptors visuals que cobreixen diferents característiques visuals com: forma, color, textura, moviment, localització i reconeixement de cares. Els descriptors visuals són el component que especifica l'estructura i semàntica de les relacions entre els seus components (per al filtratge i recuperació de la informació).
  • Part 4: Àudio: són un conjunt de descriptors de baix nivell per al contingut d'àudio. A través d'ells es descriuen característiques espectrals, paramètriques i temporals d'un senyal.
Diferents tipus de descriptors d'àudio/video

També s'utilitzen descriptors d'alt nivell que inclouen el reconeixement de so general i eines per a la indexació de descriptors, per a la descripció de timbres instrumentals, per al contingut parlat, un esquema per a signatura d'àudio i eines també per a la descripció de melodies.

  • Part 5: Generic Entities and Multimedia Description Schemes (Esquemes de Descripció Multimèdia): especifica la relació entre els descriptors (D) i els description schemes (DS) amb l'element multimèdia. Inclou els descriptors i esquemes de descripció que no són específics per àudio o vídeo.
  • Part 6: Reference Software: inclou una implementació del software de les parts de l'MPEG-7. Es basa en el model d'experimentació de l'MPEG respecte al comportament del descodificador.
  • Part 7: Conformance Testing: defineix procediments i guies per a fer que l'MPEG-7 sigui correcte. Especifica línies i procediments per provar que tant els motors de descripció com els de contingut obeeixin l'estàndard MPEG-7.
  • Part 8: Extraction and Use of MPEG-7 Descriptions: dóna informació de l'extracció i l'ús de les eines de descripció.
  • Part 9: Profiles and levels: proporciona procediments i el perfil dels estàndards.
  • Part 10: Schema Definition: Especifica l'esquema utilitzant el DDL (Description Definition Language).

Eines de descripció d'MPEG-7[modifica]

Els descriptors i esquemes de descripció, formen un conjunt d'eines de descripció predefinits per MPEG-7. S'agrupen en diferents classes segons la seva funcionalitat (mirar figura eines de descripció d'MPEG7):

Eines de descripció d'MPEG-7
  • Elements Bàsics: són entitats genèriques utilitzades com a components bàsics per diverses eines de descripció. Inclouen tipus de dades i estructures, links, localitzadors i eines bàsiques de descripció per llocs, gent, anotacions de text…
  • Eines d'esquema: són eines que defineixen l'estructura de les eines de descripció, per al seu ús des d'una aplicació. Inclouen els "packages" personalitzats per agilitzar-ne l'ús.
  • Eines de descripció de continguts: representen la informació perceptible incloent aspectes estructurals (eines de descripción d'estructures), aspectes conceptuals (eines de descripción semàntica) i característiques d'àudio i video. Les eines de descripció d'estructures ens permeten descriure el contingut en termes de segments espaciotemporals, organitzats en estructures jeràrquiques. Les eines de descripció semàntica ens permeten descriure el contingut amb semàntica real i nocions conceptuals.
  • Eines de direcció de continguts: permeten especificar la informació sobre mitjans de comunicació (emmagatzematge, xifrat del format, qualitat…), creació (títol, dates, materials, llengua…) i l'ús de continguts multimèdia (condicions d'ús: drets i disponibilitat).
  • Eines d'organització de continguts: permeten crear i modelar col·leccions de contingut multimèdia i descripcions.
  • Navegació i instruments d'accés: permeten especificar sumaris, particions i descomposicions (accés progressiu en temps, espai i freqüència) i variacions de contingut multimèdia per facilitar la consulta i la recuperació. Els sumaris proporcionen modes (tant seqüencial com jeràrquic) de navegació amb l'objectiu de proporcionar una vista prèvia eficient dels materials multimèdia.
  • Eines d'interacció d'usuari: permeten definir les preferències de l'usuari.

Exemple d'Àrees d'Aplicació[modifica]

Existeixen moltes aplicacions i molts camps d'aplicació els quals es poden beneficiar de l'estàndard MPEG-7 alguns exemples són els següents:

  • Biblioteques digitals: emmagatzematge i recerca de bases de dades audiovisuals.
  • Serveis de directoris multimedia (p. ex. Pàgines grogues).
  • Selecció de medis de difusió (canals de ràdio, televisió...).
  • Edició multimedia (serveis electrònics personalitzats).
  • Vigilància: control del trànsit, cadenes de producció...
  • E-comerç i tele-compra: cerca de roba, models...
  • Entreteniment: Cerca de jocs, karaokes...
  • Serveis culturals: Museus, art-galleries...
  • Periodisme: Cerca d'esdeveniments, persones.
  • Servei personalitzat de notícies per internet.
  • Aplicacions educatives.
  • Aplicacions bio-mèdiques.

Software/Demo de l'MPEG-7[modifica]

Enllaços d'Interès[modifica]