Metadades

De Viquipèdia
Dreceres ràpides: navegació, cerca

Les metadades són la via per a comunicar informació sobre un document o sobre els recursos que directament es relacionen amb la seva accessibilitat. Són, a més, una eina bàsica en l'organització, classificació i descripció de la informació, tasques pròpies de l'arquitectura de la Informació.

Definició[modifica | modifica el codi]

Metadada és tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d'un recurs, dada o objecte amb la finalitat de facilitar la seva recuperació, autentificació, avaluació, preservació i/o interoperabilitat.

Així, en definir un grup de metadades per a un objecte l'estem descrivint de manera que aquesta informació ajuda els usuaris a identificar si l'objecte els és útil i a localitzar-lo ràpidament.

Són exemples de metadades:

  • L'encapçalament d'un fitxer multimèdia (imatge, vídeo o àudio).
  • El resum d'un document.
  • El catàleg d'una base de dades.
  • Les paraules extretes d'un text.
  • Les "pàgines grogues".

A més, a Internet també es poden trobar en altres formats:

  • Índexs de documents continguts a una intranet.
  • Adreces IP o DNS.
  • Encapçalaments de missatges de correu electrònic.
  • Descripció dels arxius accessibles via FTP.
  • Termes extrets pels motors de cerca

Origen[modifica | modifica el codi]

Les metadades tenen el seu origen en els catàlegs, probablement inventats pels Sumeris. Al llarg dels segles les taules de fang que aleshores s'utilitzaven van anar evolucionant fins a esdevenir llistes manuscrites i, posteriorment, es van convertir, gràcies a l'aparició de la impremta, en catàlegs de llibres. Aquests primers catàlegs eren impresos que, simplement, ordenaven alfabèticament els elements sense cap altra mena de classificació més sofisticada. Un gran avenç va ser, pels volts de l'any 1900, l'aparició de les targetes, les quals, entre altres avantatges, podien ser actualitzades. D'aquesta manera els catàlegs es van convertir en un conjunt de targetes, una per a cada llibre, amb les seves corresponents entrades que podien ser, per exemple: títol, autor i tema. Així, la targeta indicava la localització de l'element en la biblioteca i, a més, proporcionava informació addicional sobre ell. És a dir, donava la informació mínima per a identificar el recurs.

En la dècada dels 60 els mètodes de producció en massa, deguts a la irrupció dels ordinadors, van fer necessari disposar de més d'una còpia dels catàlegs que ja existien, però els catàlegs de targetes no podien absorbir aquests nous requeriments. Va ser aleshores quan es va fer palesa la necessitat de desenvolupar estàndards de codificació, les avui en dia anomenades "metadades".

El seu ús ha estat recomanat pel W3C o World Wide Web Consortium, com punt de control amb nivell de Prioritat 2 per a l'accessibilitat a la Web.

Evolució de les metadades a la Web[modifica | modifica el codi]

A la Web, les metadades no estan governades per autoritats centrals (com una biblioteca nacional), sinó que consisteixen en múltiples grups, organitzacions i persones treballant independentment. Des que va sorgir internet s'han anat desenvolupant diferents estàndards dirigits a diferents objectius:


1. MAchine Readable Cataloguing (MARC)

MARC va ser concebut per a transmetre dades d'un sistema a un altre i va ser revolucionari perquè va incorporar camps de llargada variable. Conté diversos camps:

  • ".directori": són alfanumèrics, de llargada fixa, que determinen el nom, llargada i on comença cada camp de descripció.
  • ".control": s'utilitzen per a classificar la informació en termes de temps i lloc.
  • "de descripció variable": contenen dades de catalogació tradicionals, i són precedits per un codi definit que va des de 001 a 999 on, per exemple, el codi 650 és la matèria per tòpic del recurs.


Des que es va generar MARC, es van desenvolupar 20 estàndards més a escala nacional (DenMARC, AZMARC, CHMARC, UKMARC, CAN/MARC, etc.). El més conegut és USMARC (United States MARC), també anomenat LC-MARC, que va ser desenvolupat el 1968 per la Biblioteca del Congrés dels Estats Units. A més, des del 1977 existeix una interllengua entre els diferents estàndards MARC, creada gràcies a un esforç de cada agència bibliogràfica nacional, on es van crear traductors des del seu estàndard fins a arribar a un esquema UNIMARC (UNiversal MARC) i viceversa.


2. ISO 23950 (Z39.50)

Té el seu origen l'any 1988 als Estats Units, moment en què fou aprovat per la NISO (National Information Standards Organization).

És un protocol per a la generació de consultes de múltiples catàlegs "on line". El seu punt més fort és que permet a un usuari d'un sistema buscar i recuperar la informació sense saber la sintaxi utilitzada pels altres sistemes. Posseeix un protocol XML anomenat XER i és portable a SQL.

Evolució de les Metadades.

Tant MARC com Z39.50 són emprats àmpliament per les entitats bibliotecàries tradicionals i és probable que ho continuïn sent per un temps a causa de l'alt cost en què han d'incórrer aquestes entitats per a mutar de format, a més del poc finançament amb el qual compten per a dur a terme aquestes tasques.


3. Standard Generalized Markup Language (SGML)

Les seves arrels es remunten al 1969, quan als laboratoris IBM es desenvolupà Generalized Markup Language (GML), llenguatge que evolucionà fins al 1974, moment en el qual es va passar a dir SGML. La International Organization for Standardization (ISO) el va aprovar i va publicar el llenguatge el 1984 amb el nom d'estàndard ISO 8879.

Aquest estàndard internacional consta d'un conjunt de regles per a descriure l'estructura d'un document, de tal manera que poden ser intercanviats a través de plataformes computacionals. SGML, doncs, és un llenguatge de marcatge de documents extremadament flexible i és, avui en dia, la base dels llenguatges de marcatge més emprats.

En SGML un document està definit en funció de l'estructura de les entitats que el conformen. Aquestes entitats s'organitzen en una estructura lògica jeràrquicament, determinant l'estructura dels elements del document. Les entitats, a més, poden ser compartides per diferents documents. El marcatge que efectua es porta a terme mitjançant delimitadors i etiquetes de la forma:

<etiqueta> element </etiqueta>.

Aquestes etiquetes poden estar aniuades i es representen mitjançant el conjunt de caràcters bàsics d'acord amb l'estàndard ISO 8879.

En el context històric de les metadades la introducció de SGML va jugar un paper fonamental, ja que va aconseguir establir un nou paradigma en el qual les dades deixen de ser només dades: els documents SGML contenen per separat (en el sentit lògic) els continguts, l'estructura i el format.


4. Document Type Definition (DTD)

Els seus orígens es remunten al 1978 quan, també als laboratoris IBM, es van publicar els primers DTD com a part del ja explicat desenvolupament SGML.

Així doncs, DTD són aplicacions d'SGML utilitzades per a definir les estructures o bé de múltiples documents o bé d'un tipus en especial. Aquestes estructures es defineixen indicant regles tals com noms dels elements permesos, el contingut de cada tipus d'element i l'ordre en el qual els elements poden aparèixer.

Un dels més coneguts és el DTD d'HTML (HyperText Markup Language), que explicarem amb més detall més endavant, que defineix les regles que donen llum a aquest massiu llenguatge de marcatge de pàgines Web. Un altre exemple d'ús dels DTD el trobem a les biblioteques, on se n'utilitzen de diversos tipus, com ara EAD (Encoded Archival Description) per a la descripció bibliogràfica, i TEI (Text Encoding Initiative) per al marcat de les versions electròniques de textos culturals.


5. The Warwick Framework

Aquesta iniciativa va néixer l'abril del 1996, moment en el qual es va portar a terme un workshop a la Universitat de Warwick. Aquesta trobada va comptar amb més de cinquanta representants de bibliotecologia, estàndards d'Internet, marcat de text i projectes de biblioteques digitals.

El concepte que s'amaga darrere d'aquesta iniciativa és mantenir múltiples conjunts de metadades independents uns dels altres en un sol lloc o .framework., amb l'objectiu de proveir de mitjans per a administrar i accedir a conjunts de metadades per separat. Aquest marc permet l'existència de diferents sintaxis en cada conjunt de metadades d'acord amb els requerimetns semàntics, promovent la interoperatibilitat i extensibilitat en el moment de manipular (de forma selectiva) aquests paquets per part dels agents o sistemes que l'utilitzen.

Els framework poden tenir dos tipus d'objectes:

  1. Paquets: està definit com un conjunt de metadades tal com pot ser Dublin Core.
  2. Contenidor: està definit com el lloc on s'emmagatzemen altres contenidors o paquets.

El contenidor pot tenir dos tipus d'estats:

  • Transients: és un objecte de transport entre repositors clients i agents.
  • Persistents: són els que perduren en el temps i són accessibles mitjançant un identificador universal.


Relacions entre llenguatges de metadades.

Aquest framework va ser resultat d'una anàlisi de Dublin Core i va influenciar molt en la creació de Resource Description Framework (RDF).

Així doncs, un cop vista l'evolució de les metadades a la web, en podem extreure, entre d'altres, una conclusió clara: per tal que les metadades es puguin implementar, és necessari un llenguatge. De llenguatges n'existeixen molts, que acostumen a ser derivacions i perfeccionaments dels seus precedents, tal com es pot veure a la figura de la dreta.

Necessitat de les metadades[modifica | modifica el codi]

Qualsevol recurs, quan està emmagatzemat amb d'altres, té la necessitat de ser descrit per a facilitar les cerques que mirin de trobar-lo a partir de les característiques distintives que té. Això és cert per a qualsevol tipus de recurs, tant per a un vídeo com per a un llibre en una biblioteca, però també per a un iogurt a la prestatgeria d'un supermercat o per a un os a l'armari d'un paleontòleg.

Fitxer:Metadatos-Youtube.png
Metadades en un vídeo a YouTube

En el cas dels llibres d'una biblioteca, normalment les metadades tenen forma de targeta amb informació sobre la secció en què hi ha el llibre, l'autor, l'editorial, la col·lecció a què pertany o el nombre de pàgines. Si es tracta d'un iogurt, les metadades són les que hi ha a l'etiqueta, com ara el gust, si és ensucrat o no, la data de caducitat o la llista d'ingredients. Com es veu, tot això ajuda a triar un recurs en comptes d'un altre segons la característica que ens interessa més i sense haver-hi de fer un examen més a fons. En l'exemple del iogurt, si en volem comprar un de maduixa sempre serà més senzill llegir l'etiqueta que no pas obrir cada iogurt fins a trobar-ne un del gust que volem, i per a això és imprescindible tenir metadades fiables.

La imatge que hi ha a la dreta mostra ressaltats de groc tots els elements d'informació de metadades d'un vídeo emmagatzemat en el portal YouTube, com ara el títol, la longitud en minuts, la data de publicació, el nombre de vegades que l'han vist, les etiquetes, els comentaris i l'usuari que el va publicar.

El concepte de metadades és anterior a Internet i al Web, si bé és cert que les noves necessitats de cerca d'informació han suscitat un interès que no hi havia hagut fins llavors per les normes i pràctiques de metadades.

Registres de metadades[modifica | modifica el codi]

La informació de metadades està estructurada en registres (o fitxes) i en general compleix un cert estàndard o normativa que en regula l'estructura. Un registre de metadades està format per un conjunt d'atributs o elements que permeten descriure completament el recurs al qual acompanyen.

És important ressenyar que, si bé el registre de metadades i el recurs que descriu es poden emmagatzemar plegats (metadades internes), es més freqüent emmagatzemar-los tots dos de manera separada (metadades externes), cosa que permet (com en el cas dels catàlegs de les biblioteques) que coexisteixin diverses descripcions d'un mateix recurs fetes per diferents entitats o segons diferents necessitats o interessos. Així, si parlem d'objectes d'aprenentatge, un repositori que compleixi l'estàndard Dublin Core de metadades farà registres diferents dels que en podria generar un que compleixi l'estàndard IEEE LOM.

Metadades i objectes d'aprenentatge[modifica | modifica el codi]

En l'aprenentatge electrònic (e-learning), les metadades s'empren per a descriure els objectes i recursos d'aprenentatge amb l'objectiu de facilitar les cerques en els repositoris. Sovint, la informació de metadades dels repositoris d'objectes d'aprenentatge compleix l'estàndard IEEE LOM, que defineix un conjunt de nou categories d'informació, que permeten descriure els recursos tant des del punt de vista didàctic com tècnic, cosa que permet fer cerques molt més ajustades que permetran als usuaris (professors que componen un nou curs amb materials existents, o alumnes interessats a aprendre d'un cert tema) obtenir resultats més ajustats als criteris de cerca que s'hi han introduït.

Les metadades són una part essencial del paradigma dels objectes d'aprenentatge, ja que:

  • La reutilització d'objectes d'aprenentatge es basa en la creació i l'ús de metadades, descripcions sovint externes als recursos mateixos.
  • Si es proporcionen en els llenguatges adequats, permeten desenvolupar noves eines tecnològiques que faciliten la recerca i manipulació dels objectes d'aprenentatge.
  • Faciliten la recuperació de la informació, perquè descriuen el contingut i les relacions que tenen amb altres recursos.
  • Faciliten la interoperabilitat, ja que fan que sigui més fàcil compartir i intercanviar informació.
  • Simplifiquen la gestió i l'emmagatzemament, ja que permeten guardar informació sobre el cicle de vida dels recursos.
  • Ajuden a gestionar adequadament i protegir els drets de propietat intel·lectual.

Per tant, les metadades són un element de valor fonamental. Un recurs digital amb un disseny pedagògic excel·lent no és per se un bon objecte d'aprenentatge, sinó que ho és en la mesura que les metadades que el descriuen són també de qualitat.

Problemes associats a l'ús de les metadades[modifica | modifica el codi]

Si bé la inclusió de metadades és necessària, com hem vist, per a facilitar i potenciar un bon nombre de tasques importants, també hi ha problemes que estan associats a l'ús d'aquestes metadades. Alguns dels problemes més esmentats en la literatura científica es resumeixen en els punts següents:

  • Falta de compleció: sovint, introduir metadades és una tasca ingrata i que requereix un esforç considerable. Això implica una certa tendència a no completar (o a completar deficientment) els registres de metadades, ja que les organitzacions no perceben adequadament la necessitat d'oferir registres de metadades complets o bé no poden plantar cara als alts costos, en termes d'esforç, de completar-ne les col·leccions. Aquest problema és més palès quan el nombre d'objectes d'aprenentatge que cal anotar és important (col·leccions de milers d'objectes d'aprenentatge) o quan el nombre d'elements de metadades que cal emplenar és elevat (per sobre de la vintena).
  • Dificultats d'interoperabilitat: algunes informacions de metadades descansen en l'ús de vocabularis, col·leccions de termes tancades els elements de les quals s'han d'emprar obligatòriament per a consignar la informació relativa a l'element de metadades en qüestió. Els estàndards permeten utilitzar diferents vocabularis per a un element de metadades, de manera que poden variar d'una institució a una altra i causar dificultats per a intercanviar recursos, perquè sistemes externs operin sobre metadades d'origen diferent, etc. Així, la informació per a l'element 5.8.Dificultat de l'estàndard IEEE LOM s'ha d'escollir (segons l'estàndard IEEE LOM) de la llista següent de termes: molt fàcil / fàcil / mitjà / difícil / molt difícil. Malgrat això, el mateix estàndard IEEE LOM permet utilitzar un altre vocabulari si s'estima oportú, de manera que una certa institució podria simplificar el nombre de categories a tres, ampliar-les a deu per oferir una escala més detallada, o triar una altra escala més adequada al context, com ara bàsic / bàsic-necessita-suport / imprescindible-suport-extern / complex.
  • Inconsistència semàntica i altres problemes derivats dels estàndards: no és infreqüent veure que dues institucions distintes ofereixin informacions diferents per al mateix element de metadades, sovint per falta de claredat de l'estàndard de metadades utilitzat. Prenent com a exemple l'estàndard IEEE LOM, alguns elements com el 5.8.Dificultat depenen en gran manera de l'opinió subjectiva de la persona que crea el registre de metadades i, en conseqüència, estan destinats a ser inconsistents amb registres creats per altres persones ja que una podria considerar difícil allò que per a una altra és molt difícil. Un altre problema semblant és la incompleció semàntica, és a dir, la introducció d'informació incompleta per a un cert element de metadades, de manera que no proporcioni tota la informació que podria i aniria bé que oferís.
  • Estan "orientades a humans": les metadades són descripcions textuals que les persones interpretem fàcilment. Malgrat això, als sistemes i aplicacions informàtics no els resulta senzill processar aquesta informació per a oferir serveis afegits, ja que les metadades no s'han escrit perquè les entenguin "màquines". Així, és difícil programar un cercador que prioritzi els resultats d'una cerca d'objectes d'aprenentatge en un repositori, depenent, per exemple, de la informació sobre drets d'accés (element LOM 6.2.Drets) o de la cobertura geogràfica o temporal (element 1.8.Cobertura), senzillament perquè aquesta informació és en un text escrit en un llenguatge humà del qual és difícil extreure la informació buscada: cal processar el text mitjançant complexes tècniques d'anàlisi lingüística, dividir-lo en les parts essencials que té, analitzar cada part i extreure la informació, etc., tenint sempre en compte que en textos com la descripció de la cobertura hi pot haver localismes, omissions òbvies per a les persones però incomprensibles per a una màquina, o qualssevol altres complexitats pròpies dels llenguatges humans.

Paradades[modifica | modifica el codi]

Es coneixen com a paradades [[1]] el conjunt de dades que es generen durant la interacció entre un usuari i un recurs o servei d'un escenari educatiu (un entorn virtual d'aprenentatge, un repositori, una xarxa social, etc.). Segons el recurs o servei a què s'ha accedit i les operacions que s'han fet amb aquest servei, les paradades generades contindran més o menys informació. Aquesta informació es pot emmagatzemar per a analitzar-la més endavant, amb l'objectiu de comprendre més bé com interactuen en aquest escenari educatiu els usuaris, i detectar així possibles problemes i oportunitats de millora tant de l'escenari educatiu mateix i de les eines utilitzades com de l'enteniment del procés que hi segueixen els usuaris. A partir d'aquesta l'anàlisi, es poden construir, entre d'altres, sistemes de recomanació, esquemes de reputació, o visualitzacions de la interacció.

Per exemple, si un usuari baixa un document d'un repositori d'objectes d'aprenentatge, es podrà saber que l'usuari U ha baixat el document D en el moment T. Aquesta informació es pot usar per a detectar els recursos més baixats o, per contra, aquells a què no accedeixen mai els usuaris, però també per a saber en quines èpoques del semestre acadèmic es produeix un ús més gran del repositori. Una altra possibilitat és si un usuari U avalua un recurs R amb una valoració X en el moment T, com ara un comentari en un grup de Facebook. Això permet conèixer els comentaris més ben valorats o més mal valorats pels usuaris, i també els usuaris més actius.

En general, l'objectiu és guardar la interacció dels usuaris amb el sistema en forma de tuples (U, T, S, R, X): un usuari U en el moment T utilitza un servei S sobre un recurs R amb un resultat X. Aquesta és la mínima informació que s'ha d'emmagatzemar per a analitzar-la més endavant.

Emmagatzemament de paradades[modifica | modifica el codi]

Com que la interacció en un entorn virtual d'aprenentatge se sol fer amb l'ús d'un navegador web, un usuari que visita els espais que ofereix aquest navegador deixa un rastre en forma d'accessos a pàgines web que queden recollits en els fitxers de registre (en anglès, log files) dels servidors web que funcionen amb el sistema. Per tant, sembla factible analitzar els fitxers de registre per a extreure la informació relativa a la interacció. El problema, però, és que aquests fitxers contenen moltes més entrades relatives a la disposició dels elements que formen una pàgina web que no pas de realment relacionades amb el mateix resultat de la interacció dels usuaris, la qual s'ha de calcular a partir de la seqüència de salts capturada en els fitxers de registre. El cost computacional d'analitzar fitxers de registre és molt elevat (contenen milions de línies de registre) i no és senzill quan es tracta de sistemes complexos amb molts servidors en què el rastre que deixa un usuari pot estar fragmentat en diferents fitxers.

Per tant, si cal recollir paradades per a analitzar-les més endavant, val més que el sistema sigui dissenyat específicament amb un servei de recollida enfocat a emmagatzemar només la informació requerida per a l'anàlisi, i reduir així la mida necessària i el temps de procés. Segons l'objectiu de l'anàlisi, les paradades es poden emmagatzemar dins de les metadades d'un recurs, dins del perfil de l'usuari o bé, el més habitual, en una taula (o base de dades, segons la complexitat que tingui) separada.

Característiques Importants[modifica | modifica el codi]

Es poden distingir tres aspectes fonamentals en relació a les metadades a la Web:

  • És necessària la identificació:

Un aspecte molt important en la descripció d'objectes informatius a la Web és la necessitat d'identificar-los i de tenir un mètode per a accedir a ells i a descripcions d'ells segons sigui necessari. Per a obtenir el màxim benefici en l'ús de metadades és necessari que els identificadors tinguin quatre característiques:

  • Ser únics
  • Ser estables i segurs
  • Ser d'accés públic
  • Ser persistents


Com veurem als "contres" de les metadades, aquestes condicions són molt difícils de complir perquè són necessàries bases socials per a la seva implantació.

  • Les descripcions es fan mitjançant sistemes de metadades:

La forma en què es generen els sistemes de metadades a la Web difereix dels utilitzats a les biblioteques tradicionals. Les metadades a la Web no apunten a realitzar descripcions exhaustives dels recursos, sinó a crear sistemes que utilitzen en conjunt els diferents marcs. Les metadades han de ser granulars, essent aquesta una característica necessària per a la subsistència d'aquestes. És per això que és comú trobar descripcions realitzades mitjançant camps Dublin Core i identificades mitjançant DOI.

  • Les metadades estan estretament lligades a l'objecte que descriuen:

Les descripcions de metadades estan estretament lligades a les característiques rellevants dels objectes, generant noves dificultats tècniques, ja que es fa necessari enfrontar-se als canvis que experimenten els objectes al llarg del temps. A la Web els objectes es poden crear dinàmicament, establint dificultats que fins avui en dia, tot i existir la tecnologia necessària, no han estat solucionades.


Forma i Llenguatge[modifica | modifica el codi]

Tal com ja hem explicat, el mètode més comú per a crear metadades és en forma d'etiquetes Meta.


Les etiquetes <meta>, estan localitzades a la secció HEAD d'un document HTML. La seva estructura bàsica és la següent:

   <HEAD>
       <Meta name="Author" content="Myself">
   </HEAD>

A aquesta estructura se li poden col·locar altres etiquetes. Algunes de les més comunes són:

  • Keywords: cada document ha de tenir paraules clau. Aquestes han d'aparèixer en el cos del text del document.
  • Description: cada document ha de tenir una descripció. Les paraules que utilitzis per a descriure el teu document han d'aparèixer en el cos del text del document.
  • Autor: cada document ha de tenir almenys un autor. Aquest pot ser una organització o més d'un individu, o ambdós.
  • Language: indica l'idioma principal del document. Existeix una llista de codis per als idiomes més comuns. Per exemple, el còdic d'idioma per a l'anglès parlat als Estats Units és en-us.
  • Robots: proporciona instruccions als rastrejadors de com rastrejar o indexar el document i altres documents enllaçats amb ell.
  • Rating: revela informació sobre el contingut del seu document per als usuaris. Això els ajuda a ocultar la informació que pot no ser adequada per a tots els visitants.
  • Copyright: inclou el nom dels propietaris del copyright i una declaració de l'ús lícit.


Com dèiem, però, existeixen molts llenguatges, i cada vegada existeix més software per a la creació, implementació i gestió de metadades. Aquestes eines d'índole, objectius i procedències diverses, podem tipificar-les genèricament com:

  • Plantilles que funcionen en mode servidor i aplicacions client.
  • Software lliure, de font oberta o comercial.
Generador Web de metadades


A continuació s'assenyalen alguns exemples d'aquestes eines classificades en funció de l'ús al qual es destinin:

  • Aplicacions per a la creació de metaetiquetes: per a incloure en la font d'un document electrònic HTML/XHML.

Hi ha webs que a través d'una plantilla et genera les etiquetes html corresponents, tal com es mostra a les figures de la dreta. Alguns exemples en són:


  • Software per a la creació de metadades: normalment segons un esquema particular, om Dublin Core, entre d'altres.

Hi ha webs com DC-DOT que et permeten tant extreure informació de metadades del web com generar-ne. Podem investigar part del codi de qualsevol pàgina Web. Depenent del format en què volem que ens surti la informació, veurem una plantilla o una altra.

Classificació i aplicació[modifica | modifica el codi]

Les metadades s'apliquen en molts camps diferents i es presten a molts tipus de classificacions, com per exemple la següent:

Taula dels tipus aplicacions i exemples de les metadates

Analitzant-los més a fons:

  • Administratius: es refereixen a informació per a facilitar l'administració dels recursos.

Es troben dades com:

    • Quan i com va ser creat l'objecte.
    • Qui és el responsable de controlar l'accés o registrar el contingut
    • Quines activitats de processament es van dur a terme en relació al contingut.
    • Quines restriccions d'accés o ús són aplicables.

Exemple de metadades d'aquest caire: metadades per a la preservació a llarg termini d'objectes digitals i, depenent del context, a la seva reconstrucció en cas de pèrdua.

  • Descriptius i de descobriment: es refereixen a la informació proveïda per a trobar, descriure i distingir cadascun dels objectes d'informació.

L'exemple més clar el trobem a Dublin Core. També hi tenen cabuda metadades per a descriure recursos de dominis específics del coneixement. Un exemple serien les metadades Darwin Core que donen representació a la cerca i recuperació de col·leccions d'història natural, i també els pertinents al Data Documentation Initiative (DDI), un estàndard que serveix per a descriure conjunts de dades per al seu ús en ciències socials.

  • Tècnics i models
    • Tècnics: es refereix als estàndards relacionats amb els elements que descriuen com un sistema funciona i ha de ser interpretat.

Un exemple serien les metadades que descriuen el format d'alguna imatge digital.

  • Models: es relacionen amb les peces d'un objecte d'informació compost.

Dona termes sobre com s'interrelacionen cadascun dels seus components. Per exemple, una metadada pot descriure que, en el context d'un llibre, arribarem a un tema en concret si es donen dos factors: seguint el número de pàgina i que, a més, les pàgines estiguin ordenades.

Esquema

Cal tenir en compte, però, que els límits entre categories són molt difusos, de manera que la majoria de metadades tenen cabuda en més d'una d'aquestes categories. Una classificació formal on s'agrupen metadades només en aquests grups no representa adequadament la realitat. Per tal que s'adeqüi més al món real, utilitzem un diagrama triangular per a visualitzar la classificació.

A la imatge de la dreta hi ha situats uns quants estàndards:

  • Dublin Core se situa gairebé completament en la categoria de metadades descriptives i de descobriment.
  • MPEG-7 se situa prop del centre del diagrama perquè posseeix elements que compleixen amb els tres propòsits generals.

I així successivament.

Selecció de Metaformats[modifica | modifica el codi]

A l'hora de seleccionar un esquema de metadades (Dublin Core, EAD, TEIHeader, LOM, etc.) per a implementar un sistema d'informació digital o en qualsevol projecte d'organització i recuperació d'informació (per exemple, una biblioteca digital) tenim fonamentalment tres opcions:

a. Utilitzar un esquema o vocabulari existent.

b. Crear el nostre propi esquema d'informació.

c. Seleccionar un estàndard i adaptar-lo a les nostres necessitats.

És recomanable que, si ja existeix un esquema apropiat per a descriure la informació que volem organitzar, s'utilitzi l'esquema existent. Tot i això, hem de tenir en compte els següents punts:

  • El tipus d'informació digital que vulguem descriure (textual, àudio, vídeo, etc.) o el domini o particularitats d'aquesta (p. Ex. Informació arxivística, informació geoespacial, objectes d'aprenentatge, etc.).
  • El tipus de projecte per al qual anem a seleccionar un format de metadades:

- Una col·lecció digital formada bé per documents tradicionals digitalitzats, o documents originalment digitals que tenen un fi comú (per exemple un portal, un weblog o qualsevol altre sistema de gestió de continguts).

- Una col·lecció virtual constituïda per un conjunt de metadades que descriuen i qualifiquen l'accés a documents distribuïts d'índole diversa.


  • La metainformació preexistent. En aquest sentit cal avaluar si el projecte compta amb alguna descripció prèvia dels DLO, com per exemple: registres MARC del document original que es digitalitza, metaetiquetes incloses en la capçalera d'un document originalment digital que es descriurà, etc.
  • El personal amb el qual compti el projecte i el seu nivell d'informació en metadades i llenguatges de marcat.
  • La recuperació d'informació que vulguem plantejar i el nivell d'interoperabilitat estable amb altres sistemes o col·leccions digitals similars.


"Pros"[modifica | modifica el codi]

Els beneficis d'utilitzar metadades són diversos i depenen de l'àrea en què s'emprin. En termes generals, però:

  • Adhereixen contingut, context i estructura als objectes d'informació, assistint d'aquesta manera al procés de recuperació de coneixement des de col·leccions d'objectes.
  • Permeten generar diferents punts de vista conceptuals per als usuaris o sistemes, i allibera a aquests últims de tenir coneixements avançats sobre l'existència o característiques de l'objecte que descriuen. Aquests punts de vista conceptuals poden dependre del sistema o de l'usuari que els utilitza.
  • Permeten l'intercanvi de la informació sense haver de fer l'intercavi dels recursos. Aquesta particularitat facilita, entre altres coses, les cerques sobre col·leccions distribuïdes. A més, les metadades permeten una descripció precisa i discreta dels recursos permetent la creació de col·leccions virtuals de descripcions on s'agrupen els objectes d'informació per a satisfer requeriments específics.
  • Permeten un accés als recursos de forma controlada, ja que es coneix amb precisió l'objecte descrit. És aleshores quan és possible establir sistemes de filtratge que permeten generar bases per a una autentificació i mecanismes per a definir graus de confiança sobre les fonts d'informació.
  • Permeten preservar els objectes d'informació permetent-los migrar (gràcies a la informació estructural) per al seu possible ús per part de futures generacions. La informació semàntica dels objectes es manté, disminuint així la pèrdua de coneixement.
  • Són essencials per a sostenir un creixement d'una Web a més gran escala, permetent cerques i integració del coneixement des d'unmajor nombre de fonts heterogènies.

"Contres"[modifica | modifica el codi]

La barrera principal en l'ús de metadades no és tecnològica, ja que es disposa dels elements necessaris per a crear-les. La vertadera barrera és el seu ús social, essent necessari crear una cultura de metadades. Sota certs punts de vista és possible, igual que ho va ser la creació dels catàlegs, però requereix molt de temps per tal de crear l'hàbit en el consumidor.

La seva introducció en el seu ús social és difícil també perquè les metadades es veuen com:

  • Costosos i que necessiten massa temps. Les empreses no en volen produir perquè no hi ha demanda, i els usuaris provats no hi invertiran tant de temps.
  • Els estàndards són difícils de comprendre i, per tant, d'acceptar.
  • Depenen del punt de vista i del context, i tenen també diferents interpretacions.
  • Són il·limitats, mai acabes d'afegir metadades.
  • Depèn de com s'utilitzin, poden ser superflus.

A més, hi ha el perill que es faci un mal ús de les metadades: la qüestió més important en utilitzar-les és aplicar-les uniformement a la col·lecció de documents i utilitzar-les amb precisió. Quan s'utilitzen les metadades inapropiadament, amb la intenció de guanyar major visibilitat a Internet, es corre el risc de comprometre el ranking en els motors de cerca. A més, des del punt de vista de l'accessibilitat, s'estaria proporcionant informació enganyosa o inexacta sobre un recurs.

Enllaços externs[modifica | modifica el codi]