Metadades

De Viquipèdia
Dreceres ràpides: navegació, cerca

Les metadades són la via per a comunicar informació sobre un document o sobre els recursos que directament es relacionen amb la seva accessibilitat. Són, a més, una eina bàsica en l'organització, classificació i descripció de la informació, tasques pròpies de l'Arquitectura de la Informació.

Definició[modifica | modifica el codi]

Metadada és tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d'un recurs, dada o objecte amb la finalitat de facilitar la seva recuperació, autentificació, avaluació, preservació i/o interoperabilitat.

Així, en definir un grup de metadades per a un objecte l'estem descrivint de manera que aquesta informació ajuda els usuaris a identificar si l'objecte els és útil i a localitzar-lo ràpidament.

Són exemples de metadades:

  • L'encapçalament d'un fitxer multimèdia (imatge, vídeo o àudio).
  • El resum d'un document.
  • El catàleg d'una base de dades.
  • Les paraules extretes d'un text.
  • Les "pàgines grogues".


A més, a Internet també es poden trobar en altres formats:

  • Índexs de documents continguts a una intranet.
  • Adreces IP o DNS.
  • Encapçalaments de missatges de correu electrònic.
  • Descripció dels arxius accessibles via FTP.
  • Termes extrets pels motors de cerca

Origen[modifica | modifica el codi]

Les metadades tenen el seu origen en els catàlegs, probablement inventats pels Sumeris. Al llarg dels segles les taules de fang que aleshores s'utilitzaven van anar evolucionant fins a esdevenir llistes manuscrites i, posteriorment, es van convertir, gràcies a l'aparició de la impremta, en catàlegs de llibres. Aquests primers catàlegs eren impresos que, simplement, ordenaven alfabèticament els elements sense cap altra mena de classificació més sofisticada. Un gran avenç va ser, pels volts de l'any 1900, l'aparició de les targetes, les quals, entre altres avantatges, podien ser actualitzades. D'aquesta manera els catàlegs es van convertir en un conjunt de targetes, una per a cada llibre, amb les seves corresponents entrades que podien ser, per exemple: títol, autor i tema. Així, la targeta indicava la localització de l'element en la biblioteca i, a més, proporcionava informació addicional sobre ell. És a dir, donava la informació mínima per a identificar el recurs.

En la dècada dels 60 els mètodes de producció en massa, deguts a la irrupció dels ordinadors, van fer necessari disposar de més d'una còpia dels catàlegs que ja existien, però els catàlegs de targetes no podien absorbir aquests nous requeriments. Va ser aleshores quan es va fer palesa la necessitat de desenvolupar estàndards de codificació, les avui en dia anomenades "metadades".

El seu ús ha estat recomanat pel W3C o World Wide Web Consortium, com punt de control amb nivell de Prioritat 2 per a l'accessibilitat a la Web.

Evolució de les Metadades a la Web[modifica | modifica el codi]

A la Web, les metadades no estan governades per autoritats centrals (com una biblioteca nacional), sinó que consisteixen en múltiples grups, organitzacions i persones treballant independentment. Des que va sorgir internet s'han anat desenvolupant diferents estàndards dirigits a diferents objectius:


1. MAchine Readable Cataloguing (MARC)

MARC va ser concebut per a transmetre dades d'un sistema a un altre i va ser revolucionari perquè va incorporar camps de llargada variable. Conté diversos camps:

  • ".directori": són alfanumèrics, de llargada fixa, que determinen el nom, llargada i on comença cada camp de descripció.
  • ".control": s'utilitzen per a classificar la informació en termes de temps i lloc.
  • "de descripció variable": contenen dades de catalogació tradicionals, i són precedits per un codi definit que va des de 001 a 999 on, per exemple, el codi 650 és la matèria per tòpic del recurs.


Des que es va generar MARC, es van desenvolupar 20 estàndards més a escala nacional (DenMARC, AZMARC, CHMARC, UKMARC, CAN/MARC, etc.). El més conegut és USMARC (United States MARC), també anomenat LC-MARC, que va ser desenvolupat el 1968 per la Biblioteca del Congrés dels Estats Units. A més, des del 1977 existeix una interllengua entre els diferents estàndards MARC, creada gràcies a un esforç de cada agència bibliogràfica nacional, on es van crear traductors des del seu estàndard fins a arribar a un esquema UNIMARC (UNiversal MARC) i viceversa.


2. ISO 23950 (Z39.50)

Té el seu origen l'any 1988 als Estats Units, moment en què fou aprovat per la NISO (National Information Standards Organization).

És un protocol per a la generació de consultes de múltiples catàlegs "on line". El seu punt més fort és que permet a un usuari d'un sistema buscar i recuperar la informació sense saber la sintaxi utilitzada pels altres sistemes. Posseeix un protocol XML anomenat XER i és portable a SQL.

Evolució de les Metadades.

Tant MARC com Z39.50 són emprats àmpliament per les entitats bibliotecàries tradicionals i és probable que ho continuïn sent per un temps a causa de l'alt cost en què han d'incórrer aquestes entitats per a mutar de format, a més del poc finançament amb el qual compten per a dur a terme aquestes tasques.


3. Standard Generalized Markup Language (SGML)

Les seves arrels es remunten al 1969, quan als laboratoris IBM es desenvolupà Generalized Markup Language (GML), llenguatge que evolucionà fins al 1974, moment en el qual es va passar a dir SGML. La International Organization for Standardization (ISO) el va aprvar i va publicar el llenguatge el 1984 amb el nom d'estàndard ISO 8879.

Aquest estàndard internacional consta d'un conjunt de regles per a descriure l'estructura d'un document, de tal manera que poden ser intercanviats a través de plataformes computacionals. SGML, doncs, és un llenguatge de marcatge de documents extremadament flexible i és, avui en dia, la base dels llenguatges de marcatge més emprats.

En SGML un document està definit en funció de l'estructura de les entitats que el conformen. Aquestes entitats s'organitzen en una estructura lògica jeràrquicament, determinant l'estructura dels elements del document. Les entitats, a més, poden ser compartides per diferents documents. El marcatge que efectua es porta a terme mitjançant delimitadors i etiquetes de la forma:

<etiqueta> element </etiqueta>.

Aquestes etiquetes poden estar aniuades i es representen mitjançant el conjunt de caràcters bàsics d'acord amb l'estàndard ISO 8879.

En el context històric de les metadades la introducció de SGML va jugar un paper fonamental, ja que va aconseguir establir un nou paradigma en el qual les dades deixen de ser només dades: els documents SGML contenen per separat (en el sentit lògic) els continguts, l'estructura i el format.


4. Document Type Definition (DTD)

Els seus orígens es remunten al 1978 quan, també als laboratoris IBM, es van publicar els primers DTD com a part del ja explicat desenvolupament SGML.

Així doncs, DTD són aplicacions d'SGML utilitzades per a definir les estructures o bé de múltiples documents o bé d'un tipus en especial. Aquestes estructures es defineixen indicant regles tals com noms dels elements permesos, el contingut de cada tipus d'element i l'ordre en el qual els elements poden aparèixer.

Un dels més coneguts és el DTD d'HTML (HyperText Markup Language), que explicarem amb més detall més endavant, que defineix les regles que donen llum a aquest massiu llenguatge de marcatge de pàgines Web. Un altre exemple d'ús dels DTD el trobem a les biblioteques, on se n'utilitzen de diversos tipus, com ara EAD (Encoded Archival Description) per a la descripció bibliogràfica, i TEI (Text Encoding Initiative) per al marcat de les versions electròniques de textos culturals.


5. The Warwick Framework

Aquesta iniciativa va néixer l'abril del 1996, moment en el qual es va portar a terme un workshop a la Universitat de Warwick. Aquesta trobada va comptar amb més de cinquanta representants de bibliotecologia, estàndards d'Internet, marcat de text i projectes de biblioteques digitals.

El concepte que s'amaga darrere d'aquesta iniciativa és mantenir múltiples conjunts de metadades independents uns dels altres en un sol lloc o .framework., amb l'objectiu de proveir de mitjans per a administrar i accedir a conjunts de metadades per separat. Aquest marc permet l'existència de diferents sintaxis en cada conjunt de metadades d'acord amb els requerimetns semàntics, promovent la interoperatibilitat i extensibilitat en el moment de manipular (de forma selectiva) aquests paquets per part dels agents o sistemes que l'utilitzen.

Els framework poden tenir dos tipus d'objectes:

  1. Paquets: està definit com un conjunt de metadades tal com pot ser Dublin Core.
  2. Contenidor: està definit com el lloc on s'emmagatzemen altres contenidors o paquets.

El contenidor pot tenir dos tipus d'estats:

  • Transients: és un objecte de transport entre repositors clients i agents.
  • Persistents: són els que perduren en el temps i són accessibles mitjançant un identificador universal.


Relacions entre llenguatges de metadades.

Aquest framework va ser resultat d'una anàlisi de Dublin Core i va influenciar molt en la creació de Resource Description Framework (RDF).

Així doncs, un cop vista l'evolució de les metadades a la web, en podem extreure, entre d'altres, una conclusió clara: per tal que les metadades es puguin implementar, és necessari un llenguatge. De llenguatges n'existeixen molts, que acostumen a ser derivacions i perfeccionaments dels seus precedents, tal com es pot veure a la figura de la dreta.

Característiques Importants[modifica | modifica el codi]

Es poden distingir tres aspectes fonamentals en relació a les metadades a la Web:

  • És necessària la identificació:

Un aspecte molt important en la descripció d'objectes informatius a la Web és la necessitat d'identificar-los i de tenir un mètode per a accedir a ells i a descripcions d'ells segons sigui necessari. Per a obtenir el màxim benefici en l'ús de metadades és necessari que els identificadors tinguin quatre característiques:

  • Ser únics
  • Ser estables i segurs
  • Ser d'accés públic
  • Ser persistents


Com veurem als "contres" de les metadades, aquestes condicions són molt difícils de complir perquè són necessàries bases socials per a la seva implantació.

  • Les descripcions es fan mitjançant sistemes de metadades:

La forma en què es generen els sistemes de metadades a la Web difereix dels utilitzats a les biblioteques tradicionals. Les metadades a la Web no apunten a realitzar descripcions exhaustives dels recursos, sinó a crear sistemes que utilitzen en conjunt els diferents marcs. Les metadades han de ser granulars, essent aquesta una característica necessària per a la subsistència d'aquestes. És per això que és comú trobar descripcions realitzades mitjançant camps Dublin Core i identificades mitjançant DOI.

  • Les metadades estan estretament lligades a l'objecte que descriuen:

Les descripcions de metadades estan estretament lligades a les característiques rellevants dels objectes, generant noves dificultats tècniques, ja que es fa necessari enfrontar-se als canvis que experimenten els objectes al llarg del temps. A la Web els objectes es poden crear dinàmicament, establint dificultats que fins avui en dia, tot i existir la tecnologia necessària, no han estat solucionades.


Forma i Llenguatge[modifica | modifica el codi]

Tal com ja hem explicat, el mètode més comú per a crear metadades és en forma d'etiquetes Meta.


Les etiquetes <meta>, estan localitzades a la secció HEAD d'un document HTML. La seva estructura bàsica és la següent:

   <HEAD>
       <Meta name="Author" content="Myself">
   </HEAD>

A aquesta estructura se li poden col·locar altres etiquetes. Algunes de les més comunes són:

  • Keywords: cada document ha de tenir paraules clau. Aquestes han d'aparèixer en el cos del text del document.
  • Description: cada document ha de tenir una descripció. Les paraules que utilitzis per a descriure el teu document han d'aparèixer en el cos del text del document.
  • Autor: cada document ha de tenir almenys un autor. Aquest pot ser una organització o més d'un individu, o ambdós.
  • Language: indica l'idioma principal del document. Existeix una llista de codis per als idiomes més comuns. Per exemple, el còdic d'idioma per a l'anglès parlat a Estats Units és en-us.
  • Robots: proporciona instruccions als rastrejadors de com rastrejar o indexar el document i altres documents enllaçats amb ell.
  • Rating: revela informació sobre el contingut del seu document per als usuaris. Això els ajuda a ocultar la informació que pot no ser adequada per a tots els visitants.
  • Copyright: inclou el nom dels propietaris del copyright i una declaració de l'ús lícit.


Com dèiem, però, existeixen molts llenguatges, i cada vegada existeix més software per a la creació, implementació i gestió de metadades. Aquestes eines d'índole, objectius i procedències diverses, podem tipificar-les genèricament com:

  • Plantilles que funcionen en mode servidor i aplicacions client.
  • Software lliure, de font oberta o comercial.
Generador Web de metadades


A continuació s'assenyalen alguns exemples d'aquestes eines classificades en funció de l'ús al qual es destinin:

  • Aplicacions per a la creació de metaetiquetes: per a incloure en la font d'un document electrònic HTML/XHML.

Hi ha webs que a través d'una plantilla et genera les etiquetes html corresponents, tal com es mostra a les figures de la dreta. Alguns exemples en són:


  • Software per a la creació de metadades: normalment segons un esquema particular, om Dublin Core, entre d'altres.

Hi ha webs com DC-DOT que et permeten tant extreure informació de metadades del web com generar-ne. Podem investigar part del codi de qualsevol pàgina Web. Depenent del format en què volem que ens surti la informació, veurem una plantilla o una altra.

Classificació i aplicació[modifica | modifica el codi]

Les metadades s'apliquen en molts camps diferents i es presten a molts tipus de classificacions, com per exemple la següent:

Taula dels tipus aplicacions i exemples de les metadates

Analitzant-los més a fons:

  • Administratius: es refereixen a informació per a facilitar l'administració dels recursos.

Es troben dades com:

    • Quan i com va ser creat l'objecte.
    • Qui és el responsable de controlar l'accés o registrar el contingut
    • Quines activitats de processament es van dur a terme en relació al contingut.
    • Quines restriccions d'accés o ús són aplicables.

Exemple de metadades d'aquest caire: metadades per a la preservació a llarg termini d'objectes digitals i, depenent del context, a la seva reconstrucció en cas de pèrdua.

  • Descriptius i de descobriment: es refereixen a la informació proveïda per a trobar, descriure i distingir cadascun dels objectes d'informació.

L'exemple més clar el trobem a Dublin Core. També hi tenen cabuda metadades per a descriure recursos de dominis específics del coneixement. Un exemple serien les metadades Darwin Core que donen representació a la cerca i recuperació de col·leccions d'història natural, i també els pertinents al Data Documentation Initiative (DDI), un estàndard que serveix per a descriure conjunts de dades per al seu ús en ciències socials.

  • Tècnics i models
    • Tècnics: es refereix als estàndards relacionats amb els elements que descriuen com un sistema funciona i ha de ser interpretat.

Un exemple serien les metadades que descriuen el format d'alguna imatge digital.

  • Models: es relacionen amb les peces d'un objecte d'informació compost.

Dona termes sobre com s'interrelacionen cadascun dels seus components. Per exemple, una metadada pot descriure que, en el context d'un llibre, arribarem a un tema en concret si es donen dos factors: seguint el número de pàgina i que, a més, les pàgines estiguin ordenades.

Esquema

Cal tenir en compte, però, que els límits entre categories són molt difusos, de manera que la majoria de metadades tenen cabuda en més d'una d'aquestes categories. Una classificació formal on s'agrupen metadades només en aquests grups no representa adequadament la realitat. Per tal que s'adeqüi més al món real, utilitzem un diagrama triangular per a visualitzar la classificació.

A la imatge de la dreta hi ha situats uns quants estàndards:

  • Dublin Core se situa gairebé completament en la categoria de metadades descriptives i de descobriment.
  • MPEG-7 se situa prop del centre del diagrama perquè posseeix elements que compleixen amb els tres propòsits generals.

I així successivament.

Selecció de Metaformats[modifica | modifica el codi]

A l'hora de seleccionar un esquema de metadades (Dublin Core, EAD, TEIHeader, LOM, etc.) per a implementar un sistema d'informació digital o en qualsevol projecte d'organització i recuperació d'informació (per exemple, una biblioteca digital) tenim fonamentalment tres opcions:

a. Utilitzar un esquema o vocabulari existent.

b. Crear el nostre propi esquema d'informació.

c. Seleccionar un estàndard i adaptar-lo a les nostres necessitats.

És recomanable que, si ja existeix un esquema apropiat per a descriure la informació que volem organitzar, s'utilitzi l'esquema existent. Tot i això, hem de tenir en compte els següents punts:

  • El tipus d'informació digital que vulguem descriure (textual, àudio, vídeo, etc.) o el domini o particularitats d'aquesta (p. Ex. Informació arxivística, informació geoespacial, objectes d'aprenentatge, etc.).
  • El tipus de projecte per al qual anem a seleccionar un format de metadades:

- Una col·lecció digital formada bé per documents tradicionals digitalitzats, o documents originalment digitals que tenen un fi comú (per exemple un portal, un weblog o qualsevol altre sistema de gestió de continguts).

- Una col·lecció virtual constituïda per un conjunt de metadades que descriuen i qualifiquen l'accés a documents distribuïts d'índole diversa.


  • La metainformació preexistent. En aquest sentit cal avaluar si el projecte compta amb alguna descripció prèvia dels DLO, com per exemple: registres MARC del document original que es digitalitza, metaetiquetes incloses en la capçalera d'un document originalment digital que es descriurà, etc.
  • El personal amb el qual compti el projecte i el seu nivell d'informació en metadades i llenguatges de marcat.
  • La recuperació d'informació que vulguem plantejar i el nivell d'interoperabilitat estable amb altres sistemes o col·leccions digitals similars.


"Pros"[modifica | modifica el codi]

Els beneficis d'utilitzar metadades són diversos i depenen de l'àrea en què s'emprin. En termes generals, però:

  • Adhereixen contingut, context i estructura als objectes d'informació, assistint d'aquesta manera al procés de recuperació de coneixement des de col·leccions d'objectes.
  • Permeten generar diferents punts de vista conceptuals per als usuaris o sistemes, i allibera a aquests últims de tenir coneixements avançats sobre l'existència o característiques de l'objecte que descriuen. Aquests punts de vista conceptuals poden dependre del sistema o de l'usuari que els utilitza.
  • Permeten l'intercanvi de la informació sense haver de fer l'intercavi dels recursos. Aquesta particularitat facilita, entre altres coses, les cerques sobre col·leccions distribuïdes. A més, les metadades permeten una descripció precisa i discreta dels recursos permetent la creació de col·leccions virtuals de descripcions on s'agrupen els objectes d'informació per a satisfer requeriments específics.
  • Permeten un accés als recursos de forma controlada, ja que es coneix amb precisió l'objecte descrit. És aleshores quan és possible establir sistemes de filtratge que permeten generar bases per a una autentificació i mecanismes per a definir graus de confiança sobre les fonts d'informació.
  • Permeten preservar els objectes d'informació permetent-los migrar (gràcies a la informació estructural) per al seu possible ús per part de futures generacions. La informació semàntica dels objectes es manté, disminuint així la pèrdua de coneixement.
  • Són essencials per a sostenir un creixement d'una Web a més gran escala, permetent cerques i integració del coneixement des d'unmajor nombre de fonts heterogènies.


"Contres"[modifica | modifica el codi]

La barrera principal en l'ús de metadades no és tecnològica, ja que es disposa dels elements necessaris per a crear-les. La vertadera barrera és el seu ús social, essent necessari crear una cultura de metadades. Sota certs punts de vista és possible, igual que ho va ser la creació dels catàlegs, però requereix molt de temps per tal de crear l'hàbit en el consumidor.

La seva introducció en el seu ús social és difícil també perquè les metadades es veuen com:

  • Costosos i que necessiten massa temps. Les empreses no en volen produir perquè no hi ha demanda, i els usuaris provats no hi invertiran tant de temps.
  • Els estàndards són difícils de comprendre i, per tant, d'acceptar.
  • Depenen del punt de vista i del context, i tenen també diferents interpretacions.
  • Són il·limitats, mai acabes d'afegir metadades.
  • Depèn de com s'utilitzin, poden ser superflus.

A més, hi ha el perill que es faci un mal ús de les metadades: la qüestió més important en utilitzar-les és aplicar-les uniformement a la col·lecció de documents i utilitzar-les amb precisió. Quan s'utilitzen les metadades inapropiadament, amb la intenció de guanyar major visibilitat a Internet, es corre el risc de comprometre el ranking en els motors de cerca. A més, des del punt de vista de l'accessibilitat, s'estaria proporcionant informació enganyosa o inexacta sobre un recurs.


Enllaços externs[modifica | modifica el codi]