Cercadors de vídeos

De Viquipèdia
Dreceres ràpides: navegació, cerca

Els cercadors de vídeos són programes informàtics dissenyats per trobar vídeos emmagatzemats en dispositius digitals, ja sigui en servidors a través d'Internet o en unitats de memòria d'un mateix equip informàtic. Aquestes cerques es poden fer gràcies a la indexació audiovisual, que amb certs processos d'anàlisi i mitjançant etiquetes descriptives, extreu informació del material audiovisual i ho anota en forma de metadades, les quals seran rastrejades per els motors de cerca.


Utilitat[modifica | modifica el codi]

La principal utilitat d'aquests cercadors rau en la creixent creació de continguts audiovisuals i la necessitat de gestionar-los correctament. La digitalització dels arxius audiovisuals i l'establiment d'Internet, ha provocat que tinguem grans quantitats d'arxius de vídeo emmagatzemats en grans bases de dades, la recuperació dels quals pot arribar a ser molt difícil pels grans volums de dades i per la bretxa semàntica que existeix.

Criteris de cerca[modifica | modifica el codi]

Els criteris de cerca que utilitza cada cercador depenen de la naturalesa d'aquest i de l'objectiu de les cerques.

Metadades[modifica | modifica el codi]

Les metadades són informació sobre dades concretes. Podrien ser informació de qui és l'autor del vídeo, la data de creació, la durada i tota la informació que volguéssim extreure i incloure en els mateixos fitxers. A Internet se sol utilitzar un llenguatge anomenat XML per codificar metadades, el qual funciona molt bé a través de web i és llegible per les persones. Així doncs, a través d'aquesta informació continguda en els mateixos arxius, és la manera més fàcil cercar dades del nostre interès.

Metadades internes[modifica | modifica el codi]

Tots els formats de vídeo, en major o menor mesura, incorporen les seves pròpies metadades. El títol, descripció, qualitat de codificació o fins i tot la transcripció del contingut són possibles. Per a revisar aquestes dades hi ha programes com FLV MetaData Injector, Sorenson Squeeze o Castfire. Cada un té unes utilitats i especificacions especials.

Cal tenir en compte que en convertir un format a un altre es poden perdre moltes d'aquestes dades, així que cal comprovar que la informació del nou format és correcta. Per aquest motiu és aconsellable tenir el vídeo en quants més formats possibles millor, ja que així tots els robots de cerca seran capaços de trobar-lo i indexar-lo.


Metadades externes[modifica | modifica el codi]

En la major part de casos cal aplicar els mateixos mecanismes que en el posicionament d'una imatge o d'un contingut textual.

Títol y descripció[modifica | modifica el codi]

Són els factors més importants a l'hora de posicionar un vídeo, ja que aquí trobaran la major part de la informació necessària. Els títols han de ser clarament descriptius i cal eliminar tota paraula o frase que no sigui útil.

Nom del fitxer[modifica | modifica el codi]

Ha de ser descriptiu, incloent-hi les paraules clau que descriguin al vídeo sense necessitat de veure el seu títol o descripció. L'ideal és separar aquestes paraules per guions "-".

Etiquetes[modifica | modifica el codi]

A la pàgina on es trobi el vídeo ha d'haver una llista de paraules clau enllaçades amb el microformat "rel-tag". Aquestes paraules seran les que els cercadors utilitzin com a base a l'hora d'organitzar la seva informació.

Transcripción y subtítulos[modifica | modifica el codi]

Encara que no són completament un estàndard, existeixen dos formats en els quals guardar la informació amb un component temporal en el que s'especifica, un per a subtítols i un altre per transcripcions, que també pot usar-se per als subtítols.


Els formats són SRT o SUB per als subtítols i els TTXT per les transcripcions. Per gestionar aquest tipus de formats és interessant l'ús del programa MP4Box amb el qual es pot aconseguir aquest tipus de fitxers i formats.

Reconeixement de veu[modifica | modifica el codi]

El reconeixement de veu consisteix en una transcripció de la parla (speech-to-text) de la pista d'àudio dels vídeos, creant un arxiu de text. D'aquesta manera i amb l'ajuda d'un extractor de frases es podrà cercar fàcilment si el contingut del vídeo en qüestió és del nostre interès.


Alguns cercadors a part d'utilitzar el reconeixement de la parla per buscar vídeos, també l'utilitzen per trobar el punt concret d'un arxiu multimèdia on se cita una paraula o frase en concret i així anar directament en aquest punt. Gaudi (Google Audio Indexing), un projecte desenvolupat per Google Labs, utilitza la tecnologia del reconeixement de veu per ubicar el moment exacte en què una o diverses paraules han estat dites dins un àudio, permetent a l'usuari dirigir-se directament al moment exacte en què les paraules van ser pronunciades. Si la consulta de cerca coincideix amb alguns vídeos de YouTube, les posicions s'indiquen amb marcadors de color groc, i cal passar el ratolí per sobre per llegir el text transcrit.

Reconeixement de text[modifica | modifica el codi]

El reconeixement de text pot ser molt útil a l'hora de reconèixer personatges dels vídeos a través dels chyrons. Igual que amb els reconeixedors de veu, també hi ha cercadors que permeten, a través del reconeixement de caràcters, reproduir un vídeo des d'un punt concret on aparegui la paraula en qüestió.

TalkMiner, un exemple de cerca de fragments concrets de vídeos per reconeixement de text, analitza cada vídeo una vegada per segon a la recerca de signes identificadors d'una diapositiva, com ara la seva forma i naturalesa estàtica, captura la imatge de la diapositiva i compensa qualsevol angle mort i utilitza el Reconeixement òptic de Caràcters (OCR) per detectar les paraules en les diapositives. Tot seguit, aquestes paraules són indexades al motor de cerca de TalkMiner, que actualment posa a disposició dels usuaris més de 20.000 vídeos d'institucions com la Universitat de Stanford, la Universitat de Califòrnia a Berkeley i TED.

Fitxer:Analisi fotograma.jpg
Exemple de cerca de vídeos a través de l'anàlisi de fotogrames

Anàlisi de fotogrames[modifica | modifica el codi]

A través dels descriptors visuals es pot analitzar els fotogrames d'un vídeo i extreure'n informació que es podrà anotar en forma de metadades. Les descripcions es generen automàticament i poden descriure diferents aspectes dels fotogrames, com ara el color, la textura, la forma, el moviment i la situació.


Criteris d'ordenació[modifica | modifica el codi]

La utilitat d'un motor de cerca depèn de la rellevància del conjunt de resultats que retorna. Si bé pot haver milions de vídeos que inclouen una paraula o frase en particular, alguns vídeos poden ser més rellevants, populars o amb més autoritat que d'altres. Aquesta ordenació té molt a veure amb l'optimització per a motors de recerca.

La majoria dels motors de cerca fan servir diferents mètodes per classificar els resultats i proporcionar el millor vídeo als primers resultats. Tot i així la majoria de programes permeten ordenar els resultats amb diversos criteris.

Ordenació per rellevància[modifica | modifica el codi]

Aquest criteri és el més ambigu i menys objectiu, però moltes vegades és el més proper als nostres desitjos. Depèn totalment del propietari del cercador i l'algorisme que aquest ha preferit. És per això que sempre ha estat motiu de discussió i més ara que els resultats de les cerques estan tan arrelats a la nostra societat. Aquest tipus d'ordenació sol dependre del nombre de vegades que surt la paraula buscada, el nombre de visionats d'aquest, la quantitat de pàgines que enllacen amb aquest contingut i les valoracions que en donen els usuaris que l'han vist.[1]

Ordenació per data de pujada[modifica | modifica el codi]

Aquest és un criteri totalment temporal on es poden ordenar els resultats en funció de la seva antiguitat en el repositori.

Ordenació per nombre de visionats[modifica | modifica el codi]

Ens pot donar una idea de la popularitat de cada vídeo.

Ordenació per valoració dels usuaris[modifica | modifica el codi]

És una pràctica molt comuna en els repositoris la de deixar puntuar els vídeos als seus usuaris, i així un contingut de qualitat i gran rellevància obtindrà posicions altes en la llista de resultats adquirint visibilitat. Aquesta pràctica està molt relacionada amb les comunitats virtuals.


Interfícies[modifica | modifica el codi]

Hem de distingir dos tipus bàsics d'interfícies, unes són pàgines web allotjades en servidors, les quals s'hi accedeix via Internet i cerquen a través d'Internet, i les altres són programes informàtics que cerquen dins d'una xarxa privada.

Internet[modifica | modifica el codi]

Dins les interfícies d'Internet trobem repositoris que allotgen fitxers de vídeo i que incorporen un cercador que sols busca en les bases de dades pròpies, i cercadors de vídeo sense repositori que busquen en fonts de programari externs.

Fitxer:Deilimotion.jpg
Repositori amb cercador de vídeos "Dailymotion"

Repositoris amb cercador de vídeos[modifica | modifica el codi]

Proporcionen allotjament a arxius de vídeo emmagatzemant-los als seus servidors i solen tenir un cercador integrat que busca entre els vídeos pujats pels seus usuaris. Uns dels primers repositoris web, o si més no els més famosos, són els portals Vimeo, Dailymotion i YouTube.

Les seves cerques se solen basar en la lectura de les etiquetes de metadades, els títols i les descripcions que els usuaris assignen als seus vídeos. Els criteris de disposició i ordenació dels resultats d'aquestes cerques solen ser seleccionables entre data de pujada de l'arxiu, nombre de visionats o el que anomenen rellevància. Tot i així els criteris d'ordenació són avui dia la principal arma d'aquests llocs web, ja que en termes de promoció és de gran importància el posicionament que aquests donin al teu vídeo.

Cercadors de vídeos a repositoris[modifica | modifica el codi]

Són pàgines web especialitzades a cercar vídeos per tota la xarxa o per certs repositoris preseleccionats. Funcionen mitjançant aranyes web que inspeccionen la xarxa de forma automatitzada per tal de crear còpies de les webs visitades, les quals seran posteriorment indexades per motors de cerca, i així poder proporcionar cerques més ràpides.

Xarxa privada[modifica | modifica el codi]

Esquema de funcionament

També es pot donar el cas d'un cercador que sols busqui en un arxiu audiovisual emmagatzemat dins un mateix ordinador o com passa en les televisions, en un servidor privat on els usuaris hi accedeixen a través d'una xarxa d'àrea local. Aquests cercadors solen ser programes informàtics o aplicacions riques d'Internet amb unes opcions de cerca molt concretes per tal de ser el màxim de ràpides i eficients a l'hora de presentar els resultats. Es solen fer servir per a grans bases de dades i per tant estan força enfocades per satisfer les necessitats del les empreses de televisió. Un exemple d'aquest tipus de programari seria el Digition Suite, que a part de ser un referent dins aquest tipus d'interfícies, ens toca de molt a prop per ser el sistema d'emmagatzemament i recuperació d'arxius de la Corporació Catalana de Mitjans Audiovisuals.[2]

Aquesta suite en concret i potser el seu punt més fort, és que integra tot el procés de creació, indexació, emmagatzematge, cerca, edició i recuperació en un. Un cop digitalitzat el contingut audiovisual, s'indexa amb tècniques de diferent nivell segons la importància del contingut i s'emmagatzema. L'usuari, quan vol recuperar un arxiu en concret, omple uns camps de cerca com poden ser títol del programa, data d'emissió, personatges que actuen o el nom de la productora, i el robot comença la recerca. Un cop apareguts els resultats i ordenats segons les preferències, l'usuari pot reproduir els vídeos a baixa qualitat per tal de treballar el més ràpid possible. Quan es troba el contingut desitjat, es descarrega amb bona definició, s'edita i es reprodueix.[3]


Vegeu també[modifica | modifica el codi]

Motor de cerca

Metadades

Reconeixement òptic de caràcters

Reconeixement de la parla

Optimització per a motors de recerca

Servei d'allotjament de vídeos

Aranya web

Indexació audiovisual

Biblioteca digital

MPEG-7

Referències[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]