Cercador visual

Un cercador visual és un motor de cerca dissenyat per cercar informació a internet a través de l'entrada d'una imatge o un motor de cerca amb un desplegament visual dels resultats de cerca. La informació pot consistir en pàgines web, imatges o altres tipus de documents. Actualment la utilització d'aquests motors de cerques és predominant en dispositius mòbils, ja que permet obtenir informació sobre objectes desconeguts en qualsevol moment i lloc. Existeixen diverses tècniques per a realitzar cerques visuals, i la més utilitzada és la consulta d'imatges mitjançant exemple

Classificació[modifica]

Depenent de la naturalesa del cercador es poden distingir dos grans grups, els que tenen com a objectiu trobar informació visual (imatge, vídeo...) i els que presenten un desplegament visual dels resultats.

Cercadors d'informació visual[modifica]

Cercador d'imatges[modifica]

Un cercador d'imatges és un motor de cerca que té com a objectiu trobar una imatge. La cerca es pot fer a partir de paraules claus (text), una altra imatge o un enllaç web a una imatge. Els resultats obtinguts depenen dels criteris de cerca, tals com metadades, distribució de color, forma, etc. i de la tècnica de cerca que utilitza el cercador.

Tècniques de cerca d'imatges[modifica]

Actualment s'utilitzen dues tècniques en la cerca d'imatges:

Cerca mitjançant metadades: la cerca d'imatges es basa en la comparació de metadades associades a la imatge com paraules claus, text, etc. i s'obté un conjunt d'imatges ordenades per rellevància. Les metadades associades a cada imatge poden fer referència al títol de la imatge, format, color, etc. i poden ser generades de manera manual o automàtica. Aquest procés de generació de metadades s'anomena indexació audiovisual.

Cerca mitjançant exemple: en aquesta tècnica, també anomenada consulta d'imatges mitjançant exemple, els resultats de la cerca s'obtenen gràcies a la comparació entre imatges mitjançant tècniques de visió per ordinador. Durant la cerca s'analitza el contingut de la imatge, com per exemple color, formes, textures o qualsevol informació visual que es pot extreure de la imatge. Aquest sistema requereix una complexitat computacional major, però és més eficient i fiable que la cerca mitjançant metadades. També existeixen cercadors d'imatges que combinen les dues tècniques de cerca, ja que la primera cerca es fa introduint un text, i a continuació, a partir de les imatges obtingudes es pot refinar la cerca utilitzant com a paràmetres de cerca les imatges que apareixen com a resultat.

Cercador de vídeos[modifica]

Un cercador de vídeos és un motor de cerca destinat a cercar vídeo a la xarxa. Alguns cercadors de vídeo realitzen la cerca directament a internet, mentre que d'altres allotjen els vídeos d'entre els quals es fa la cerca. Alguns cercadors permeten també utilitzar com a paràmetres de cerca el format o la longitud del vídeo. Normalment els resultats venen acompanyats d'una captura en miniatura del vídeo.

Tècniques de cerca de vídeos[modifica]

Actualment, pràcticament tots els cercadors de vídeo es basen en paraules clau (cerca mitjançant metadades) per a realitzar les cerques. Aquestes paraules clau es poden trobar en el títol del vídeo, en text adjunt al vídeo o poden ser definides per l'autor. Un exemple d'aquest tipus de cercadors és youtube, un dels cercadors de vídeos més famosos d'internet. Alguns cercadors generen les paraules clau manualment, mentre que d'altres utilitzen algorismes per analitzar el contingut audiovisual del vídeo i generar les etiquetes. La combinació d'aquests dos processos millora la fiabilitat de la cerca.

Cercador de models 3D[modifica]

Un cercador de models 3D té com a objectiu final trobar l'arxiu d'un objecte modelat en 3D d'entre una base de dades o xarxa. A simple vista pot semblar innecessària la implementació d'aquest tipus de cercadors, però a causa de la contínua inflació documental d'internet cada vegada es fa més necessària la indexació de la informació.

Tècniques de cerca de models 3D[modifica]

Tradicionalment s'han utilitzat cercadors basats en text (paraules clau), en on els autors del material o els usuaris d'internet contribueixen en el procés de generació de paraules clau, però, com que no és sempre efectiva, recentment s'ha investigat en la implementació de cercadors que combinen la cerca mitjançant text amb la cerca per comparació de dibuixos 2D, dibuixos 3D i models 3D. La Universitat de Princeton ha desenvolupat un cercador que combina tots aquests paràmetres per a realitzar les cerques, augmentant així l'eficiència del cercador.^[1]

Cercador per a mòbils[modifica]

La cerca de continguts mitjançant imatges s'ha estès als dispositius mòbils a causa de l'extensió d'aquests a la societat i al gran ús que se’ls dona. La idea bàsica consisteix en, mitjançant una fotografia captada amb un dispositiu mòbil, fer una cerca per a identificar productes, comparar preus i trobar informació sobre qualsevol contingut susceptible de ser fotografiat. Hi ha aplicacions que ja permeten fer això.

Tradicionalment, les cerques de continguts multimèdia es duien a terme mitjançant la cerca de paraules clau a les metadades que prèviament havien estat indexades manualment dins d'una base de dades (Ground Truth), les quals corresponen al contingut d'un repositori (servidor que guardava tot el contingut). Aquest mètode de cerca resulta ineficient i poc acurat des del punt de vista dels resultats obtinguts dins de les possibilitats que ofereix.

Recentment, l'avanç tecnològic ha convertit els dispositius mòbils en potents processadors d'imatge i vídeo (amb càmeres d'alta resolució, pantalles a color, acceleradors de hardware gràfic…) i s'ha obert un ventall de noves possibilitats per a la cerca visual a través de l'anàlisi de continguts, és a dir, del processament de la imatge, sense tenir en compte les metadades, cosa que permet que la cerca sigui més eficient i acurada, explotant totes les possibilitats disponibles.

Esquema de blocs[modifica]

Exemple de dues imatges amb mateixos colors però diferent contingut

La idea fonamental és, a partir d'una imatge capturada, de la que es vol obtenir informació, es processa, s'extreuen les característiques visuals i es comparen amb les de la resta de continguts presents a la base de dades (extretes prèviament mitjançant indexació automàtica).

El resultat d'això són imatges que tenen les mateixes característiques (color, textura, forma…), però que visualment poden ser molt diferents.

Per exemple, una imatge pot tenir un mateix histograma de color però un contingut totalment diferent). En el cas de la figura anterior, si féssim una anàlisi del color, les dues imatges següents tindrien el mateix resultat però no són la mateixa.

És per aquest motiu que posteriorment s'ha de fer una verificació humana, una verificació geomètrica.

L'estructura bàsica de la cerca es pot veure a la figura:

Model bàsic de la cadena de cerca de continguts a partir d'una imatge

Captura de la imatge de consulta[modifica]

En general, les imatges capturades mitjançant dispositius mòbils tenen pitjor qualitat que aquelles capturades amb càmeres digitals, aquestes tendeixen a presentar problemes d'enfocament, de moviment, etc. A més a més, les condicions d'il·luminació poden ser molt diferents depenent del lloc i/o moment de la captura. Aquesta diversitat pot dificultar el procés de cerca si no es té en compte a l'hora de desenvolupar el sistema.

Bases de dades per a cerca robusta[modifica]

És per aquest motiu que és important un bon repositori d'imatges referència perquè el reconeixement sigui efectiu. El que es pretén és una cerca robusta.

Es considera una bona BBDD:

Bones imatges de referència (ground truth).
Diferents modes de captura (flash, focus…).
Diferents condicions d'il·luminació.
Haurien de capturar diferents perspectives, distorsions, enfocaments.
Haurien de representar diferents categories (DVD, CD, Productes…).
Haurien de contenir objectes sòlids de tal manera que es puguin estimar transformacions entre la consulta i la imatge de referència.

Extracció de característiques[modifica]

La idea principal de l'extracció de característiques és que mitjançant la informació visual d'una imatge extreure aquells punts més rellevants (punts d'interès) per tal de poder utilitzar-los posteriorment amb algun objectiu concret.

Aparellament de punts[modifica]

Un cop extretes les característiques de la imatge i obtinguts els punts d'interès, es fa servir un aparellament de punts (matching) per trobar les correspondències entre ambdues imatges. Normalment s'utilitzen funcions com la distància euclidiana per calcular els aparellaments.

Un cop fet l'aparellament, és bastant comú que un percentatge d'ells sigui erroni, si es dona una solució sense eliminar aquest percentatge, la solució no serà correcte, llavors per tal que la solució sigui correcta és necessari eliminar els aparellaments incorrectes fent una verificació geomètrica.

Verificació geomètrica[modifica]

Per tal de fer una verificació geomètrica, és a dir, comprovar que els punts d'interès de les dues imatges a comparar són correctes, ja que la seva distribució explicada per un conjunt de paràmetres model, poden estar subjectes al soroll, o valors atípica i per tant siguin punts erronis.

Generalment s'utilitza l'algoritme RANSAC, aquest va ser publicat per primera vegada per Fischler i Bolles a SRI International el 1981. És un mètode iteratiu per calcular els paràmetres d'un model matemàtic d'un conjunt de dades amb possibles valors atípics, consisteix a escollir els tres aparellaments més fiables de tots els fets anteriorment i produeix un resultat correcte només amb una probabilitat major al 99%, per tant molt fiable.

Estructures de client i servidor depenent de la tecnologia[modifica]

La tecnologia no és homogènia en tots els dispositius, de manera que el procés de cerca sempre és el mateix però l'etapa on es duu a terme pot variar.

Per a explicar les topologies considerem que el client és el dispositiu mòbil i el servidor és la BBDD on es disposa tot el contingut.

Les diferents tipologies bàsiques que es proposen són:

Model A: Client transmet la imatge proposada per a la cerca al servidor i és aquest el que porta a terme tot l'algoritme d'extracció de característiques i comparació. D'aquesta manera tot el processat el fa íntegrament el servidor.
Model B: Client és capaç d'extreure les característiques de la imatge proposada i transmetre-les al servidor perquè aquest faci la comparació i retorni els resultats.
Model C: Client és prou potent per a extreure les característiques i importa tota la BBDD del servidor i és el mateix client el que compara les característiques extretes amb les característiques de tota la BBDD. (El servidor no fa cap mena de processat).

No sempre és tan ideal les situacions i, normalment, el que se sol fer és un híbrid de les tecnologies en funció de la mida de la base de dades, el processador del dispositiu i la connexió a xarxa que hi hagi disponible en aquell moment (3G, LAN…).

En cada cas, la recuperació de resultats ha de treballar amb condicions de memòria escasses, problemes computacionals, bateria i restriccions d'amplada de banda.

Aplicacions[modifica]

A continuació s'esmenten diferents aplicacions.

Kooaba i TinEye Mobile[modifica]

Kooaba Arxivat 2014-12-11 a Wayback Machine. i TinEye són tots dos motors de cerca dissenyats per buscar informació a Internet a través de l'entrada d'una imatge. La informació pot consistir en pàgines web, imatges o altres tipus de documents. En aquest cas, són dues aplicacions gratuïtes que permeten aquesta cerca.

Google Googles[modifica]

Google Gogles^{[Enllaç no actiu]}, és un servei de Google disponible per Android que permet reconèixer qualsevol objecte mitjançant fotos realitzades amb un mòbil, i retornar la cerca d'informació relacionada. Actualment aquest sistema pot arribar a reconèixer llocs del món, obres artesanals, logotips, monuments, text, revistes, llocs interessants, i fins i tot serveix com a escàner de codis de barres. Aquesta aplicació està disponible en diferents idiomes.

Style-Eyes[modifica]

Style-Eyes és una aplicació on a partir de fer una foto a una peça de roba (samarreta, sabates...) que t’agradi, feta a qualsevol lloc, l'aplicació et farà una cerca a través de més de 400 tendes, per poder saber on comprar-ho. A part també et proposa tot un seguit peces semblants, amb diferents preus, per tal d'ajustar-se al pressupost del client.

Catchoom[modifica]

Catchoom són unes ulleres que et permeten fer la compra des de casa, és a dir, pots accedir a la teva cuina amb aquestes ulleres, i fotografiar qualsevol consumible, on tot seguit és analitzat per les ulleres, i et diu el preu que té i si vols afegir-ho a la compra, un cop finalitzat et fan un cobrament en línia i et porten la compra a domicili.

Flow i Firefly[modifica]

Flow és una "Interface" de realitat augmentada, el que et permet escanejar elements per comprovar el preu amb l'oferta d'Amazon.

Per altra banda Firefly, ja vindrà incorporada directament en la iOS. Tindrà la mateixa funció que Flow però amb molta més potencia de cerca, buscant productes per totes les tendes físiques existents.

Nokia Point & Find[modifica]

Nokia Point & Find, és una aplicació mòbil, que permet apuntar la càmera del mòbil de Nokia a objectes i imatges per tal de trobar més informació sobre aquests. Es tracta d'una tecnologia de cerca visual que utilitza la càmera del mòbil per obtenir més informació mitjançant l'ús de reconeixement d'imatges per identificar objectes, imatges, i llocs físics en el món, en temps real.

Cercadors amb desplegament visual[modifica]

Un altre tipus de cercador visual són els cercadors amb desplegament visual, que presenten els resultats d'una manera alternativa a la tradicional successió d'enllaços. Mitjançant algun tipus d'estructuració visual dels resultats, ja siguin gràfics, diagrames, previsualitzacions de les webs, etc. es pretén mostrar els resultats (ja siguin imatges, documents, enllaços, etc.) de tal manera que sigui més senzill trobar el material desitjat. Aquest tipus de cercadors presenten un nou concepte en la presentació dels resultats, però les tècniques de cerca emprades són les mateixes que en els altres tipus de cercadors.

Referències[modifica]

↑ «A Search Engine for 3D Models». Princeton University.

Vegeu també[modifica]

[1] «A Search Engine for 3D Models». Princeton University.

[1]