Cerca multimodal

De Viquipèdia
Dreceres ràpides: navegació, cerca

La cerca multimodal és un tipus de cerca que utilitza més d'un mètode per a obtenir resultats rellevants, pot utilitzar qualsevol tipus de cerca, cerca per paraula clau, cerca per concepte, cerca mitjançant exemple, etc.

Introducció[modifica | modifica el codi]

Un motor de cerca multimodal intenta imitar a la flexibilitat i agilitat amb què actua la ment humana per a crear i processar idees i descartar característiques irrellevants. De manera que com més elements es tinguin per poder comparar, més precisa pot arribar a ser la cerca.

Els motors de cerca multimodals permeten l'ús de moltes entrades de diferent naturalesa i mètodes de cerca de manera simultània amb la possibilitat d'agrupar els resultats en una combinació de la rellevància dels elements en el conjunt de la cerca. També n’hi ha que permeten una retroalimentació dels resultats per a millorar la cerca i refinar-la cada cop més.

Esquema d'una Cerca Simple

Actualment els dispositius mòbils que en un principi tenien la funció de comunicar-se amb altres dispositius, han anat desenvolupant fins al punt que podem realitzar infinitat de funcions des de qualsevol lloc, gràcies a la connexió a internet i al gps. Pantalles tàctils, sensors de moviment, reconeixement de veu són algunes de les característiques que tenen els dispositius mòbils d'avui en dia, anomenats smartphones. Totes aquestes característiques i funcionalitats dels dispositius mòbils fan possible poder realitzar cerques multimodals des de qualsevol part del món i en qualsevol moment.

Elements de la cerca[modifica | modifica el codi]

En les cerques multimodals, el text pot ser enriquit amb elements multimèdia com ara imatges, vídeos, àudio, la veu humana, documents i dades del món real per obtenir més precisió en els resultats, els quals també poden ser de diferent naturalesa.

Encara avui en dia s'estan descobrint diferents maneres de poder interaccionar amb un cercador, tant pel que fa als elements d'entrada per poder realitzar la cerca com a la varietat dels resultats que s'obtenen.

Context personal[modifica | modifica el codi]

Moltes cerques des de dispositius mòbils es basen en els serveis basats en la localització (LBS),actualment de 3a generació, que utilitzen la ubicació de l'usuari per interaccionar amb les aplicacions. El navegador fa servir el GPS del dispositiu mòbil si està disponible, o bé fa el càlcul aproximat basat en la triangulació de torres cel·lulars, sempre amb el permís de l'usuari, el qual ha d'estar d'acord a compartir la seva localització amb l'aplicació en el moment de descarregar-la. Així doncs, les cerques multimodals no només utilitzen les dades o elements audiovisuals que proporciona l'usuari directament sinó que també es pot ajudar del context on es troba l'usuari, ja sigui la seva ubicació, el seu idioma, l'hora en aquell moment, la pàgina web o document on està navegant o altres elements que poden ajudar a realitzar una cerca més concreta adaptada a cada situació.

Exemple de consultes contextuals

Classificació dels resultats[modifica | modifica el codi]

El cercador realitza per separat una cerca de més a menys rellevància de cada element introduït directament o indirectament (context personal) i posteriorment combina tots els resultats realitzant una fusió on cada element té un pes associat a cada tipus de descriptor.

El cercador analitza els descriptors de cada element i els etiqueta, així pot comparar aquestes etiquetes amb les que estan indexades en les bases de dades i poder fer una classificació dels resultats de més a menys rellevants.

Exemple d'una Cerca Multimodal

És important definir la importància que se li dóna a cada element, hi ha cercadors que ho fan automàticament però n’hi ha que es pot modificar de manera manual, donant més o menys importància individualment a cada element del conjunt de la cerca. És important també per part de l'usuari, intentar introduir informació rellevant per a la cerca, ja que massa informació podria confondre el sistema i realitzar una cerca que no s'acosta al que es vol. Amb les cerques multimodals s'obtenen millors resultats que les cerques simples, però a la vegada, al tenir més informació a processar a l'entrada, també poden tardar més temps a ser processades i necessitar més memòria.

Un motor de cerca eficient interpreta les consultes dels usuaris, extrapola les seves intencions i aplica una estratègia de cerca amb la qual es puguin obtenir resultats rellevants, és a dir, que s'adapta a cada consulta d'entrada independentment, i també facilita a l'usuari la manera com introdueix els múltiples elements per a la cerca, així com els resultats que s'obtenen de la combinació dels elements d'entrada.

Aplicacions[modifica | modifica el codi]

Avui en dia els cercadors multimodals que hi ha no són gaire complexos, els més senzills com ara Google Images «Enllaç». o Bing«Enllaç»., utilitzen text i imatges com a fonts d'entrada per extreure imatges de sortida. MMRetrieval [1]és un motor de cerca experimental que utilitza informació multilingüe i multimèdia, mitjançant una interfície web integral i permet distribuir la importància dels elements per uns índexs. El que fa és cercar de manera paral·lela els diferents elements d'entrada i fusionar els resultats a través de diferents mètodes que es poden escollir. També proporciona diferents etapes de recuperació així com la línia original del text simple per a poder realitzar comparacions. Aprofitant els serveis basats en la localització, es poden trobar diferents aplicacions per a dispositius mòbils basades en el context personal de l'usuari i el text, la imatge, per exemple la càmera en temps real, la veu de l'usuari o altres elements audiovisuals que proporcioni l'usuari.

Referències[modifica | modifica el codi]

  • Query-Adaptive Fusion for Multimodal Search,Lyndon Kennedy, Student Member IEEE, Shih-Fu Chang, Fellow IEEE, and Apostol Natsev«PDF».
  • Context-aware Querying for Multimodal Search Engines, Jonas Etzold, Arnaud Brousseau, Paul Grimm and Thomas Steiner «PDF».
  • Apply Multimodal Search and Relevance Feedback In a Digital Video Library, Thesis of Yu Zhong «PDF».
  • Aplicació rica d'internet per a la consulta amb text i imatge al repositori de vídeos de la Corporació Catalana de Mitjans Audiovisuals, Ramon Salla, Universitat Politècnica de Catalunya «PDF».
  • MMRetrieval