Recuperació d'informació

De Viquipèdia
Salta a: navegació, cerca

Recuperació d'informació (en anglès Information Retrieval) és l'activitat d'obtenció d'informació de recursos pertinents a una necessitat d'informació a partir d'una col·lecció de recursos d'informació. Les cerques es poden basar en metadades o indexació del text complet.

Els sistemes automatitzats de recuperació d'informació s'utilitzen per reduir el que s'ha anomenat "infoxicació" (information overload). Moltes universitats i biblioteques públiques utilitzen sistemes de recuperació d’informació per a proporcionar accés a llibres, revistes i altres documents. Els cercadors web són ún dels sistemes de recuperació d’informació més coneguts.

Descripció[modifica]

Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un motor de cerca web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.

Un objecte és una identitat que està representada per informació en una base de dades. En dependència de l'aplicació aquests objectes poden ser arxius de text, imatges,[1] àudio,[2] mapes,[3] vídeos, etc. Molt sovint els documents no estan emmagatzemats directament en el sistema de recuperació d'informació, sinó que hi estan representats lògicament.

La majoria dels sistemes de recuperació d'informació computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord al seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.[4]

Història[modifica]

La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l’article “As We May Think” de Vannevar Bush l'any 1945.[5] Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren proves amb un grup de textos com la col·lecció Cranfield a partir d’un gran nombre de diferents tècniques, i el rendiment va ser bo.[5] Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.

El 1992, el Departament de Defensa dels Estats Units conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de motors de cerca ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.

L'ús de mètodes digitals per emmagatzemar i recuperar informació ha portat a l’anomenat fenomen de l'obsolescència digital, que succeeix quan una font digital deixa de ser accessible perquè el lector utilitzat per a la lectura d'aquest mitjà o el programari que el controla, ja no es troba disponible.

Els cercadors, com ara Google, són algunes de les aplicacions més populars per a la recuperació d'informació. Bàsicament cal construir un vocabulari, que és una llista de termes en llenguatge natural, un algoritme que inclogui les regles lògiques de la recerca (Taula de veritat) i una valoració dels resultats o quantitat d'informació assolida o possible.

Alguns dels estudiosos més destacats dins d'aquesta subdisciplina són Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen i Ricardo Baeza-Yates.

A vegades es plantegen certs problemes a l'hora de recuperar informació provocats per l'ús del llenguatge natural (entre altres raons): com el silenci (a causa de la sinonímia), el soroll (a causa de la polisèmia), homografia, ambigüitat, etc.

Tipus de models[modifica]

Per recuperar efectivament els documents rellevants per estratègies de recuperació d'informació, els documents són transformats en una representació lògica d'aquests. Cada estratègia de recuperació incorpora un model específic per als seus propòsits de representació dels documents. La figura a la dreta il·lustra la relació entre alguns dels models més comuns. Els models estan categoritzats d'acord a dues dimensions: la base matemàtica i les propietats dels models.

Categorització dels models de recuperació d'informació

Primera Dimensió: Base Matemàtica[modifica]

Segona Dimensió: Propietats dels Models[modifica]

  • Models sense independència entre termes: Tracten els termes com si fossin independents.
  • Models amb dependència entre termes: Permeten representar les interdependències entre termes.

Les mesures de rendiment i correcció[modifica]

Moltes mesures han estat proposades per avaluar el rendiment dels sistemes de recuperació d'informació. Les mesures necessiten una col·lecció de documents i una consulta. A continuació es descriuen algunes mesures comunes, les quals assumeixen que: cada document se sap que és rellevant o no per a una consulta particular. A la pràctica hi poden haver diferents matisos de rellevància.

Precisió[modifica]

La precisió és la fracció de documents recuperats que són rellevants per a la necessitat d'informació de l'usuari.

La precisió té en compte tots els documents recuperats. També pot ser avaluada en un tall determinat del rànquing, considerant només els primers resultats obtinguts del sistema.

El significat i ús de la "precisió" en el camp de la recuperació d'informació, difereix de les definicions d'exactitud i precisió en altres branques de la ciència i l'estadística.[6]

Exhaustivitat[modifica]

L'exhaustivitat és la part de documents rellevants per a la consulta que són recuperats.

És trivial obtenir un 100% d'exhaustivitat si es prenen com a resposta per a una consulta tots els documents de la col·lecció. Per tant, l'exhaustivitat sola no és suficient, sinó que es necessita també mesurar el nombre de documents no rellevants, per exemple amb el càlcul de la precisió.[6]

Proposició de fallada[modifica]

La proposició de fallada, anomenada en anglès fall-out, és la proporció de documents no rellevants que són recuperats, fora de tots els documents rellevants disponibles.

És trivial obtenir un 0% de proposició de fallada si no es retorna cap document de la col·lecció per a una consulta.

Mesura F[modifica]

La mesura F és una mitjana harmònica de la precisió i el recobrat:

Aquesta és coneguda més com la mesura , ja que el recobrat i la precisió són uniformement pesats.

La fórmula general per al paràmetre real no negatiu és:

.

Dues mesures F àmpliament utilitzades són la mesura , que pondera el recobrat dues vegades per sobre de la precisió, i la mesura , que pesa la precisió dues vegades per sobre del recobrat.

La mesura F va ser obtinguda per Van Rijsbergen el 1979. "mesura l'efectivitat de la recuperació respecte a un usuari que atribueix vegades més importància al recobrat que a la precisió ". Està basada en la mesura de Van Rijsbergen . La relació entre aquestes dues mesures és on .

Precisió Mitjana[modifica]

La Precisió i el recobrat són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el recobrat en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - recobrat, ploteando la precisió com una funció del recobrat . La Precisió Mitjana computa la mitjana dels valors de sobre la integral des de fins a :[6]

Aquesta integral és reemplaçada a la pràctica per una suma finita sobre totes les posicions en la seqüència de documents amb rànquing:

on és el rànquing en la seqüència de documents recuperats, és el nombre de documents recuperats, és la precisió del tall en la posició de la llista i és el canvi en el recobrat dels elements fins .[6]

Aquesta suma finita és equivalent a:

on és un indicador igual a 1 si l'ítem en la posició del rànquing és rellevant al document, i zero altrament.[7] Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero. La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - recobrat.[8][9]

Referències[modifica]

  1. Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, vol. 3, 2000.
  2. Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.
  3. Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». . IEEE, 2009.
  4. Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9. 
  5. 5,0 5,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, vol. 24, 4, 2001, pàg. 35–43.
  6. 6,0 6,1 6,2 6,3 Zhu, Mu , 2004.
  7. Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [New York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.
  8. Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, vol. 88, 2, June 2010, pàg. 303–338. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].
  9. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008. 

Bibliografia[modifica]

  • BAEZA-YATES, Ricardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. New York : ACM;Harlow, Essex: Addison-Wesley Longman, 1999. (anglès)
  • SALVADOR OLIVÁN, José A.: Recuperación de Información. Buenos Aires : Alfagrama, 2008. (castellà)
  • SALTON, Gerald; MCGILL, Michael J.: Introduction to Modern Information Retrieval. New York : McGraw-Hill, 1983. (anglès)

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Recuperació d'informació Modifica l'enllaç a Wikidata