Recuperació d'informació

Recuperació d'informació (en anglès information retrieval) és l'activitat d'obtenció d'informació de recursos pertinents a una necessitat d'informació a partir d'una col·lecció de recursos d'informació.^[1] Les cerques es poden basar en metadades o indexació del text complet.

Els sistemes automatitzats de recuperació d'informació s'utilitzen per reduir el que s'ha anomenat "infoxicació" (information overload). Moltes universitats i biblioteques públiques utilitzen sistemes de recuperació d'informació per proporcionar accés a llibres, revistes i altres documents. Els cercadors web són un dels sistemes de recuperació d'informació més coneguts.

Descripció[modifica]

Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un motor de cerca web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.

Un objecte és una identitat que està representada per informació en una base de dades. En dependència de l'aplicació aquests objectes poden ser arxius de text, imatges,^[2] àudio,^[3] mapes,^[4] vídeos, etc. Molt sovint els documents no estan emmagatzemats directament en el sistema de recuperació d'informació, sinó que hi estan representats lògicament.

La majoria dels sistemes de recuperació d'informació computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord amb el seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.^[5]

Història[modifica]

La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l'article “As We May Think” de Vannevar Bush l'any 1945.^[6] Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren proves amb un grup de textos com la col·lecció Cranfield a partir d'un gran nombre de diferents tècniques, i el rendiment va ser bo.^[6] Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.

El 1992, el Departament de Defensa dels Estats Units conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de motors de cerca ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.

L'ús de mètodes digitals per emmagatzemar i recuperar informació ha portat a l'anomenat fenomen de l'obsolescència digital, que succeeix quan una font digital deixa de ser accessible perquè el lector utilitzat per a la lectura d'aquest mitjà o el programari que el controla, ja no es troba disponible.

Els cercadors, com ara Google, són algunes de les aplicacions més populars per a la recuperació d'informació. Bàsicament cal construir un vocabulari, que és una llista de termes en llenguatge natural, un algoritme que inclogui les regles lògiques de la recerca (taula de veritat) i una valoració dels resultats o quantitat d'informació assolida o possible.

Alguns dels estudiosos més destacats dins d'aquesta subdisciplina són Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen i Ricardo Baeza-Yates.

A vegades es plantegen certs problemes a l'hora de recuperar informació provocats per l'ús del llenguatge natural (entre altres raons): com el silenci (a causa de la sinonímia), el soroll (a causa de la polisèmia), homografia, ambigüitat, etc.

Tipus de models[modifica]

Per recuperar efectivament els documents rellevants per estratègies de recuperació d'informació, els documents són transformats en una representació lògica d'aquests. Cada estratègia de recuperació incorpora un model específic per als seus propòsits de representació dels documents. La figura a la dreta il·lustra la relació entre alguns dels models més comuns. Els models estan categoritzats d'acord amb dues dimensions: la base matemàtica i les propietats dels models.

Categorització dels models de recuperació d'informació

Primera dimensió: base matemàtica[modifica]

Models basats en Teoria de Conjunts: Els documents es representen com un conjunt de paraules o frases. Els models més comuns són:
Models algebraics: en aquests models els documents i les consultes es representen com a vectors, matrius o tuples. La similitud entre un document i una consulta es representa per un escalar. Entre els quals tenim:
Models probabilístics: tracten el procés de recuperació de documents com una inferència probabilística. Les similituds són calculades com les probabilitats que un document sigui rellevant donada una consulta.

Segona dimensió: propietats dels models[modifica]

Models sense independència entre termes: Tracten els termes com si fossin independents.
Models amb dependència entre termes: Permeten representar les interdependències entre termes.

Les mesures de rendiment i correcció[modifica]

Moltes mesures han estat proposades per avaluar el rendiment dels sistemes de recuperació d'informació. Les mesures necessiten una col·lecció de documents i una consulta. A continuació es descriuen algunes mesures comunes, les quals assumeixen que: cada document se sap que és rellevant o no per a una consulta particular. A la pràctica hi poden haver diferents matisos de rellevància.

Precisió[modifica]

La precisió és la fracció de documents recuperats que són rellevants per la consulta:

{\mbox{precisió}}={\frac {|\{{\mbox{documents rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents recuperats}}\}|}}

Per exemple, per una cerca de text a un conjunt de documents, la precisió és el nombre de resultats correctes dividits pel nombre de resultats retornats.

La precisió té en compte tots els documents recuperats, però també es pot avaluar a un punt de tall n donat, considerant només els n primers resultats retornats pel sistema. Aquesta mesura s'anomena precisió a n.

La precisió s'utilitza juntament amb el reclam, el percentatge de tots els documents rellevants que són recuperats per la recerca. Les dues mesures són de vegades utilitzades juntes a la puntuació F1 (o mesura F) per tal de proporcionar una sola mesura per tot el sistema.

Observi's que el significat de precisió al camp de la recuperació d'informació difereix de la definició d'exactitud i precisió d'altres branques científiques i tecnològiques.^[7]

Reclam[modifica]

El reclam és la fracció dels documents rellevants que són recuperats per la consulta:

{\mbox{reclam}}={\frac {|\{{\mbox{documents rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents rellevants}}\}|}}

Per exemple, per una cerca de text a un conjunt de documents, el reclam és el nombre de resultats correctes dividits pel nombre de resultats que s'haurien d'haver retornat.

En classificació binària, el reclam s'anomena sensibilitat. Pot ser vist com la probabilitat que un document rellevant sigui recuperat per la consulta.

És trivial d'aconseguir un reclam del 100% si es retornen tots els documents en resposta a qualsevol consulta. Per això, el reclam per si sol no és una mesura prou bona, sinó que cal considerar també el nombre de documents no rellevants, calculant la precisió, per exemple.^[7]

Proposició de fallada[modifica]

La proposició de fallada, anomenada en anglès fall-out, és la proporció de documents no rellevants que són recuperats, fora de tots els documents rellevants disponibles.

{\mbox{Fall-out}}={\frac {|\{{\mbox{documents no rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents no rellevants}}\}|}}

És trivial obtenir un 0% de proposició de fallada si no es retorna cap document de la col·lecció per a una consulta.

Mesura F[modifica]

La mesura F és una mitjana harmònica de la precisió i el reclam:

F={\frac {2\cdot \mathrm {precisio} \cdot \mathrm {reclam} }{(\mathrm {precisio} +\mathrm {reclam} )}}.\,

Aquesta mesura és aproximadament la mitjana de la precisió i el reclam quan els valors són propers. Més generalment, és la mitjana harmònica de la precisió i el reclam, que és el quadrat de la mitjana geomètrica dividida per l'aritmètica. La puntuació F pot ser criticada per diverses raons en circumstàncies particulars a causa del seu biaix com a avaluació mètrica.

És el cas particular $F_{1}$ de la mesura general $F_{\beta }$ (per valors reals no negatius de $\beta$ ):

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precisio} \cdot \mathrm {reclam} )}{(\beta ^{2}\cdot \mathrm {precisio} +\mathrm {reclam} )}}\,

.

Dues mesures $F$ utilitzades sovint són la mesura $F_{2}$ , que posa més de pes al reclam que a la precisió, i la mesura $F_{0.5}$ , que posa més d'èmfasi a la precisió que al reclam.

La mesura $F$ va ser derivada per van Rijsbergen (1979) de manera que $F_{\beta }$ mesurés "l'efectivitat de recuperació respecte un usuari que considera $\beta$ cops més important el reclam que la precisió". Es basa en la mesura d'efectivitat de van Rijsbergen $E_{\alpha }=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$ , on el segon terme és la mitjana harmònica ponderada de la precisió i el reclam amb pesos $(\alpha ,1-\alpha )$ . La relació és $F_{\beta }=1-E$ on $\alpha ={\frac {1}{1+\beta ^{2}}}$ .

Precisió mitjana[modifica]

La precisió i el reclam són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el reclam en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - reclam, ploteando la precisió com una funció del reclam $r$ . La Precisió Mitjana computa la mitjana dels valors de sobre la integral des de $r=0$ fins a $r=1$ :^[7]

\operatorname {AveP} =\int _{0}^{1}p(r)dr.

Aquesta integral és reemplaçada a la pràctica per una suma finita sobre totes les posicions en la seqüència de documents amb rànquing:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

on $k$ és el rànquing en la seqüència de documents recuperats, $n$ és el nombre de documents recuperats, $P(k)$ és la precisió del tall en la posició $k$ de la llista i $\Delta r(k)$ és el canvi en el reclam dels elements $k-1$ fins $k$ .^[7]

Aquesta suma finita és equivalent a:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}(P(k)\times rel(k))}{\mbox{nombre de documents rellevants}}}\!

on $rel(k)$ és un indicador igual a 1 si l'ítem en la posició $k$ del rànquing és rellevant al document, i zero altrament.^[8] Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero. La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - reclam.^[9]^[10]

Referències[modifica]

↑ Singhal, Amit «Modern information retrieval: A brief overview». IEEE Data Engineering Bulletin, 24, 4, 2001, pàg. 35-43.
↑ Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, 3, 2000.
↑ Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.
↑ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». Sciplore. IEEE [Washington, DC], 2009. Arxivat de l'original el 2011-05-13 [Consulta: 8 octubre 2014]. «Information Retrieval On Mind Maps - What Could It Be Good For?»
↑ Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9. Arxivat 2013-09-28 a Wayback Machine.
↑ ^6,0 ^6,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 24, 4, 2001, pàg. 35–43.
↑ ^7,0 ^7,1 ^7,2 ^7,3 Zhu, Mu «Recall, Precision and Average Precision» (PDF). Universitat de Waterloo, 2004.
↑ Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [Nova York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.
↑ Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, 88, 2, juny 2010, pàg. 303–338. Arxivat de l'original el 2011-11-20. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].
↑ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.

Bibliografia[modifica]

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier: Modern information retrieval. 2nd ed. Harlow: Addison-Wesley, 2011.
SALVADOR OLIVÁN, José A.: Recuperación de Información. Buenos Aires : Alfagrama, 2008. (castellà)
SALTON, Gerald; MCGILL, Michael J.: Introduction to Modern Information Retrieval. New York : McGraw-Hill, 1983. (anglès)

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Recuperació d'informació

ACM SIGIR: Information Retrieval Special Interest Group (anglès)
BCS IRSG: British Computer Society - Information Retrieval Specialist Group (anglès)
Information Retrieval Wiki Arxivat 2015-11-24 a Wayback Machine. (anglès)
Information Retrieval @ DUTH (anglès)
Introduction to Information Retrieval (llibre en línia) de Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press. 2008. (anglès)

[1] Singhal, Amit «Modern information retrieval: A brief overview». IEEE Data Engineering Bulletin, 24, 4, 2001, pàg. 35-43.

[goodron2000-2] Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, 3, 2000.

[Foote99-3] Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.

[Beel2009-4] Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». Sciplore. IEEE [Washington, DC], 2009. Arxivat de l'original el 2011-05-13 [Consulta: 8 octubre 2014]. «Information Retrieval On Mind Maps - What Could It Be Good For?»

[Frakes1992-5] Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9. Arxivat 2013-09-28 a Wayback Machine.

[Singhal2001-6] 6,0 ^6,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 24, 4, 2001, pàg. 35–43.

[zhu2004-7] 7,0 ^7,1 ^7,2 ^7,3 Zhu, Mu «Recall, Precision and Average Precision» (PDF). Universitat de Waterloo, 2004.

[Turpin2006-8] Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [Nova York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.

[voc2010-9] Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, 88, 2, juny 2010, pàg. 303–338. Arxivat de l'original el 2011-11-20. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].

[nlpbook-10] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Ciències de la informació
Aspectes generals	Accés a la informació · Arquitectura de la informació · Comportament informacional · Estudis de ciència, tecnologia i societat · Filosofia de la informació · Gestió de la informació · Ontologia · Organització del coneixement · Recuperació d'informació · Societat de la informació · Taxonomia
Camps i subcamps relacionats	Bibliometria · Biblioteconomia i Documentació · Categorització · Censura · Ciència de la informació quàntica · Classificació · Estudis culturals · Informàtica · Llibertat intel·lectual · Memòria · Memòria d'ordinador · Modelització de dades · Preservació · Privacitat · Propietat intel·lectual · Tecnologia de la informació