Recuperació d'informació: diferència entre les revisions

Contingut suprimit Contingut afegit

En línia

Revisió del 18:56, 8 oct 2014

Recuperació d'informació (en anglès Information Retrieval) és l'activitat d'obtenció d'informació de recursos pertinents a una necessitat d'informació a partir d'una col·lecció de recursos d'informació. Les cerques es poden basar en metadades o indexació del text complet.

Els sistemes automatitzats de recuperació d'informació s'utilitzen per reduir el que s'ha anomenat "infoxicació" (information overload). Moltes universitats i biblioteques públiques utilitzen sistemes de recuperació d’informació per a proporcionar accés a llibres, revistes i altres documents. Els cercadors web són ún dels sistemes de recuperació d’informació més coneguts.

Descripció

Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un motor de cerca web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.

Un objecte és una identitat que està representada per informació en una base de dades. En dependència de l'aplicació aquests objectes poden ser arxius de text, imatges^[1], àudio^[2], mapes^[3], vídeos, etc. Molt sovint els documents no estan emmagatzemats directament en el sistema de recuperació d'informació, sinó que hi estan representats lògicament.

La majoria dels sistemes de recuperació d'informació computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord al seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.^[4]

Història

La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l’article “As We May Think” de Vannevar Bush l'any 1945.^[5] Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren proves amb un grup de textos com la col·lecció Cranfield a partir d’un gran nombre de diferents tècniques, i el rendiment va ser bo..^[5] Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.

El 1992, el Departament de Defensa dels Estats Units conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de motors de cerca ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.

L'ús de mètodes digitals per emmagatzemar i recuperar informació ha portat a l’anomenat fenomen de l'obsolescència digital, que succeeix quan una font digital deixa de ser accessible perquè el lector utilitzat per a la lectura d'aquest mitjà o el programari que el controla, ja no es troba disponible.

Els cercadors, com ara Google, són algunes de les aplicacions més populars per a la recuperació d'informació. Bàsicament cal construir un vocabulari, que és una llista de termes en llenguatge natural, un algoritme que inclogui les regles lògiques de la recerca (Taula de veritat) i una valoració dels resultats o quantitat d'informació assolida o possible.

Alguns dels estudiosos més destacats dins d'aquesta subdisciplina són Gerard Salton, W Bruce Croft, Karen Spärck Jones, Keith van Rijsbergen i Ricardo Baeza-Yates.

A vegades es plantegen certs problemes a l'hora de recuperar informació provocats per l'ús del llenguatge natural (entre altres raons): com el silenci (a causa de la sinonímia), el soroll (a causa de la polisèmia), homografia, ambigüitat, etc.

Tipus de models

Per recuperar efectivament els documents rellevants per estratègies de recuperació d'informació, els documents són transformats en una representació lògica dels mateixos. Cada estratègia de recuperació incorpora un model específic per als seus propòsits de representació dels documents. La figura a la dreta il·lustra la relació entre alguns dels models més comuns. Els models estan categoritzats d'acord a dues dimensions: la base matemàtica i les propietats dels models.

Categorització dels models de recuperació d'informació

Primera Dimensió: Base Matemàtica

Models basats en Teoria de Conjunts: Els documents es representen com un conjunt de paraules o frases. Els models més comuns són:
Models Algebraics: En aquests models els documents i les consultes es representen com a vectors, matrius o tuples. La similitud entre un document i una consulta es representa per un escalar. Entre els quals tenim:
Models Probabilístics: Tracten el procés de recuperació de documents com una inferència probabilística. Les similituds són calculades com les probabilitats que un document sigui rellevant donada una consulta.

Segona Dimensió: Propietats dels Models

Models sense independència entre termes: Tracten els termes com si fossin independents.
Models amb dependència entre termes: Permeten representar les interdependències entre termes.

Les mesures de rendiment i correcció

Moltes mesures han estat proposades per avaluar el rendiment dels sistemes de recuperació d'informació. Les mesures necessiten una col·lecció de documents i una consulta. A continuació es descriuen algunes mesures comunes, les quals assumeixen que: cada document se sap que és rellevant o no per a una consulta particular. A la pràctica hi poden haver diferents matisos de rellevància.

Precisió

La precisió és la fracció de documents recuperats que són rellevants per a la necessitat d'informació de l'usuari.

{\mbox{Precisió}}={\frac {|\{{\mbox{documents rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents recuperats}}\}|}}

La precisió té en compte tots els documents recuperats. També pot ser avaluada en un tall determinat del rànquing, considerant només els primers resultats obtinguts del sistema.

El significat i ús de la "precisió" en el camp de la recuperació d'informació, difereix de les definicions d'exactitud i precisió en altres branques de la ciència i l'estadística.^[6]

Exhaustivitat

L'exhaustivitat és la part de documents rellevants per a la consulta que són recuperats.

{\mbox{Exhaustivitat}}={\frac {|\{{\mbox{documents rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents rellevants}}\}|}}

És trivial obtenir un 100% d'exhaustivitat si es prenen com a resposta per a una consulta tots els documents de la col·lecció. Per tant, l'exhaustivitat sola no és suficient, sinó que es necessita també mesurar el nombre de documents no rellevants, per exemple amb el càlcul de la precisió.^[6]

Proposició de fallada

La proposició de fallada, anomenada en anglès fall-out, és la proporció de documents no rellevants que són recuperats, fora de tots els documents rellevants disponibles.

{\mbox{Fall-out}}={\frac {|\{{\mbox{documents no rellevants}}\}\cap \{{\mbox{documents recuperats}}\}|}{|\{{\mbox{documents no rellevants}}\}|}}

És trivial obtenir un 0% de proposició de fallada si no es retorna cap document de la col·lecció per a una consulta.

Mesura F

La mesura F és una mitjana harmònica de la precisió i el recobrat:

F={\frac {2\cdot \mathrm {Precisio} \cdot \mathrm {Recobrat} }{(\mathrm {Precisio} +\mathrm {Recobrat} )}}.\,

Aquesta és coneguda més com la mesura $F_{1}$ , ja que el recobrat i la precisió són uniformement pesats.

La fórmula general per al paràmetre real no negatiu $\beta$ és:

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {Precisio} \cdot \mathrm {Recobrat} )}{(\beta ^{2}\cdot \mathrm {Precisio} +\mathrm {Recobrat} )}}\,

.

Dues mesures F àmpliament utilitzades són la mesura $F_{2}$ , que pondera el recobrat dues vegades per sobre de la precisió, i la mesura $F_{0.5}$ , que pesa la precisió dues vegades per sobre del recobrat.

La mesura F va ser obtinguda per Van Rijsbergen el 1979. $F_{\beta }$ "mesura l'efectivitat de la recuperació respecte a un usuari que atribueix $\beta$ vegades més importància al recobrat que a la precisió ". Està basada en la mesura de Van Rijsbergen $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$ . La relació entre aquestes dues mesures és $F_{\beta }=1-E$ on $\alpha ={\frac {1}{1+\beta ^{2}}}$ .

Precisió Mitjana

La Precisió i el recobrat són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el recobrat en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - recobrat, ploteando la precisió com una funció del recobrat $r$ . La Precisió Mitjana computa la mitjana dels valors de sobre la integral des de $r=0$ fins a $r=1$ :^[6]

\operatorname {AveP} =\int _{0}^{1}p(r)dr.

Aquesta integral és reemplaçada a la pràctica per una suma finita sobre totes les posicions en la seqüència de documents amb rànquing:

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

on $k$ és el rànquing en la seqüència de documents recuperats, $n$ és el nombre de documents recuperats, $P(k)$ és la precisió del tall en la posició $k$ de la llista i $\Delta r(k)$ és el canvi en el recobrat dels elements $k-1$ fins $k$ .^[6]

Aquesta suma finita és equivalent a:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}(P(k)\times rel(k))}{\mbox{nombre de documents rellevants}}}\!

on $rel(k)$ és un indicador igual a 1 si l'ítem en la posició $k$ del rànquing és rellevant al document, i zero altrament.^[7] Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero. La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - recobrat.^[8]^[9]

Referències

↑ Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, vol. 3, 2000.
↑ Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.
↑ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». . IEEE, 2009.
↑ Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9.
↑ ^5,0 ^5,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, vol. 24, 4, 2001, pàg. 35–43.
↑ ^6,0 ^6,1 ^6,2 ^6,3 Zhu, Mu , 2004.
↑ Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [New York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.
↑ Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, vol. 88, 2, June 2010, pàg. 303–338. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].
↑ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.

Bibliografia

BAEZA-YATES, Ricardo; Ribeiro-Neto, Berthier: Modern Information Retrieval. New York : ACM;Harlow, Essex: Addison-Wesley Longman, 1999. (anglès)
SALVADOR OLIVÁN, José A.: Recuperación de Información. Buenos Aires : Alfagrama, 2008. (castellà)
SALTON, Gerald; MCGILL, Michael J.: Introduction to Modern Information Retrieval. New York : McGraw-Hill, 1983. (anglès)

Enllaços externs

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Recuperació d'informació

[goodron2000-1] Goodrum, Abby A. «Image Information Retrieval: An Overview of Current Research». Informing Science, vol. 3, 2000.

[Foote99-2] Foote, Jonathan «An overview of audio information retrieval». Multimedia Systems. Springer, 1999.

[Beel2009-3] Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf «Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09)». . IEEE, 2009.

[Frakes1992-4] Frakes, William B. Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc., 1992. ISBN 0-13-463837-9.

[Singhal2001-5] 5,0 ^5,1 Singhal, Amit «Modern Information Retrieval: A Brief Overview». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, vol. 24, 4, 2001, pàg. 35–43.

[zhu2004-6] 6,0 ^6,1 ^6,2 ^6,3 Zhu, Mu , 2004.

[Turpin2006-7] Turpin, Andrew; Scholer, Falk «User performance versus precision measures for simple search tasks». Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006). ACM [New York, NY], 2006, pàg. 11–18. DOI: 10.1145/1148170.1148176.

[voc2010-8] Everingham, Mark; Van Gool, Luc; Williams, Christopher K. I.; Winn, John; Zisserman, Andrew «The PASCAL Visual Object Classes (VOC) Challenge». International Journal of Computer Vision. Springer, vol. 88, 2, June 2010, pàg. 303–338. DOI: 10.1007/s11263-009-0275-4 [Consulta: 29 agost 2011].

[nlpbook-9] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Línia 1: / Línia 1: @@
+'''Recuperació d'informació''' (en [[anglès]] ''Information Retrieval'') és l'activitat d'obtenció d'[[informació]] de recursos pertinents a una [[necessitat d'informació]] a partir d'una col·lecció de recursos d'informació. Les cerques es poden basar en [[metadades]] o indexació del text complet.
-{{Inacabat|Carlospino|data=octubre de 2014}}
-'''Recuperació d'informació''' (en [[anglès]] ''Information Retrieval'') és l'activitat d'obtenció d'[[informació]] de recursos pertinents a una [[necessitat d'informació]] a partir d'una col·lecció de recursos d'informació. Les cerques es poden basar en metadades o indexació del text complet.
-Els [[Sistema de recuperació d'informació|sistemes automatitzats de recuperació d'informació]] s'utilitzen per reduir el que s'ha anomenat "[[infoxicació]]" (information overload). Moltes universitats i biblioteques públiques utilitzen sistemes de recuperació d’informació per a proporcionar accés a llibres, revistes i altres documents. Els [[Motor de cerca|cercadors web]] són ún dels sistemes de recuperació d’informació més coneguts.
+Els [[Sistema de recuperació d'informació|sistemes automatitzats de recuperació d'informació]] s'utilitzen per reduir el que s'ha anomenat "[[infoxicació]]" (information overload). Moltes universitats i [[biblioteca pública|biblioteques públiques]] utilitzen sistemes de recuperació d’informació per a proporcionar accés a llibres, revistes i altres documents. Els [[Motor de cerca|cercadors web]] són ún dels sistemes de recuperació d’informació més coneguts.
 ==Descripció==
-Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un motor de cerca web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.
+Un procés de recuperació de la informació comença quan un usuari introdueix una consulta en el sistema. Les consultes són declaracions formals de les necessitats d'informació, per exemple, una consulta en un [[motor de cerca]] web. Una consulta no identifica únicament un sol objecte de la col·lecció, sinó que diversos objectes poden ser resposta a una consulta, sovint amb diferents graus de rellevància.
-Un objecte és una identitat que està representada per informació en una base de dades. En dependència de l'aplicació aquests objectes poden ser arxius de text, imatges, àudio, mapes, vídeos, etc. Molt sovint els documents no estan emmagatzemats direcament en el sistema d' recuperació d'informació, sinó que hi estan representats lògicament.
+Un objecte és una identitat que està representada per informació en una [[base de dades]]. En dependència de l'aplicació aquests objectes poden ser [[Arxiu de text|arxius de text]], imatges<ref name=goodron2000>{{cite journal |first=Abby A. |last=Goodrum |title=Image Information Retrieval: An Overview of Current Research |journal=Informing Science |volume=3 |number=2 |year=2000 }}</ref>, àudio<ref name=Foote99>{{cite journal |first=Jonathan |last=Foote |title=An overview of audio information retrieval |journal=Multimedia Systems |year=1999 |publisher=Springer }}</ref>, mapes<ref name=Beel2009>{{cite journal |first=Jöran |last=Beel |first2=Bela |last2=Gipp |first3=Jan-Olaf |last3=Stiller |contribution=Information Retrieval On Mind Maps - What Could It Be Good For? |contribution-url=http://www.sciplore.org/publications_en.php |title=Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom'09) |year=2009 |publisher=IEEE |place=Washington, DC }}</ref>, vídeos, etc. Molt sovint els documents no estan emmagatzemats directament en el sistema de recuperació d'informació, sinó que hi estan representats lògicament.
-La majoria dels sistemes de recuperació d'informació computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord al seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.
+La majoria dels [[sistemes de recuperació d'informació]] computen un rànquing per saber com de bé cada objecte respon a la consulta, ordenant els objectes d'acord al seu valor de rànquing. Els objectes amb més rànquing són mostrats als usuaris i el procés es pot repetir si l'usuari desitja refinar la seva consulta.<ref name="Frakes1992">{{cite book |last=Frakes |first=William B. |title=Information Retrieval Data Structures & Algorithms |publisher=Prentice-Hall, Inc. |year=1992 |isbn=0-13-463837-9 |url=http://www.scribd.com/doc/13742235/Information-Retrieval-Data-Structures-Algorithms-William-B-Frakes }}</ref>
 ==Història==
-La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l’article “As We May Think” de [[Vannevar Bush]] l'any 1945. Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren  proves amb un grup de textos com la col·lecció [[Cranfield]] a partir d’un gran nombre de diferents tècniques, i el rendiment va ser bo. Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.
+La idea de l'ús d'ordinadors per a la recerca de trossos rellevants d'informació es va popularitzar arran de l’article “As We May Think” de [[Vannevar Bush]] l'any 1945.<ref name="Singhal2001">{{cite journal |last=Singhal |first=Amit |title=Modern Information Retrieval: A Brief Overview |journal=Bulletin of the IEEE Computer Society Technical Committee on Data Engineering |volume=24 |issue=4 |pages=35–43 |year =2001 |url=http://singhal.info/ieee2001.pdf }}</ref> Els primers sistemes automatitzats de recuperació de la informació van ser presentats durant la dècada de 1950 a 1960. Durant 1970 es realitzaren  proves amb un grup de textos com la col·lecció [[Cranfield]] a partir d’un gran nombre de diferents tècniques, i el rendiment va ser bo..<ref name="Singhal2001" /> Els sistemes de recuperació a gran escala, com el Sistema de Diàleg Lockheed, van començar a utilitzar-se a principis de 1970.
-El 1992, el Departament de Defensa dels Estats Units conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de [[motors de cerca]] ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.
+El 1992, el Departament de Defensa dels [[Estats Units]] conjuntament amb l'Institut Nacional d'Estàndards i Tecnologia (NIST), van patrocinar la Conferència de Recuperació de Text (TREC) com a part del programa TIPSTER. Això va ajudar des de la comunitat de recuperació de la informació en subministrar la infraestructura necessària per a l'avaluació de metodologies de recuperació de text en una col·lecció de gran abast. La introducció de [[motors de cerca]] ha elevat encara més la necessitat de sistemes de recuperació amb més capacitat.
 L'ús de mètodes digitals per emmagatzemar i recuperar informació ha portat a l’anomenat fenomen de l'[[obsolescència digital]], que succeeix quan una font digital deixa de ser accessible perquè el lector utilitzat per a la lectura d'aquest mitjà o el [[Programari|programari]] que el controla, ja no es troba disponible.
@@ Línia 57: / Línia 56: @@
 La precisió té en compte tots els documents recuperats. També pot ser avaluada en un tall determinat del rànquing, considerant només els primers resultats obtinguts del sistema.
-El significat i ús de la "precisió" en el camp de la recuperació d'informació, difereix de les definicions d'[[exactitud i precisió]] en altres branques de la ciència i l'[[estadística]].
+El significat i ús de la "precisió" en el camp de la recuperació d'informació, difereix de les definicions d'[[exactitud i precisió]] en altres branques de la ciència i l'[[estadística]].<ref name="zhu2004">{{cite journal |first=Mu |last=Zhu |contribution=Recall, Precision and Average Precision |contribution-url=http://sas.uwaterloo.ca/stats_navigation/techreports/04WorkingPapers/2004-09.pdf |year=2004 }}</ref>
 ===Exhaustivitat===
 L'exhaustivitat és la part de documents rellevants per a la consulta que són recuperats.
 :<math>\mbox{Exhaustivitat}=\frac{|\{\mbox{documents rellevants}\}\cap\{\mbox{documents recuperats}\}|}{|\{\mbox{documents rellevants}\}|} </math>
-És trivial obtenir un 100% d'exhaustivitat si es prenen com a resposta per a una consulta tots els documents de la col·lecció. Per tant, l'exhaustivitat sola no és suficient, sinó que es necessita també mesurar el nombre de documents no rellevants, per exemple amb el càlcul de la precisió.
+És trivial obtenir un 100% d'exhaustivitat si es prenen com a resposta per a una consulta tots els documents de la col·lecció. Per tant, l'exhaustivitat sola no és suficient, sinó que es necessita també mesurar el nombre de documents no rellevants, per exemple amb el càlcul de la precisió.<ref name="zhu2004"></ref>
 ===Proposició de fallada===
@@ Línia 82: / Línia 81: @@
 ===Precisió Mitjana===
-La Precisió i el recobrat són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el recobrat en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - recobrat, ploteando la precisió  com una funció del recobrat <math>r</math>. La Precisió Mitjana computa la mitjana dels valors de  sobre la integral des de <math>r=0</math> fins a <math>r=1</math>:
+La Precisió i el recobrat són mètriques basades en tota la llista de documents retornada pel sistema donada una consulta.Per a sistemes que fan rànquing als documents retornats per a una consulta és desitjable considerar a més l'ordre en què els documents retornats es presenten. Si es computa la precisió i el recobrat en cada posició de la seqüència de documents amb rànquing, podem plotejar la corba precisió - recobrat, ploteando la precisió  com una funció del recobrat <math>r</math>. La Precisió Mitjana computa la mitjana dels valors de  sobre la integral des de <math>r=0</math> fins a <math>r=1</math>:<ref name="zhu2004"></ref>
 :<math>\operatorname{AveP} = \int_0^1 p(r)dr.</math>
@@ Línia 88: / Línia 87: @@
 :<math>\operatorname{AveP} = \sum_{k=1}^n P(k) \Delta r(k)</math>
-on <math>k</math> és el rànquing en la seqüència de documents recuperats, <math>n</math> és el nombre de documents recuperats, <math>P(k)</math> és la precisió del tall en la posició <math>k</math> de la llista i <math>\Delta r(k)</math> és el canvi en el recobrat dels elements  <math>k-1</math> fins <math>k</math>.
+on <math>k</math> és el rànquing en la seqüència de documents recuperats, <math>n</math> és el nombre de documents recuperats, <math>P(k)</math> és la precisió del tall en la posició <math>k</math> de la llista i <math>\Delta r(k)</math> és el canvi en el recobrat dels elements  <math>k-1</math> fins <math>k</math>.<ref name="zhu2004"></ref>
 Aquesta suma finita és equivalent a:
 :<math> \operatorname{AveP} = \frac{\sum_{k=1}^n (P(k) \times rel(k))}{\mbox{nombre de documents rellevants}} \!</math>
-on <math>rel(k)</math> és un indicador igual a 1 si l'ítem en la posició <math>k</math> del rànquing és rellevant al document, i zero altrament. Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero.
+on <math>rel(k)</math> és un indicador igual a 1 si l'ítem en la posició <math>k</math> del rànquing és rellevant al document, i zero altrament.<ref name="Turpin2006">{{cite journal |last=Turpin |first=Andrew |last2=Scholer |first2=Falk |title=User performance versus precision measures for simple search tasks |journal=Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, WA, August 06–11, 2006) |publisher=ACM |location=New York, NY |pages=11–18 |doi=10.1145/1148170.1148176 |year=2006 |isbn=1-59593-369-7 }}</ref> Noteu que la mitjana és sobre tots els documents rellevants i que els documents rellevants que no són recuperats obtenen una precisió igual a zero.
+La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - recobrat.<ref name=voc2010>{{cite journal |last=Everingham |first=Mark |last2=Van Gool |first2=Luc |last3=Williams |first3=Christopher K. I. |last4=Winn |first4=John |last5=Zisserman |first5=Andrew |title=The PASCAL Visual Object Classes (VOC) Challenge |journal=International Journal of Computer Vision |volume=88 |issue=2 |pages=303–338 |publisher=Springer |date=June 2010 |url=http://pascallin.ecs.soton.ac.uk/challenges/VOC/pubs/everingham10.pdf |accessdate=2011-08-29 |doi=10.1007/s11263-009-0275-4 }}</ref><ref name="nlpbook">{{cite book |last=Manning |first=Christopher D. |last2=Raghavan |first2=Prabhakar |last3=Schütze |first3=Hinrich |title=Introduction to Information Retrieval |publisher=Cambridge University Press |year=2008 |url=http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-ranked-retrieval-results-1.html }}</ref>
-La Precisió Mitjana de vegades es refereix geomètricament com l'àrea sota la corba precisió - recobrat.
-==Bibliografia==
-* Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier: ''Modern Information Retrieval''. New York : ACM;Harlow, Essex: Addison-Wesley Longman, 1999.
-* Salvador Oliván, José A.: ''Recuperación de Información''. Buenos Aires : Alfagrama, 2008.
-* Salton, Gerald; McGill, Michael J.: ''Introduction to Modern Information Retrieval''. New York : McGraw-Hill, 1983.
 ==Referències==
 <references />
+==Bibliografia==
+* BAEZA-YATES, Ricardo; Ribeiro-Neto, Berthier: ''Modern Information Retrieval''. New York : ACM;Harlow, Essex: Addison-Wesley Longman, 1999. {{en}}
+* SALVADOR OLIVÁN, José A.: ''Recuperación de Información''. Buenos Aires : Alfagrama, 2008. {{es}}
+* SALTON, Gerald; MCGILL, Michael J.: ''Introduction to Modern Information Retrieval''. New York : McGraw-Hill, 1983. {{en}}
+== Enllaços externs ==
+{{commonscat}}
+* [http://www.acm.org/sigir/ ACM SIGIR: Information Retrieval Special Interest Group] {{en}}
+* [http://irsg.bcs.org/ BCS IRSG: British Computer Society - Information Retrieval Specialist Group] {{en}}
+* [http://ir.dcs.gla.ac.uk/wiki/ Information Retrieval Wiki] {{en}}
+* [http://www.nonrelevant.net Information Retrieval @ DUTH] {{en}}
+* [http://nlp.stanford.edu/IR-book/ Introduction to Information Retrieval (llibre en línia) de Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press. 2008. ] {{en}}
 [[Categoria:Ciències de la informació]]