Vés al contingut

Eficiència (estadística)

De la Viquipèdia, l'enciclopèdia lliure

En estadística, l'eficiència és una mesura de la qualitat d'un estimador, d'un disseny experimental o d'un procediment de prova d'hipòtesis. Essencialment, un estimador més eficient necessita menys dades d'entrada o observacions que un de menys eficient per aconseguir el límit de Cramér-Rao. Un estimador eficient es caracteritza per tenir la variància més petita possible, cosa que indica que hi ha una petita desviació entre el valor estimat i el valor "veritable" en el sentit de la norma L2.

L'eficiència relativa de dos procediments és la relació entre les seves eficiències, tot i que sovint s'utilitza aquest concepte quan es fa la comparació entre un procediment determinat i un procediment nocional "millor possible". Les eficiències i l'eficiència relativa de dos procediments depenen teòricament de la mida de la mostra disponible per al procediment donat, però sovint és possible utilitzar l'eficiència relativa asimptòtica (definida com el límit de les eficiències relatives a mesura que creix la mida de la mostra) com a mesura principal de comparació.

Estimadors

[modifica]

L'eficiència d'un estimador no esbiaixat, T, d'un paràmetre θ es defineix com[1]

on és la informació de Fisher de la mostra. Per tant, e(T) és la variància mínima possible per a un estimador no esbiaixat dividida per la seva variància real. El límit de Cramér-Rao es pot utilitzar per demostrar que e(T) ≤ 1.

Estimadors eficients

[modifica]

Un estimador eficient és un estimador que estima la quantitat d'interès de la "millor manera possible". La noció de "millor possible" es basa en l'elecció d'una funció de pèrdua particular, és a dir, la funció que quantifica el grau relatiu d'indesitjivitat dels errors d'estimació de diferents magnituds. L'elecció més comuna de la funció de pèrdua és quadràtica, donant lloc al criteri d'optimalitat de l'error quadràtic mitjà.

En general, la dispersió d'un estimador al voltant del paràmetre θ és una mesura de l'eficiència i el rendiment de l'estimador. Aquest rendiment es pot calcular trobant l'error quadràtic mitjà. Més formalment, sigui T un estimador per al paràmetre θ. L'error quadràtic mitjà de T és el valor , que es pot descompondre com una suma de la seva variància i biaix:

Un estimador T1 un millor rendiment que un estimador T2 si [2] Per a un cas més específic, si T1 i T2 són dos estimadors no esbiaixats per al mateix paràmetre θ, aleshores es pot comparar la variància per determinar el rendiment. En aquest cas, T2 és més eficient que T1 si la variància de T2 és menor que la variància de T1, és a dir , per a tots els valors de θ. Aquesta relació es pot determinar simplificant el cas més general anterior per a l'error quadràtic mitjà; com que el valor esperat d'un estimador no esbiaixat és igual al valor del paràmetre, Per tant, per a un estimador no esbiaixat, , com el el terme desapareix per ser igual a 0.[2]

Si un estimador no esbiaixat d'un paràmetre θ assoleix per a tots els valors del paràmetre, l'estimador s'anomena eficient.[3]

De manera equivalent, l'estimador aconsegueix la igualtat en la desigualtat de Cramér-Rao per a tot θ. El límit inferior de Cramér-Rao és un límit inferior de la variància d'un estimador no esbiaixat, que representa el "millor" que pot ser un estimador no esbiaixat.

Un estimador eficient és també l'estimador no esbiaixat de mínima variància (MVUE). Això és degut al fet que un estimador eficient manté la igualtat en la desigualtat de Cramér-Rao per a tots els valors dels paràmetres, la qual cosa significa que assoleix la mínima variància per a tots els paràmetres (la definició de l'MVUE). L'estimador MVUE, fins i tot si existeix, no és necessàriament eficient, perquè "mínim" no significa que la igualtat es compleixi en la desigualtat de Cramér-Rao.

Per tant, no cal que existeixi un estimador eficient, però si existeix, és el MVUE.

Eficiència de mostra finita

[modifica]

Suposem que { Pθ | θ ∈ Θ } és un model paramètric i X = (X1, …, Xn) són les dades mostrejades d'aquest model. Sigui T = T(X) un estimador per al paràmetre θ. Si aquest estimador és inesbiaixat (és a dir, E[ T ] = θ ), aleshores la desigualtat de Cramér-Rao estableix que la variància d'aquest estimador està limitada per sota:

on és la matriu d'informació de Fisher del model en el punt θ. Generalment, la variància mesura el grau de dispersió d'una variable aleatòria al voltant de la seva mitjana. Així, els estimadors amb petites variàncies estan més concentrats, estimen els paràmetres amb més precisió. Diem que l'estimador és un estimador eficient de mostra finita (de la classe dels estimadors no esbiaixats) si arriba al límit inferior de la desigualtat de Cramér-Rao anterior, per a tot θ ∈ Θ. Els estimadors eficients són sempre estimadors no esbiaixats de mínima variància. Tanmateix, el contrari és fals: existeixen problemes d'estimació puntual per als quals l'estimador no esbiaixat de mitjana de mínima variància és ineficient.[4]

Històricament, l'eficiència de mostra finita va ser un criteri d'optimalitat primerenc. Tanmateix, aquest criteri té algunes limitacions:

  • Els estimadors eficients de mostra finita són extremadament rars. De fet, es va demostrar que l'estimació eficient només és possible en una família exponencial i només per als paràmetres naturals d'aquesta família.[5]
  • Aquesta noció d'eficiència de vegades es restringeix a la classe d'estimadors no esbiaixats. (Sovint no ho és.[6]) Com que no hi ha bones raons teòriques per exigir que els estimadors siguin no esbiaixats, aquesta restricció és inconvenient. De fet, si utilitzem l'error quadràtic mitjà com a criteri de selecció, molts estimadors esbiaixats superaran lleugerament els "millors" no esbiaixats. Per exemple, en estadística multivariant per a la dimensió tres o més, l'estimador no esbiaixat de mitjana, la mitjana mostral, és inadmissible : independentment del resultat, el seu rendiment és pitjor que, per exemple, l'estimador de James-Stein.
  • L'eficiència de mostra finita es basa en la variància, com a criteri segons el qual es jutgen els estimadors. Un enfocament més general és utilitzar funcions de pèrdua diferents de les quadràtiques, en aquest cas l'eficiència de mostra finita ja no es pot formular.

Com a exemple, entre els models que es troben a la pràctica, existeixen estimadors eficients per a: la mitjana μ de la distribució normal (però no la variància σ² ), el paràmetre λ de la distribució de Poisson, la probabilitat p en la distribució binomial o multinomial.

Considerem el model d'una distribució normal amb mitjana desconeguda però variància coneguda: { Pθ = N(θ, σ2) | θR }. Les dades consisteixen en n observacions independents i distribuïdes idènticament d'aquest model: X = (x1, …, xn). Estimem el paràmetre θ utilitzant la mitjana mostral de totes les observacions:

Aquest estimador té una mitjana θ i una variància σ2 / n, que és igual al recíproc de la informació de Fisher de la mostra. Per tant, la mitjana mostral és un estimador eficient de mostra finita per a la mitjana de la distribució normal.

Eficiència asimptòtica

[modifica]

L'eficiència asimptòtica requereix consistència (estadística), una distribució asimptòticament normal de l'estimador i una matriu de variància-covariància asimptòtica no pitjor que la de qualsevol altre estimador.[7]

Estimadors dominants

[modifica]

Si i són estimadors del paràmetre , aleshores es diu que domina si:

  1. el seu error quadràtic mitjà (MSE) és més petit per a almenys algun valor de
  2. l'MSE no supera el de per a qualsevol valor de θ.

Eficiència relativa

[modifica]

L'eficiència relativa de dos estimadors no esbiaixats es defineix com[8]

Robustesa

[modifica]

L'eficiència d'un estimador pot canviar significativament si la distribució canvia, sovint disminuint. Aquesta és una de les motivacions de l'estadística robusta: un estimador com la mitjana mostral és un estimador eficient de la mitjana poblacional d'una distribució normal, per exemple, però pot ser un estimador ineficient d'una distribució mixta de dues distribucions normals amb la mateixa mitjana i variàncies diferents. Per exemple, si una distribució és una combinació del 98% N (μ, σ) i el 2% N (μ, 10 σ), la presència de valors extrems d'aquesta última distribució (sovint "valors atípics contaminants") redueix significativament l'eficiència de la mitjana mostral com a estimador de μ. En canvi, la mitjana retallada és menys eficient per a una distribució normal, però és més robusta (és a dir, menys afectada) pels canvis en la distribució i, per tant, pot ser més eficient per a una distribució mixta. De la mateixa manera, la forma d'una distribució, com ara l'asimetria o les cues pesades, pot reduir significativament l'eficiència dels estimadors que assumeixen una distribució simètrica o cues primes.

Proves d'hipòtesi

[modifica]

Per comparar proves de significació, es pot definir una mesura significativa d'eficiència basada en la mida de mostra necessària perquè la prova aconsegueixi una potència de tasca determinada.

L'eficiència de Pitman i l'eficiència de Bahadur (o eficiència de Hodges-Lehmann)[9] es refereixen a la comparació del rendiment dels procediments de prova d'hipòtesis estadístiques.

Disseny experimental

[modifica]

Per als dissenys experimentals, l'eficiència es relaciona amb la capacitat d'un disseny per aconseguir l'objectiu de l'estudi amb una despesa mínima de recursos com ara temps i diners. En casos simples, l'eficiència relativa dels dissenys es pot expressar com la relació entre les mides de mostra necessàries per aconseguir un objectiu determinat.[10]

Referències

[modifica]
  1. Fisher, R Philosophical Transactions of the Royal Society of London A, 222, 1921, pàg. 309–368. JSTOR: 91208.
  2. 2,0 2,1 Dekking, F.M.. A Modern Introduction to Probability and Statistics: Understanding Why and How (en anglès). Springer, 2007, p. 303–305. ISBN 978-1852338961. 
  3. Fisher, R Philosophical Transactions of the Royal Society of London A, 222, 1921, pàg. 309–368. JSTOR: 91208.
  4. Romano, Joseph P. Counterexamples in Probability and Statistics (en anglès). Chapman and Hall, 1986, p. 194. 
  5. Van Trees, Harry L.; Kristine L. Bell, Zhi Tian. Detection estimation and modulation theory. (en anglès). Second, 2013. ISBN 978-1-299-66515-6. OCLC 851161356. 
  6. DeGroot. Probability and Statistics (en anglès). 3rd, 2002, p. 440–441. 
  7. Greene, William H. Econometric analysis (en anglès). 7th ed., international. Boston: Pearson, 2012. ISBN 978-0-273-75356-8. OCLC 726074601. 
  8. Wackerly, Dennis D. Mathematical statistics with applications (en anglès). Seventh. Belmont, CA: Thomson Brooks/Cole, 2008, p. 445. ISBN 9780495110811. OCLC 183886598. 
  9. «Bahadur efficiency - Encyclopedia of Mathematics» (en anglès).
  10. Dodge, Y. The Oxford Dictionary of Statistical Terms (en anglès). Oxford University Press, 2006. ISBN 0-19-920613-9.