Error quadràtic mig

De Viquipèdia
Salta a la navegació Salta a la cerca

En estadística, l'error quadràtic mig (EQM), conegut també en anglès per Mean Squared Error (MSE), d'un estimador mesura la mitjana dels errors al quadrat, és a dir, la diferència entre l'estimador i el que s'estima. L'EQM és una funció de risc, corresponent al valor esperat de la pèrdua de l'error al quadrat o pèrdua quadràtica. La diferència és deguda a l'aleatorietat o bé perquè l'estimador no té en compte la informació que podria produir una estimació més precisa.[1]

L'EQM és una mesura de la qualitat d'un estimador, sempre és no negatiu i els valors pròxims a cero són millors.

L'EQM és el segon moment estadístic de l'error, i per tant incorpora tant la variància de l'estimador així com el seu biaix. Per a un estimador no esbiaixat, l'EQM és la variància de l'estimador. Igual que la variància, l'EQM té les mateixes unitats de mesura que el quadrat de la quantitat que s'estima. En una analogia amb la desviació estàndard, prenent l'arrel quadrada de l'EQM produeix l'error de l'arrel quadrada de la mitjana o la desviació de l'arrel quadrada mitjana (RMSE o RMSD), que té les mateixes unitats que la quantitat que s'estima; per a un estimador no esbiaixat, el RMSE és l'arrel quadrada de la variància, coneguda com a desviació estàndard.

Definició i propietats bàsiques[modifica]

L'EQM valora la qualitat d'un predictor (és a dir, una funció que assigna entrades arbitràries a una mostra de valors d'alguna variable aleatòria), o un estimador (és a dir, una funció matemàtica que assigna una mostra de dades a una estimació d'un paràmetre de la població de la qual es prenen les dades). La definició de EQM difereix segons es descrigui un predictor o un estimador.

Predictor[modifica]

Si es genera un vector de prediccions a partir d'una mostra de n punts en totes les variables, i és el vector dels valors observats de la variable que es prediu, sent els valors predits (per exemple, a partir d'un ajust de mínims quadrats), llavors l'EQM dins de la mostra del predictor es calcula com

És a dir, l'EQM és la mitjana dels quadrats dels errors . Aquesta és una quantitat fàcilment calculable per a una mostra particular (i per tant depèn de la mostra).

L'EQM també pot calcular-se en q punts de dades que no es van utilitzar en l'estimació del model, ja sigui perquè es van retenir per a aquest propòsit o perquè aquestes dades s'han obtingut recentment. En aquest procés, que es coneix com a validació encreuada, i es calcula com

Estimador[modifica]

L'EQM d'un estimador pel que fa al paràmetre desconegut es defineix com

Aquesta definició depèn del paràmetre desconegut, però l'EQM és a priori una propietat d'un estimador. L'EQM podria ser una funció de paràmetres desconeguts, i en aquest cas qualsevol estimador de l'EQM basat en estimacions d'aquests paràmetres seria una funció de les dades i per tant una variable aleatòria. Si l'estimador es deriva com una mostra estadística i s'utilitza per a estimar algun paràmetre de la població, llavors l'expectativa és respecte a la distribució de mostreig de la mostra estadística.

L'EQM pot escriure's com la suma de la variància de l'estimador i el biaix quadrat de l'estimador, proporcionant una forma útil de calcular la EQM i implicant que en el cas dels estimadors no esbiaixats, la EQM i la variància són equivalents.[2]

Demostració[modifica]

Exemples[modifica]

Mitjana[modifica]

Donada una mostra aleatòria de grandària n d'una població: .

Suposem que les unitats de mostra es van triar amb reemplaçament, és a dir, les n unitats se seleccionen una a una, de forma que unitats prèviament seleccionades segueixen sent elegibles per a ser seleccionades mentre encara quedin unitats per completar la mostra. L'estimador usual de la mitjana és la mitjana de la mostra

la qual té un valor esperat igual a la mitjana real μ (donat que és imparcial) amb un error quadràtic mig de

on és la variància de la població.

Per a una distribució gaussiana és doncs el millor estimador no esbiaixat (és a dir, que té l'EQM més baix entre tots els estimadors no esbiaixats), però no, per exemple, per una distribució uniforme.

Variància[modifica]

L'estimador usual per a la variància és la variància mostral:

Aquest estimador és centrat (no esbiaixat), és a dir, el seu valor esperat és . El seu EQM és [3]

a on és el quart moment central de la distribució o de la població i és l'excés de curtosi

Referències[modifica]

  1. Lehmann, E. L.; Casella, George. Theory of Point Estimation. 2nd. New York: Springer, 1998. ISBN 0-387-98502-6. 
  2. Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. Mathematical Statistics with Applications. 7ª ed.. Belmont, CA, USA: Thomson Higher Education, 2008. ISBN 0-495-38508-5. 
  3. Mood, A.; Graybill, F. Introduction to the Theory of Statistics. 3ª ed.. McGraw-Hill, 1974.