Errors i residus

De la Viquipèdia, l'enciclopèdia lliure
Línia veritable teòrica i la recta de regressió estimada . La diferència entre la lectura i valor estimat.

En estadística i optimització, els errors i els residus són dues mesures estretament relacionades i fàcilment confoses de la desviació d'un valor observat d'un element d'una mostra estadística del seu "valor veritable" (no necessàriament observable). L'error d'una observació és la desviació del valor observat respecte al valor real d'una quantitat d'interès (per exemple, una mitjana de població). El residu és la diferència entre el valor observat i el valor estimat de la quantitat d'interès (per exemple, una mitjana mostral). La distinció és més important en l'anàlisi de regressió, on els conceptes de vegades s'anomenen errors de regressió i residus de regressió i on porten al concepte de residus estudiats. En econometria, els "errors" també s'anomenen pertorbacions.[1][2][3]

Explicació[modifica]

Suposem que hi ha una sèrie d'observacions d'una distribució univariada i volem estimar la mitjana d'aquesta distribució (l'anomenat model de localització). En aquest cas, els errors són les desviacions de les observacions respecte a la mitjana de la població, mentre que els residus són les desviacions de les observacions respecte a la mitjana mostral.

Un error estadístic (o pertorbació) és la quantitat en què una observació difereix del seu valor esperat, basant-se aquest últim en tota la població de la qual s'ha escollit aleatòriament la unitat estadística. Per exemple, si l'alçada mitjana d'una població d'homes de 21 anys és d'1,75 metres i un home escollit a l'atzar fa 1,80 metres, llavors l'"error" és de 0,05 metres; si l'home escollit a l'atzar fa 1,70 metres d'alçada, llavors l'"error" és -0,05 metres. El valor esperat, essent la mitjana de tota la població, sol ser inobservable i, per tant, tampoc no es pot observar l'error estadístic.

Una desviació residual (o desviació d'ajust), d'altra banda, és una estimació observable de l'error estadístic no observable. Considereu l'exemple anterior amb l'alçada dels homes i suposem que tenim una mostra aleatòria de n persones. La mitjana mostral podria servir com a bon estimador de la mitjana de la població . Aleshores tenim:

  • La diferència entre l'alçada de cada home de la mostra i la mitjana de la població no observable és un error estadístic, mentre que
  • La diferència entre l'alçada de cada home de la mostra i la mitjana de la mostra observable és un residu.


Cal tenir en compte que, a causa de la definició de la mitjana mostral, la suma dels residus d'una mostra aleatòria és necessàriament zero i, per tant, els residus no són necessàriament independents. Els errors estadístics, en canvi, són independents, i la seva suma dins de la mostra aleatòria gairebé segur que no és zero.

Es poden estandarditzar els errors estadístics (especialment d'una distribució normal) en una puntuació z (o "puntuació estàndard"), i estandarditzar els residus en una estadística t, o més generalment els residus estudiats.[4]

Referències[modifica]

  1. Kennedy, P. A Guide to Econometrics (en anglès). Wiley, 2008, p. 576. ISBN 978-1-4051-8257-7. 
  2. Wooldridge, J.M.. Introductory Econometrics: A Modern Approach (en anglès). Cengage Learning, 2019, p. 57. ISBN 978-1-337-67133-0. 
  3. Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1 (en anglès). Springer Singapore, 2019, p. 7. ISBN 978-981-329-019-8. 
  4. «What is the difference between errors and residuals?» (en anglès). https://stats.stackexchange.com.+[Consulta: 14 agost 2023].