Validació de regressió

En estadística, la validació de regressió és el procés de decidir si els resultats numèrics que quantifiquen les hipòtesis de relacions entre variables, obtinguts a partir de l'anàlisi de regressió, són acceptables com a descripcions de les dades. El procés de validació pot implicar analitzar la bondat d'ajust de la regressió, analitzar si els residus de la regressió són aleatoris i comprovar si el rendiment predictiu del model es deteriora substancialment quan s'aplica a dades que no s'han utilitzat en l'estimació del model.^[1]

Bondat de l'ajust[modifica]

Una mesura de bondat d'ajust és el R² (coeficient de determinació), que en els mínims quadrats ordinaris amb una intercepció oscil·la entre 0 i 1. No obstant això, una R² propera a 1 no garanteix que el model s'ajusti bé a les dades: com mostra el quartet d'Anscombe, una R² elevada es pot produir en presència d'una especificació incorrecta de la forma funcional d'una relació o en presència de valors atípics que distorsionen la veritable relació.^[2]

Un problema amb la R² com a mesura de validesa del model és que sempre es pot augmentar afegint més variables al model, excepte en el cas poc probable que les variables addicionals no estiguin exactament correlacionades amb la variable dependent de la mostra de dades que s'utilitza. Aquest problema es pot evitar fent una prova F de la significació estadística de l'augment de la R², o bé utilitzant la R2 ajustada.^[3]

Anàlisi de residus[modifica]

Els residus d'un model ajustat són les diferències entre les respostes observades a cada combinació de valors de les variables explicatives i la corresponent predicció de la resposta calculada mitjançant la funció de regressió. Matemàticament, s'escriu la definició del residu per a la ia observació del conjunt de dades

$e_{i}=y_{i}-f(x_{i};{\hat {\beta }}),$

amb y _i denota la resposta i-^è en el conjunt de dades i x_i el vector de variables explicatives, cadascuna estableix els valors corresponents que es troben a la i-^è observació del conjunt de dades.

Si l'ajust del model a les dades fos correcte, els residus aproximarien els errors aleatoris que fan que la relació entre les variables explicatives i la variable de resposta sigui una relació estadística. Per tant, si els residus semblen comportar-se de manera aleatòria, suggereix que el model s'ajusta bé a les dades. D'altra banda, si l'estructura no aleatòria és evident en els residus, és un clar senyal que el model s'ajusta malament a les dades. La següent secció detalla els tipus de trames que s'han d'utilitzar per provar diferents aspectes d'un model i ofereix les interpretacions correctes dels diferents resultats que es podrien observar per a cada tipus de trama.^[4]

Referències[modifica]

↑ Hiregoudar, Shravankumar. «Ways to Evaluate Regression Models» (en anglès), 04-03-2022. [Consulta: 14 abril 2024].
↑ «Validation of Regression Models: Methods and Examples» (en anglès). [Consulta: 13 abril 2024].
↑ «Assumptions Of Linear Regression – How to Validate and Fix» (en anglès), 27-10-2019. [Consulta: 14 abril 2024].
↑ Chen, Ray. «Validate Regression Models with Visual Tools and Statistical Tests in Python» (en anglès), 19-07-2023. [Consulta: 14 abril 2024].

[1] Hiregoudar, Shravankumar. «Ways to Evaluate Regression Models» (en anglès), 04-03-2022. [Consulta: 14 abril 2024].

[2] «Validation of Regression Models: Methods and Examples» (en anglès). [Consulta: 13 abril 2024].

[3] «Assumptions Of Linear Regression – How to Validate and Fix» (en anglès), 27-10-2019. [Consulta: 14 abril 2024].

[4] Chen, Ray. «Validate Regression Models with Visual Tools and Statistical Tests in Python» (en anglès), 19-07-2023. [Consulta: 14 abril 2024].

[1]

[2]

[3]

[4]