Regressió lineal mínim-quadràtica

De Viquipèdia
Dreceres ràpides: navegació, cerca

La regressió mínim-quadràtica és un mètode per trobar una recta que resumeixi la relació entre dos variables encara que només en una situació molt concreta: una de les variables ajuda a explicar o a predir l’altre; és a dir, la regressió descriu una relació entre una variable explicativa i una variables resposta.

És un cas particular del mètode dels mínims quadrats quan la funció model és lineal i també és un cas particular de la regressió lineal quan el mètode d'estimació són els mínims quadrats ordinaris.

Model de regressió lineal[modifica | modifica el codi]

En estudiar la relació entre dues variables creiem que una de les variables pot explicar o influir sobre l’altre. Una variable resposta mesura el resultat d’un estudi i és la variable dependent (y). Una variable explicativa influeix o explica canvis en la variable resposta i és la variable independent (x).

Per mostrar gràficament la relació entre dues variables quantitatives mesurades en els mateixos individus utilitzarem un diagrama de dispersió. Els valors d’una variable apareixen en l’eix de les abscisses i les de l’altre en l’eix de les ordenades. Cada individu apareix com un punt del diagrama. La seva posició depèn dels valors que tenen les dues variables a cada individu.

Amb el diagrama de dispersió, a simple vista és difícil determinar la força d’una relació lineal per això necessitem seguir una altra estratègia per analitzar-ho i utilitzar una mesura numèrica que complementi el gràfic. Utilitzarem la correlació (r) que mesura la força i la direcció de la relació lineal entre dues variables quantitatives. Per entendre la seva fórmula suposarem que tenim dades de dos variables x i y per n individus. Els valors pel primer individu són x1 i y1, pel segon són x2 i y2. Les mitjanes i les desviacions típiques de les dues variables són \bar{x} i Sx per als valors de x, i \bar{y} i Sy, per als valors de y. La fórmula de la correlació comença estandarditzant les observacions. El valor estandarditzat ens indica a quantes desviacions típiques es troba el valor respecte a la mitjana. La correlació r entre x i y és:

R = 1/(n-1) ∑((xi-x)/sx)((yi-y)/sy)

Les propietats de la correlació són:

1. No distingeix entre variables explicatives i variables resposta.

2. Han de ser variables quantitatives.

3. No varia quan canviem les unitats de mesura de x o de y perquè utilitza el valor estandarditzat de les observacions.

4. Una correlació positiva indica una associació positiva entre les variables i viceversa.

5. Sempre pren valors entre -1 i 1. Els valors propers a 0 indiquen una relació lineal molt dèbil. Els valors de r que s’apropen a -1 o 1 indiquen que els punts es troben a prop d’una recta. Els valors extrems r=-1 o r=1 es donen quan existeix una relació lineal perfecte, i els punts de diagrama de dispersió estan exactament sobre una recta.

6. Només mesura la força d’una relació lineal entre dues variables, no les relacions curvilínies.

7. Es veu afectada per unes poques observacions atípiques.


La correlació ens mostra la força i la direcció i si és una relació lineal volem mostrar-la a través d’una recta. La recta de regressió és una recta que descriu una variable resposta y a mesura que canvia una variable explicativa x. També utilitzem aquesta recta per predir el valor de y a partir d’una valor donat de x. En conseqüència els errors d’aquesta predicció estaran en y, l’eix de les ordenades del diagrama de dispersió.

Error = valor observat - valor predit

El que volem és que les distàncies verticals dels punts observats a la recta siguin el més petites possible i per tant, utilitzarem la recta de regressió mínim-quadràtica que fa que la suma dels quadrats d’aquestes distàncies siguin mínimes.

La recta de regressió mínim-quadràtica és: Y=a+bx

El pendent d’una recta de regressió és important per interpretar les dades. És la taxa de canvi, la quantitat en què varia y quan x augmenta en una unitat:

Byx= r sy/sx A= y-bx

L’ordenada de l’origen és el valor de y quan x és igual a zero. Només té significat estadístic quan x pren valors propers a 0.


L’equació de la recta de regressió facilita la predicció, només substituint x per un valor concret de l’equació.

Característiques de la regressió mínim-quadràtica[modifica | modifica el codi]

1. La diferència entre variable explicativa i variable resposta és bàsica en regressió. Si canviem els papers de les variables obtenim una recta diferent.

2. Existeix una connexió entre la correlació i la regressió. El pendent de la recta de regressió conté la correlació. Ens indica que a un canvi de la desviació típica de x li correspon un canvi de r desviacions típiques de y.

3. Sempre passa pel punt de la mitjana (x,y).

4. El quadrat de la correlació r^2 és la fracció de la variació de les y que explica la recta de regressió mínim-quadràtica de y en relació a x. r^2 = (variació de y amb x) / (variació total de les y observades)

Quan es dibuixa una recta de regressió, es veuen les desviacions observant la dispersió dels punts respecte a aquesta recta. Aquestes distàncies verticals mínimes dels punts a la recta de regressió són els residus. Un residu és la diferència entre el valor observat de la variable resposta i el valor predit per la recta de regressió. La mitjana dels residus sempre és zero. És a dir, residu = y observada - y predita.

Podem construir un diagrama de residus que és un diagrama de dispersió dels residus de la regressió en relació a la variable explicativa. Aquests diagrames ajuden a valorar l’ajustament de la recta de regressió. Cal fixar-nos en:

a) Una forma corba de la distribució dels residus indica que la relació no és lineal.

b) Un creixement o decreixements dels residus a mesura que augmenten les x la predicció serà menys precisa per als valors de x més grans.

c) Els punts individuals amb residus grans. Són observacions atípiques, ja que no encaixen en l’aspecte lineal.

d) Els punts individuals que són extrems en l’eix de les abscisses. Poden no tenir grans residus però poden ser molt importants. Una observació és influent en relació a un càlcul estadístic si en eliminar-la canvia el resultat del càlcul. En regressió mínim-quadràtica les observacions atípiques en la direcció de l’eix de les abscisses són en general, observacions influents.


Precaucions amb la regressió[modifica | modifica el codi]

La regressió només descriu relacions lineals i pot estar influenciada per unes poques observacions extremes.

No podem estendre la predicció més enllà del interval de valors de x dels que tenim dades perquè no serien fiables. L’extrapolació és la utilització d’una recta de regressió per la predicció fora de l’interval de valors de la variable explicativa x que utilitzem per obtenir la recta.

La utilització de mitjanes en la regressió habitualment, són massa altes quan s’apliquen a observacions individuals. Per això en tot estudi estadístic és important fixar-se en com s’han mesurat les variables.

A vegades la relació entre dues variables es troba molt influenciada per altres variables que no mesurem o que no sabien de la seva existència. Són les variables latents que no s’inclouen entre les variables estudiades però tenen un important efecte sobre la relació que existeix entre elles.

Quan estudiem la relació entre dues variables sovint volem demostrar quins canvis en la variable explicativa causen canvis en la variable resposta. Que existeixi una forta associació entre dues variables no és suficient per treure conclusions sobre la relació causa-efecte, per tant associació no implica causalitat. Una associació entre una variable explicativa x i una variable resposta y, no és per mi mateixa una evidència suficient de quins canvis de x realment causin canvis de y.