Regressió lineal

De Viquipèdia
Dreceres ràpides: navegació, cerca

En la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre una variable dependent I, les variables independents X i i un terme aleatori ε. Aquest model es pot expressar com:

 I =\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_p X_p+\varepsilon

Exemple d'una regressió lineal amb una variable dependent i una variable independent.

on \beta_0 és la intersecció o terme "constant", les \beta_i (i> 0) són els paràmetres respectius a cada variable independent, i  p és el nombre de paràmetres independents que cal tenir en compte en la regressió. La regressió lineal pot ser contrastada amb la regressió no lineal.

Història[modifica | modifica el codi]

La primera forma de regressions lineals documentada va ser el mètode dels mínims quadrats, el qual va ser publicat per Legendre a 1805,[1] i per Gauss a 1809.[2] El terme "mínims quadrats" prové de la descripció donada per Legendre "moindre carrés" . No obstant això Gauss va assegurar que coneixia aquest mètode des de 1795.

Tant Legendre com Gauss aplicar el mètode per determinar, a partir d'observacions astronòmiques, les òrbites de cossos al voltant del sol. A 1821, Gauss va publicar un treball on desenvolupava de manera més profunda el mètode dels mínims quadrats,[3] i on s'incloïa una versió del teorema de Gauss-Markov.

Etimologia[modifica | modifica el codi]

El terme regressió es va utilitzar per primera vegada en l'estudi de variables antropomètriques: en comparar l'estatura de pares i fills, va resultar que els fills els pares tenien una alçada molt superior al valor mitjà tendien a igualar-se a aquest, mentre que aquells els pares eren molt baixos tendien a reduir la seva diferència respecte a l'estatura mitjana, és a dir, "tornaven" al mitjana.[4] La constatació empírica d'aquesta propietat es va veure reforçada més tard amb la justificació teòrica d'aquest fenomen.

El terme lineal s'utilitza per a distingir de la resta de tècniques de regressió, que utilitzen models basats en qualsevol classe de funció matemàtica. Els models lineals són una explicació simplificada de la realitat, molt més àgil i amb un suport teòric per part de la matemàtica i la estadística molt més extens.

El model de regressió lineal[modifica | modifica el codi]

El model lineal relaciona la variable dependent i amb K variables explicatives  x_k (k = 1, ... K), o qualsevol transformació d'aquestes, que generen un hiperplà de paràmetres \beta_k desconeguts:

(2)  I =\sum\beta_k x_k+\varepsilon

on \varepsilon és la pertorbació aleatòria que recull tots aquells factors de la realitat no controlables o observables i que per tant s'associen amb el atzar, i és la que confereix al model el seu caràcter estocàstic. En el cas més senzill de dues variables explicatives, el hiperplà és una recta:

(3)  I =\beta_1+\beta_2 x_2+\varepsilon

El problema de la regressió consisteix a escollir uns valors determinats per als paràmetres desconeguts \beta_k , de manera que l'equació quedi completament especificada. Per a això es necessita un conjunt d'observacions. En una observació qualsevol i-èsima (i = 1, ... I) es registra el comportament simultani de la variable dependent i les variables explicatives (les pertorbacions aleatòries se suposen no observables ).

(4)  Y_i =\sum\beta_k X_{ki}+\varepsilon_i

Els valors escollits com estimador és dels paràmetres, \hat{\beta_k}, són els coeficients de regressió, sense que es pugui garantir que coincideixen amb paràmetres reals del procés generador. Per tant, en

(5)  Y_i =\sum\hat{\beta_k}X_{ki}+\hat{\varepsilon_i}

Els valors \hat{\varepsilon_i} són per la seva banda estimacions de la pertorbació aleatòria o errors.

Supòsits del model de regressió lineal[modifica | modifica el codi]

Per poder crear un model de regressió lineal, cal que es compleixi amb els següents supòsits:[5]

  1. La relació entre les variables és lineal.
  2. Els errors són independents.
  3. Els errors tenen variància constant.
  4. Els errors tenen una esperança matemàtica igual a zero.
  5. L'error total és la suma de tots els errors.

Tipus de models de regressió lineal[modifica | modifica el codi]

Hi ha diferents tipus de regressió lineal que es classifiquen d'acord als seus paràmetres:

Regressió lineal simple[modifica | modifica el codi]

Només es maneja una variable independent, pel que només compta amb dos paràmetres. Són de la forma:[6]

(6)  Y_i =\beta_0+\beta_1 X_i+\varepsilon_i

on \varepsilon_i és l'error associat a la mesura del valor  X_i i segueixen els supòsits de manera que \varepsilon_i\sim N (0,\sigma^2) (mitjana zero, variància constant i igual a un \sigma i \varepsilon_i\perp\varepsilon_j amb  i\neq j ).

Anàlisi[modifica | modifica el codi]

Donat el model de regressió simple, si es calcula l'esperança (valor esperat) del valor I , s'obté:[7]

(7)  E (y_i) =\hat{y_i}= E (\beta_0)+E (\beta_1 x_i)+E (\varepsilon_i)

(8)  =\hat{\beta_0}+\hat{\beta_1}x_i

Calculant \hat{\beta_0} i \hat{\beta_1}. Per això es busquen aquests paràmetres que minimitzin \sum (y_i -\hat{y_i})^2 =\sum\hat{\varepsilon}_i^2

Derivant respecte a \hat{\beta}_0 i \hat{\beta}_1 i igualant a zero, s'obté:[7]

(9) \frac{\partial\sum (y_i -\hat{y_i})^2}{\partial\hat{\beta}_0}= 0

(10) \frac{\partial\sum (y_i -\hat{y_i})^2}{\partial\hat{\beta}_1}= 0

Obtenint dues equacions anomenades equacions normals que generen la següent solució per a tots dos paràmetres:[6]

(11) \hat{\beta_1}=\frac{\sum x\sum y - n\sum xy}{\left (\sum x\right)^2 - n\sum x^2}=\frac{\sum (x-\bar{x}) (y-\bar{y})}{\sum (x -\bar{x})^2}

(12) \hat{\beta_0}=\frac{\sum y -\hat{\beta}_1\sum x}{n}=\bar{y}-\hat{\beta_1}\bar{x}

La interpretació del paràmetre beta 2 és que un increment en Xi d'una unitat, Yi s'incrementarà en beta 2

Regressió lineal múltiple[modifica | modifica el codi]

Maneja diverses variables independents. Compta amb diversos paràmetres. S'expressen de la forma:[8]

(13)  Y_i =\beta_0+\sum\beta_i X_{ip}+\varepsilon_i

on \varepsilon_i és l'error associat a la mesura  i del valor  X_{ip} i segueixen els supòsits de manera que \varepsilon_i\sim N (0,\sigma^2) (mitjana zero, variància constant i igual a un \sigma i \varepsilon_i\perp\varepsilon_j amb  i\neq j ).

Rectes de regressió[modifica | modifica el codi]

Les rectes de regressió són les rectes que millor s'ajusten al núvol de punts (o també anomenat diagrama de dispersió) generat per una distribució binomial. Matemàticament, són possibles dues rectes de màxim ajust:[9]

  • La recta de regressió de Y sobre X :

(14) y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})

  • La recta de regressió de X sobre Y:

(15) x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})

El coeficient de correlació (r) de les rectes determinarà la qualitat de l'ajust. Si r és proper o igual a 1, l'ajust serà bo, si r és proper o igual a 0, es tractarà d'un ajustament baix. Les dues rectes de regressió s'intersecten en un punt anomenat centre de gravetat de la distribució.

Aplicacions de la regressió lineal[modifica | modifica el codi]

Línies de tendència[modifica | modifica el codi]

Una línia de tendència representa una tendència en una sèrie de dades obtingudes a través d'un llarg període de temps. Aquest tipus de línies pot dir-nos si un conjunt de dades en particular (com per exemple, el PIB, el preu del petroli o el valor de les accions) han augmentat o decrementat en un determinat període de temps.[10] Es pot dibuixar una línia de tendència a primera vista fàcilment a partir d'un grup de punts, però la seva posició i pendent es calcula de manera més precisa utilitzant tècniques estadística s com les regressions lineals. Les línies de tendència són generalment línies rectes, encara que algunes variacions utilitzen polinomis de major grau depenent de la curvatura desitjada en la línia.

Medicina[modifica | modifica el codi]

En medicina, les primeres proves relacionant la mortalitat amb el fumar tabac[11] van venir d'estudis que utilitzaven la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions espúries. En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la seva educació o posició econòmica. No obstant, és impossible incloure totes les variables possibles en un estudi de regressió.[12][13] En l'exemple del tabaquisme, un hipotètic gen podria augmentar la mortalitat i augmentar la propensió a adquirir malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat les proves controlades aleatòries són considerades molt més fiables que les anàlisis de regressió.

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. AM Legendre. Nouvelles méthodes pour la détermination des orbitas des cometes (1805). "Sur la Méthode des moindre Quarré" apareix com un apèndix.
  2. CF Gauss. Theoria motus corporum Coelestium in Sectionibus Conicis Solem Ambientum . (1809)
  3. CF Gauss. Theoria combinationis observationum erroribus minimis obnoxiae . (1821/1823)
  4. [http ://www.curvefit.com/linear_regression.htm Introduction to linear regression] Curvefit.com (en anglès)
  5. " Anàlisi de regressió lineal ", Universitat Complutense de Madrid
  6. 6,0 6,1 "Fórmules", Probabilitat i Estadística. Cs. Bàsiques. U.D.B. Matemàtica. Universitat Tecnològica Nacional, Facultat Regional Buenos Aires. Editorial CEIT-FRBA. (Codi BM2BT2)
  7. 7,0 7,1 Model de regressió lineal simple. EinsteinNet.
  8. Tècniques de regressió: Regressió Lineal Múltiple. Pertegas Díaz, S., Pita Fernández, S. Unitat d'Epidemiologia Clínica i Bioestadística. Complex Hospitalari de La Corunya (Espanya)
  9. Apunt sobre Rectes de regressió. Ministeri d'Educació i Ciència. Govern d'Espanya.
  10. Utilització de les línies de tendència, Paritech (en anglès)
  11. Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years 'observations on male British doctors . BMJ 1994; 309:901-911 (8 d'octubre]
  12. "Environmental Tobacco Smoke and Adult Asthma " Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine, Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universitat de Califòrnia, San Francisco, Califòrnia. (en anglès)
  13. Efecte del tabaquisme, els símptomes respiratoris i l'asma sobre la espirometria d'adults de la Ciutat de Mèxic, Justí Regalado-Pineda; Alejandro Gómez-Gómez; Javier Ramírez-Acosta, Juan Carlos Vázquez-García

Bibliografia[modifica | modifica el codi]

  • Devore, Jay L.; Probabilitat i Estadística per Enginyeria i Ciències . International Thomson Editores. Mèxic. ISBN 9706864571.
  • Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilitat i Estadística per a Enginyers . Pretice-Hall Hispanoamericana, S.A. Mèxic. ISBN 9701702646.
  • Canavos, George C.; Probabilitat i Estadística. Aplicacions i Mètodes. McGraw-Hill. Mèxic. ISBN 9684518560.

Enllaços externs[modifica | modifica el codi]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Regressió lineal Modifica l'enllaç a Wikidata