Regressió logística

De Viquipèdia
Dreceres ràpides: navegació, cerca

En estadística, la regressió logística és un model de regressió per a variables dependents o de resposta binomials distribuïdes. És útil per a modelar la probabilitat d'un esdeveniment passant com a funció d'altres factors. És un model lineal generalitzat que s'utilitza com a funció d'enllaç la funció logit.

La regressió logística és utilitzada extensament en les ciències mèdiques i socials. Altres noms per regressió logística usats en diverses àrees d'aplicació inclouen model logístic , model logit , i classificador de màxima entropia .

Resum[modifica | modifica el codi]

La regressió logística analitza dades distribuïdes binomi de la forma

 Y_i \ \sim B (p_i, n_i), \quad\text{per }i = 1, \dots, m,

on els números d'assaigs Bernoulli n i són coneguts i les probabilitats d'èxit p i són desconegudes. Un exemple d'aquesta distribució és el percentatge de llavors ( p i ) que germinen després que n i són plantades.

El model és llavors obtingut en base al que cada assaig (valor de i ) i el conjunt de variables explicatives/independents pugui informar sobre la probabilitat final. Aquestes variables explicatives poden pensar com un vector X i k -dimensional i el model pren llavors la forma

 P_i = \operatorname{E} \left ( \left. \frac{Y_i}{n_{i}}\right|X_i \right). \, \!

Els logits de les probabilitats binomials desconegudes ( ie , els logaritmes dels odds) són modelades com una funció lineal dels X i .

 \operatorname{logit}(p_i) = \ln \left (\frac{p_i}{1-p_i}\right) = \beta_0+\beta_1 x_{1, i}+\cdots+\beta_k x_{k, i}.

Recordeu que un element particular de X i pot ser ajustat a 1 per a tot i obtenint-se un intercepta en el model. Els paràmetres desconeguts β j són usualment estimats a través de màxima versemblança.

La interpretació dels estimats del paràmetre β j és com els efectes additius en el log odds ratio per a una unitat de canvi en la j èsima variable explicativa. En el cas d'una variable explicativa dicotòmica, per exemple gènere,  i^\beta és l'estimació del odds ratio de tenir el resultat per a, per dir alguna cosa, homes comparats amb dones.

El model té una formulació equivalent donada per

 P_i = \frac{1}{1+i^{- (\beta_0+\beta_1 x_{1, i}+\cdots+\beta_k x_{k, i})}}. \, \!

Aquesta forma funcional és comunament identificada com un "perceptró" d'una capa simple o xarxa neuronal artificial d'una sola capa. Una xarxa neuronal d'una sola capa calcula una sortida contínua en lloc d'una funció per trossos. La derivada de p i pel que fa a X = x 1 ... x k és calculada de la forma general:

 I = \frac{1}{1+e^{-f (X )}}

on f ( X ) és una funció analítica En X . Amb aquesta escogencia, la xarxa de capa simple és idèntica al model de regressió logística. Aquesta funció té una derivada contínua, la qual permet ser utilitzada en propagació cap enrere. Aquesta funció també és preferida, ja que la seva derivada és fàcilment calculable:

 I '= i (1-i) \frac{\mathrm{d}f}{\mathrm{d}X}\, \!

Extensions[modifica | modifica el codi]

Algunes extensions del model existeixen per tractar variables dependents multicategóricas i/o ordinals, com ara la regressió politòmica. La classificació en diverses classes per regressió logística és coneguda com a logit multinomial. Una extensió del model logístic per ajustar conjunts de variables independents és el camp aleatori condicional.

Exemple[modifica | modifica el codi]

Sigui p ( x ) la probabilitat d'èxit quan el valor de la variable predictora és x . Llavors sigui

 P (x) = \frac{1}{1+i^{- (B_0+B_1x)}}= \frac{i^{B_0+B_1x}}{1+i^{B_0+B_1x}}.

Després d'algun àlgebra es prova que

 \frac{p (x)}{1-p (x)}= i^{B_0+B_1x},

on  \frac{p (x)}{1-p (x)} són els odds a favor d'èxit.

Si prenem un valor d'exemple, diguem p (50) = 2/3, llavors

 \frac{p (50)}{1-p (50)}= \frac{\frac{2}{3}}{1 - \frac{2}{3}}= 2.

Quan x = 50, un èxit és dues vegades tan probable com una falla. És a dir, es pot dir simplement que els odds són 2 $ a 1.

Vegeu també[modifica | modifica el codi]

Enllaços externs[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  • Agresti, Alan. Categorical Data Analysis. New York: Wiley-Interscience, 2002. ISBN 0-471-36093-7. 
  • Amemiya, T. Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0. 
  • Balakrishnan, N. Handbook of the Logistic Distribution. Marcel Dekker, Inc, 1991. ISBN 978-0824785871. 
  • Green, William H. Econometric Analysis, Fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9. 
  • Hosmer, David W.; Stanley Lemeshow. Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley, 2000. ISBN 0-471-35632-8.