Regressió logística

De la Viquipèdia, l'enciclopèdia lliure

En estadística, la regressió logística és un model de regressió per a variables dependents o de resposta binomials distribuïdes. És útil per a modelar la probabilitat d'un esdeveniment passant com a funció d'altres factors. És un model lineal generalitzat que s'utilitza com a funció d'enllaç la funció logit.

La regressió logística és utilitzada extensament en les ciències mèdiques i socials. Altres noms per regressió logística usats en diverses àrees d'aplicació inclouen model logístic , model logit , i classificador de màxima entropia .

Resum[modifica]

La regressió logística analitza dades distribuïdes binomi de la forma

on els nombres d' assaigs de Bernoulli n i són coneguts i les probabilitats d'èxit p i són desconegudes. Un exemple d'aquesta distribució és el percentatge de llavors ( p i ) que germinen després que n i són plantades.

El model és llavors obtingut sobre la base del que cada assaig (valor de i ) i el conjunt de variables explicatives/independents pugui informar sobre la probabilitat final. Aquestes variables explicatives poden pensar com un vector X i k -dimensional i el model pren llavors la forma

Els logits de les probabilitats binomials desconegudes ( ie , els logaritmes dels odds) són modelats com una funció lineal dels X i .

Recordeu que un element particular de X i pot ser ajustat a 1 per a tot i obtenint-se un intercepta en el model. Els paràmetres desconeguts β j són usualment estimats a través de màxima versemblança.

La interpretació dels estimats del paràmetre β j és com els efectes additius en el log odds ratio per a una unitat de canvi en la j èsima variable explicativa. En el cas d'una variable explicativa dicotòmica, per exemple gènere, és l'estimació del odds ratio de tenir el resultat per a, per dir alguna cosa, homes comparats amb dones.

El model té una formulació equivalent donada per

Aquesta forma funcional és comunament identificada com un "perceptró" d'una capa simple o xarxa neuronal artificial d'una sola capa. Una xarxa neuronal d'una sola capa calcula una sortida contínua en lloc d'una funció per trossos. La derivada de p i pel que fa a X = x 1 ... x k és calculada de la forma general:

on f ( X ) és una funció analítica En X . Amb aquesta selecció, la xarxa de capa simple és idèntica al model de regressió logística. Aquesta funció té una derivada contínua, la qual permet ser utilitzada en propagació cap enrere. Aquesta funció també és preferida, ja que la seva derivada és fàcilment calculable:

Extensions[modifica]

Algunes extensions del model existeixen per tractar variables dependents multicategóricas i/o ordinals, com ara la regressió politòmica. La classificació en diverses classes per regressió logística és coneguda com a logit multinomial. Una extensió del model logístic per ajustar conjunts de variables independents és el camp aleatori condicional.

Exemple[modifica]

Sigui p ( x ) la probabilitat d'èxit quan el valor de la variable predictora és x . Llavors sigui

Després d'algun àlgebra es prova que

on són els odds a favor d'èxit.

Si prenem un valor d'exemple, diguem p (50) = 2/3, llavors

Quan x = 50, un èxit és dues vegades tan probable com una falla. És a dir, es pot dir simplement que els odds són 2 $ a 1.

Vegeu també[modifica]

Referències[modifica]

  • Agresti, Alan. Categorical Data Analysis. Nova York: Wiley-Interscience, 2002. ISBN 0-471-36093-7. 
  • Amemiya, T. Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0. 
  • Balakrishnan, N. Handbook of the Logistic Distribution. Marcel Dekker, Inc, 1991. ISBN 978-0824785871. 
  • Green, William H. Econometric Analysis, Fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9. 
  • Hosmer, David W.; Stanley Lemeshow. Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley, 2000. ISBN 0-471-35632-8. 

Enllaços externs[modifica]