Regressió no lineal

De Viquipèdia
Dreceres ràpides: navegació, cerca

A estadística, la regressió no lineal és un problema d'inferència per a un model tipus:

 I = f (x, \theta)+\varepsilon

Segons dades multidimensionals  x ,  i , on  f és alguna funció no lineal respecte a alguns paràmetres desconeguts θ . Com a mínim, es pretén obtenir els valors dels paràmetres associats amb la millor corba d'ajust (habitualment, amb el mètode dels mínims quadrats). Per tal de determinar si el model és adequat, pot ser necessari utilitzar conceptes d'inferència estadística com ara intervals de confiança per als paràmetres així com proves de bondat d'ajust.

L'objectiu de la regressió no lineal es pot aclarir en considerar el cas de la regressió polinomial, la qual és millor no tractar com un cas de regressió no lineal. Quan la funció  f pren la forma:

 F (x) = a x^2+bx+c

la funció  f és no lineal en funció de  x però lineal en funció dels paràmetres desconeguts  a ,  b , i  c . Aquest és el sentit del terme "lineal" en el context de la regressió estadística. Els procediments computacionals per a la regressió polinomial són procediments de regressió lineal (múltiple), en aquest cas amb dues variables predictores  x i  x^2 . No obstant això, de vegades es suggereix que la regressió no lineal és necessària per ajustar polinomis. Les conseqüències pràctiques d'aquesta mala interpretació condueixen a que un procediment d'optimització no lineal sigui utilitzat quan en realitat hi ha una solució disponible en termes de regressió lineal. Paquets (programari) estadístics consideren, en general, més alternatives de regressió lineal que de regressió no lineal en els seus procediments.

General[modifica | modifica el codi]

Linealització[modifica | modifica el codi]

Alguns problemes de regressió no lineal poden linealitzar mitjançant una transformació en la formulació del model. Per exemple, considerem el problema de regressió no lineal (ignorant el terme d'error):

 y = a e^{b x}. \,\!

Aplicant logaritmes a banda i banda de l'equació, s'obté:

 \ln{(y)} = \ln{(a)} + b x, \,\!

la qual cosa suggereix una estimació dels paràmetres desconeguts a través d'un model de regressió lineal de ln (y) pel que fa a x, un càlcul que no requereix procediments d'optimització iterativa. De tota manera, la linealització s'ha d'utilitzar amb cura, ja que la influència de les dades en el model canvia, així com l'estructura de l'error del model i la interpretació i inferència dels resultats. Aquests poden ser resultats no molt convenients.

Cal distingir entre la "linealització" utilitzada en els paràgrafs anteriors i la "linealització local" que s'adopta per algorismes clàssics com el de Gauss-Newton. De la mateixa manera, la metodologia de models lineals generalitzats no utilitzeu linealització per a l'estimació de paràmetres.

Mínims quadrats ordinaris i ponderats[modifica | modifica el codi]

La millor corba d'ajustament es considera com aquella que minimitza la suma de les desviacions (residuals) al quadrat (SRC). Aquest és l'aproximació pel mètode de mínims quadrats (MMC). No obstant això, en aquells casos on es tenen diferents variàncies d'error per a diferents errors, cal minimitzar la suma dels residuals al quadrat ponderats (SRCP) (mètode de mínims quadrats ponderats). A la pràctica, la variància pot dependre del valor mitjà ajustat. Així que els pesos són recalculats per a cada iteració en un algorisme de mínims quadrats ponderats iteratiu.

En general, no hi ha una expressió de forma tancada per als paràmetres de millor ajust, com succeeix en el cas de la regressió lineal. Mètodes numèrics d'optimització són aplicats amb la finalitat de determinar els paràmetres de millor ajust. Una altra vegada, en contrast amb la regressió lineal, podria haver diversos màxims locals de la funció a ser optimitzada. A la pràctica, se suposen alguns valors inicials els quals juntament amb l'algorisme d'optimització condueixen a trobar el màxim global.

Estimació dels paràmetres utilitzant Mètodes de Monte Carlo[modifica | modifica el codi]

Si l'error de cada observació és conegut, llavors la precisió i fiabilitat dels paràmetres pot ser estimada mitjançant simulació de Monte Carlo. Cada observació és aleatoritzada d'acord al seu mitjana i la seva desviació estàndard. Amb el nou conjunt de dades, una nova corba és ajustada i les estimacions dels paràmetres registrades. Les observacions són llavors aleatoritzat i nous valors dels paràmetres són obtinguts. Al final, diversos conjunts de paràmetres són generats i la seva mitjana i desviació estàndard poden ser calculats.[1][2]

Programari[modifica | modifica el codi]

Diversos llenguatges de programació i programari estadístic i matemàtic contenen funcions d'optimització. Entre ells, Gauss, GNU Octave, Matlab, Mathematica, R, Splus; C++ i Fortran maple.

Vegeu també[modifica | modifica el codi]

Referències[modifica | modifica el codi]

  1. Motulsky, HJ & Ransnas, LA (1987) Fitting curves to data using nonlinear regression. FASEB J 1:365-374
  2. McIntosh, JEA & McIntosh, RP (1980) Mathematical modelling and computers in Endocrinology. p71 Springer-Verlag, Berlin, Germany.

Bibliografia[modifica | modifica el codi]

  • G.A.F Seber and C.J. Wild. Nonlinear Regression . New York: John Wiley and Sons, 1989.
  • R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists . New York: Marcel Dekker, Inc 1985 ISBN 0-8247-7227-X

Enllaços externs[modifica | modifica el codi]