Regressió segmentada

De Viquipèdia
Dreceres ràpides: navegació, cerca

Regressió segmentada o regressió per trossos és un mètode en l'anàlisi de regressió en què la variable independent és particionada a intervals ajustant en cada interval una línia o corba a les dades. La regressió segmentada es pot aplicar també a la regressió amb múltiples variables independents particionant totes aquestes.

Regressió segmentada lineal, tipus 3

La regressió segmentada útil quan el variable dependent mostra una reacció abruptament diferent de la variable independent en els diversos segments. En aquest cas el límit entre els segments s'anomena punt de fallida .

Regressió segmentada lineal és la regressió segmentada en què la relació entre el variable dependent i independent dins dels segments s'obté per regressió lineal.

Regressió segmentada lineal, 2 segments[modifica | modifica el codi]

1r membre horitzontal
1r membre inclinat cap amunt
1r membre inclinat cap avall

Regressió segmentada lineal en dos segments separats per un punt de fallida pot ser útil per quantificar un canvi abrupte en la funció de reacció d'un factor d'interès a la variació d'un altre factor influencial. El punt de fallida s'interpreta com un valor assegurança , crític o llindar quan efectes (no) desitjats succeeixen a un dels dos costats.
El punt de fallida pot ser un factor important per a la presa de decisions de maneig.[1]

L'anàlisi de la regressió segmentada es basa en la presència d'un joc de dades ( i, x ), on i és el variable dependent i x l'variable independent, és a dir que el valor de x influeix el valor de i .

El mètode dels mínims quadrats aplicat separadament a cada segment, per la qual cosa les dues línies de regressió s'ajusten a les dades tan a prop com sigui possible minimitzant la suma dels quadrats de les diferències (SCD) entre el valor observat ( i ) i valor calculat per regressió ( Yr ) de la variable dependent, és a les equacions següents:

  • 110% per x < PQ (punt de fallida)
  • 110% per x > PQ (punt de fallida)

on:

Yr és el valor esperat (pronosticat) de i per a un cert valor de x
A 1 i A 2 són els coeficients de regressió indicant la inclinació de les línies en els segments respectius
K 1 and K 2 són els constants de regressió en els segments respectius indicant els valors de Yr quan x = 0

Les dades poden mostrar diferents tipus de tendència,[2] vegeu les figures.

El mètode també rendeix dos coeficients de correlació:

  • 110%} per x < PQ (punt de fallida)
  • 110%} per x > PQ (punt de fallida)

on

Suma{( i - Yr ) 2 }és la suma de quadrats de les diferències (SCD) minimitzat per segment
Ya1 i Ya2 són els valors mitjanes de i en els segments respectius

Quan no es detecta un punt de fallida, cal tornar a una regressió sense punt de fallida.

Exemple[modifica | modifica el codi]

Per a la figura blau amunt, que dóna la relació entre la collita de mostassa (colza) en t/ha i la salinitat del sòl ( x = Ss ) expressada en conductivitat elèctrica (EC a d S/m) de la solució del sòl,[3] es desprèn que:

  • PQ = 4.93, A 1 = 0, K 1 = 1.74, A 2 = -0.129, K 2 = 2.38, ( R 1 ) 2 = 0,0035 (no significant), ( R 2 ) 2 = 0,395 (significant) i:
  • Yr = 1.74 t/ha per Ss <4.93 (punt de fallida)
  • Yr = -0.129 Ss +2.38 t/ha per Ss > 4.93 (punt de fallida)

indicant que una salinitat del sòl <4.93 dS/m és segura i una salinitat del sòl> 4.93 redueix la cosecha0.129 tona/ha per unitat d'augment de salinitat de sòl.

La figura també mostra intervals de confiança i inseguretat.

Procediment de proves[modifica | modifica el codi]

Exemple d'una sèrie temporal de descàrregues d'un riu, tipus 5

Les següents proves estadístiques s'empren per determinar el tipus de tendència:

  1. Significativitat estadística del punt de fallida (PQ) expressant PQ com una funció dels coeficients de regressió A 1 i A 2 , les mitjanes Y 1 i Y 2 de les dades i , i les mitjanes X 1 i X 2 de les dades x (al costat esquerre i dret de PQ respectivament), utilitzant la lleis de propagació d'errors En addicions i multiplicacions per a la computació de l'error estàndard (ES) de PQ, seguit per la prova t de Student
  2. Significativitat estadística de A 1 i A 2 aplicant la prova t de Student i l'error estàndard ES de A 1 i A 2
  3. Significativitat estadística de la diferència de A 1 i A 2 aplicant la prova t de Student i l'error estàndard ÉS de la diferència
  4. Significativitat estadística de la diferència de Y 1 i Y 2 aplicant la prova t de Student i l'error estàndard ÉS de la diferència

Addicionalment es fa servir de coeficient de correlació de totes les dades ( Ra ), l' coeficient de determinació (o coeficient d'explicació ), intervals de confiança de les funcions (línies) de regressió, i una anàlisi de la variància (ANOVA).[4]

El coeficient de determinació de totes les dades ( Cd ), la qual cosa s'ha de maximitzar sota les condicions especificats a dalt en proves estadístiques , es defineixi com:

  • 110%}

on Yr és el valor esperat (pronosticat) de i d'acord amb les equacions de regressió prèvies, i Ya és la mitjana de tots els valors i . El coeficient Cd pot variar entre 0 (cap explicació de la regressió segmentada) i 1 (perfecta explicació).
En una regressió lineal pura, sense segmentació, els valors de Cd i Ra 2 són iguals. A la regressió segmentada, Cd ha de ser significativament més gran que Ra 2 per justificar la segmentació.

L'optimització del punt de fallida PQ s'arriba provant una sèrie de punts temptatives i seleccionant el punt que té el coeficient Cd màxim.

Referències[modifica | modifica el codi]

  1. Frequency and Regression Analysis . Capítol 6 a: H.P. Ritzema (ed., 1994), Drainage Principles and Applications , Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754339. Veure aquí, sota no. 13, o directament com a PDF.
  2. Drainage research in Farmers 'fields: analysis of data . Part of project "Liquid Gold" of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. Veure aquí
  3. RJOosterbaan, DPSharma, KNSingh and KVGKRao, 1990, Crop production and Soil Salinity: evaluation of field data from Índia by segments linears regression . In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25 to March 2nd, 1990, Cairo, Egypt, Vol 3, Session V, p. 373-383
  4. Statistical significance of segments linears regression with break-point using variance analysis and F-tests . Veure aquí, baix. no. 13, o directament com a PDF.

Enllaços externs[modifica | modifica el codi]