Potenciació de gradient

La potenciació de gradient (en anglès, gradient boosting) és una tècnica d'aprenentatge automàtic (en anglès, machine learning) per problemes de regressió i classificació, que produeix un model de predicció a partir d'un conjunt de models de predicció febles (normalment, arbres de decisió). Aquesta tècnica construeix el model d'una manera seqüencial com fan altres algoritmes de potenciació i generalitza aquests a través de l'optimització d'una funció de pèrdua diferenciable.

La idea de la potenciació de gradient sorgeix d'un article de Leo Breiman en el qual la potenciació (en anglès, boosting) s'interpreta com un algoritme d'optimització d'una funció de cost amb determinades característiques.^[1] Posteriorment, Jerome H. Friedman va desenvolpuar algoritmes explícits per problemes de regressió i classificació,^[2]^[3] i Llew Mason, Jonathan Baxter, Peter Bartlett i Marcus Frean van desenvolupar un enfocament més generalitzat.^[4] Aquests dos articles van introduir una visió dels algoritmes de potenciació com algoritmes iteratius de descens de gradient, és a dir, algoritmes que optimitzen una funció de cost sobre un espai de funcions a través d'escollir iterativament una funció que apunta a la direcció negativa del gradient. Aquesta visió dels algoritmes de potenciació ha permès el desenvolupament de nous algoritmes en moltes àrees d'aprenentatge automàtic i estadística més enllà de la classificació i regressió.

Introducció[modifica]

La tècnica de potenciació de gradient parteix d'un model feble inicial (normalment s'utilitza la mitja de la variable objectiu). A partir d'aquest model inicial, en cada iteració $m$ , $1\leq m\leq M$ , l'algoritme millora el model a partir d'un nou model que afegeixi un estimador $h$ :

F_{m+1}(x)=F_{m}(x)+h(x)

.

Per trobar $h$ , partim de l'observació que un estimador $h$ perfecte implicaria:

F_{m+1}(x)=F_{m}(x)+h(x)=y

o, de manera equivalent,

h(x)=y-F_{m}(x)

.

Per això, l'algoritme de potenciació de gradient ajustarà l'estimador $h$ al residu $y-F_{m}(x)$ . Com a altres variants d'algoritmes de potenciació, cada model $F_{m+1}$ busca corregir els errors del model anterior $F_{m}$ .

(segueix...)

Referències[modifica]

↑ Breiman, Leo «Arcing the Edge». Technical Report 486. Statistics Department, University of California, Berkeley, Juny 1997.
↑ Friedman, Jerome H. Greedy Function Approximation: A Gradient Boosting Machine (tesi), Febrer 1999.
↑ Friedman. Stochastic Gradient Boosting (tesi), Març 1999.
↑ Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus «Boosting Algorithms as Gradient Descent». Advances in Neural Information Processing Systems 12. MIT Press., pàg. 512-528.

[1] Breiman, Leo «Arcing the Edge». Technical Report 486. Statistics Department, University of California, Berkeley, Juny 1997.

[2] Friedman, Jerome H. Greedy Function Approximation: A Gradient Boosting Machine (tesi), Febrer 1999.

[3] Friedman. Stochastic Gradient Boosting (tesi), Març 1999.

[4] Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus «Boosting Algorithms as Gradient Descent». Advances in Neural Information Processing Systems 12. MIT Press., pàg. 512-528.

[1]

[2]

[3]

[4]