Màquines d'aprenentatge extrem

Les màquines d'aprenentatge extrem són xarxes neuronals anticipades per a la classificació, la regressió, l'agrupació, l'aproximació escassa, la compressió i l'aprenentatge de funcions amb una sola capa o diverses capes de nodes ocults, on els paràmetres dels nodes ocults (no només els pesos que connecten les entrades als nodes ocults) necessiten per ser afinat. Aquests nodes ocults es poden assignar aleatòriament i no actualitzar-se mai (és a dir, són de projecció aleatòria però amb transformacions no lineals), o es poden heretar dels seus avantpassats sense canviar-los. En la majoria dels casos, els pesos de sortida dels nodes ocults s'aprenen generalment en un sol pas, que bàsicament equival a aprendre un model lineal.

El nom de "màquina d'aprenentatge extrem" (ELM) va ser donat a aquests models per Guang-Bin Huang. La idea es remunta a Frank Rosenblatt, que no només va publicar una sola capa Perceptron l'any 1958,^[1] sinó que també va introduir un perceptró multicapa amb 3 capes: una capa d'entrada, una capa oculta amb pesos aleatoris que no van aprendre i un capa de sortida d'aprenentatge.^[2]

Segons alguns investigadors, aquests models són capaços de produir un bon rendiment de generalització i d'aprendre milers de vegades més ràpid que les xarxes entrenades mitjançant la retropropagació.^[3] A la literatura, també mostra que aquests models poden superar les màquines vectorials de suport tant en aplicacions de classificació com de regressió.^[4]^[5]

Història[modifica]

Entre 2001 i 2010, la investigació de l'ELM es va centrar principalment en el marc d'aprenentatge unificat per a xarxes neuronals d'alimentació anticipada d'una sola capa "generalitzada" (SLFN), incloses, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar,^[6] xarxes trigonomètriques, borroses. sistemes d'inferència, sèries de Fourier,^[7]^[8] Transformada Laplacià, xarxes wavelet,^[9] etc. Un assoliment significatiu aconseguit en aquests anys és demostrar amb èxit les capacitats universals d'aproximació i classificació de l'ELM en teoria.^[7] ^[10]^[11]

Algorismes[modifica]

Donada una única capa oculta d'ELM, suposem que la funció de sortida de la $i$ -el node ocult és $h_{i}(\mathbf {x} )=G(\mathbf {a} _{i},b_{i},\mathbf {x} )$ , on $\mathbf {a} _{i}$ i $b_{i}$ són els paràmetres de la $i$ -è node ocult. La funció de sortida de l'ELM per a xarxes de feedforward de capa oculta única (SLFN) amb $L$ nodes ocults és:

$f_{L}({\bf {x}})=\sum _{i=1}^{L}{\boldsymbol {\beta }}_{i}h_{i}({\bf {x}})$ , on ${\boldsymbol {\beta }}_{i}$ és el pes de sortida del $i$ -è node ocult.

$\mathbf {h} (\mathbf {x} )=[h_{i}(\mathbf {x} ),...,h_{L}(\mathbf {x} )]$ és el mapeig de sortida de la capa oculta d'ELM. Donat $N$ mostres d'entrenament, la matriu de sortida de la capa oculta $\mathbf {H}$ d'ELM es dóna com:

${\bf {H}}=\left[{\begin{matrix}{\bf {h}}({\bf {x}}_{1})\\\vdots \\{\bf {h}}({\bf {x}}_{N})\end{matrix}}\right]=\left[{\begin{matrix}G({\bf {a}}_{1},b_{1},{\bf {x}}_{1})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{1})\\\vdots &\vdots &\vdots \\G({\bf {a}}_{1},b_{1},{\bf {x}}_{N})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{N})\end{matrix}}\right]$

i $\mathbf {T}$ és la matriu objectiu de dades d'entrenament:

${\bf {T}}=\left[{\begin{matrix}{\bf {t}}_{1}\\\vdots \\{\bf {t}}_{N}\end{matrix}}\right]$

En termes generals, ELM és una mena de xarxes neuronals de regularització, però amb mapes de capes ocultes no sintonitzades (formades per nodes ocults aleatoris, nuclis o altres implementacions), la seva funció objectiu és:

${\text{Minimització: }}\|{\boldsymbol {\beta }}\|_{p}^{\sigma _{1}}+C\|{\bf {H}}{\boldsymbol {\beta }}-{\bf {T}}\|_{q}^{\sigma _{2}}$

on $\sigma _{1}>0,\sigma _{2}>0,p,q=0,{\frac {1}{2}},1,2,\cdots ,+\infty$

Diferents combinacions de $\sigma _{1}$ , $\sigma _{2}$ , $p$ i $q$ es pot utilitzar i donar lloc a diferents algorismes d'aprenentatge per a regressió, classificació, codificació escassa, compressió, aprenentatge de funcions i agrupació.

Arquitectures[modifica]

En la majoria dels casos, ELM s'utilitza com a xarxa d'alimentació anticipada de capa oculta (SLFN) que inclou, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar, xarxes d'inferència difusa, xarxes neuronals complexes, xarxes wavelet, transformada de Fourier, transformada Laplacià, etc. A causa de les seves diferents implementacions d'algorismes d'aprenentatge per a la regressió, la classificació, la codificació escassa, la compressió, l'aprenentatge de característiques i l'agrupació, els multi ELM s'han utilitzat per formar xarxes de múltiples capes ocultes, aprenentatge profund o xarxes jeràrquiques.^[12]^[13]

Referències[modifica]

↑ Rosenblatt, Frank Psychological Review, 65, 6, 1958, pàg. 386–408. DOI: 10.1037/h0042519. PMID: 13602029.
↑ Rosenblatt, Frank. Principles of Neurodynamics (en anglès). Spartan, New York, 1962.
↑ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong Neurocomputing, 70, 1, 2006, pàg. 489–501. DOI: 10.1016/j.neucom.2005.12.126.
↑ Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 42, 2, 2012, pàg. 513–529. DOI: 10.1109/tsmcb.2011.2168604. PMID: 21984515.
↑ Huang, Guang-Bin «Còpia arxivada». Cognitive Computation, 7, 3, 2015, pàg. 263–278. Arxivat de l'original el 2017-06-10. DOI: 10.1007/s12559-015-9333-0 [Consulta: 15 agost 2023].
↑ Huang, Guang-Bin, Qin-Yu Zhu, K. Z. Mao, Chee-Kheong Siew, P. Saratchandran, and N. Sundararajan IEEE Transactions on Circuits and Systems-II: Express Briefs, 53, 3, 2006, pàg. 187–191. DOI: 10.1109/tcsii.2005.857540.
↑ ^7,0 ^7,1 Huang, Guang-Bin, Lei Chen, and Chee-Kheong Siew IEEE Transactions on Neural Networks, 17, 4, 2006, pàg. 879–892. DOI: 10.1109/tnn.2006.875977. PMID: 16856652.
↑ Rahimi, Ali, and Benjamin Recht Advances in Neural Information Processing Systems, 21, 2008.
↑ Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang Neurocomputing, 73, 7–9, 2010, pàg. 1405–1416. DOI: 10.1016/j.neucom.2009.12.007.
↑ Huang, Guang-Bin, Lei Chen Neurocomputing, 70, 16–18, 2007, pàg. 3056–3062. DOI: 10.1016/j.neucom.2007.02.009.
↑ Huang, Guang-Bin, and Lei Chen Neurocomputing, 71, 16–18, 2008, pàg. 3460–3468. DOI: 10.1016/j.neucom.2007.10.008.
↑ Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong IEEE Computational Intelligence Magazine, 10, 2, 2015, pàg. 18–29. DOI: 10.1109/mci.2015.2405316.
↑ Tang, Jiexiong, Chenwei Deng, and Guang-Bin Huang IEEE Transactions on Neural Networks and Learning Systems, 27, 4, 2016, pàg. 809–821. DOI: 10.1109/tnnls.2015.2424995. PMID: 25966483.

[1] Rosenblatt, Frank Psychological Review, 65, 6, 1958, pàg. 386–408. DOI: 10.1037/h0042519. PMID: 13602029.

[rosenblatt1962-2] Rosenblatt, Frank. Principles of Neurodynamics (en anglès). Spartan, New York, 1962.

[3] Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong Neurocomputing, 70, 1, 2006, pàg. 489–501. DOI: 10.1016/j.neucom.2005.12.126.

[:43-4] Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 42, 2, 2012, pàg. 513–529. DOI: 10.1109/tsmcb.2011.2168604. PMID: 21984515.

[:03-5] Huang, Guang-Bin «Còpia arxivada». Cognitive Computation, 7, 3, 2015, pàg. 263–278. Arxivat de l'original el 2017-06-10. DOI: 10.1007/s12559-015-9333-0 [Consulta: 15 agost 2023].

[6] Huang, Guang-Bin, Qin-Yu Zhu, K. Z. Mao, Chee-Kheong Siew, P. Saratchandran, and N. Sundararajan IEEE Transactions on Circuits and Systems-II: Express Briefs, 53, 3, 2006, pàg. 187–191. DOI: 10.1109/tcsii.2005.857540.

[:12-7] 7,0 ^7,1 Huang, Guang-Bin, Lei Chen, and Chee-Kheong Siew IEEE Transactions on Neural Networks, 17, 4, 2006, pàg. 879–892. DOI: 10.1109/tnn.2006.875977. PMID: 16856652.

[8] Rahimi, Ali, and Benjamin Recht Advances in Neural Information Processing Systems, 21, 2008.

[9] Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang Neurocomputing, 73, 7–9, 2010, pàg. 1405–1416. DOI: 10.1016/j.neucom.2009.12.007.

[:24-10] Huang, Guang-Bin, Lei Chen Neurocomputing, 70, 16–18, 2007, pàg. 3056–3062. DOI: 10.1016/j.neucom.2007.02.009.

[:33-11] Huang, Guang-Bin, and Lei Chen Neurocomputing, 71, 16–18, 2008, pàg. 3460–3468. DOI: 10.1016/j.neucom.2007.10.008.

[:5-12] Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong IEEE Computational Intelligence Magazine, 10, 2, 2015, pàg. 18–29. DOI: 10.1109/mci.2015.2405316.

[:6-13] Tang, Jiexiong, Chenwei Deng, and Guang-Bin Huang IEEE Transactions on Neural Networks and Learning Systems, 27, 4, 2016, pàg. 809–821. DOI: 10.1109/tnnls.2015.2424995. PMID: 25966483.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]