Regularització de l'esparsitat estructurada

La regularització de la dispersió estructurada és una classe de mètodes i una àrea d'investigació en la teoria de l'aprenentatge estadístic, que estenen i generalitzen els mètodes d'aprenentatge de la regularització de la dispersió. ^[1] Tant els mètodes de regularització de l'escassetat com l'estructurada busquen explotar el supòsit que la variable de sortida $Y$ (és a dir, resposta o variable dependent) a aprendre es pot descriure mitjançant un nombre reduït de variables a l'espai d'entrada $X$ (és a dir, el domini, l'espai de característiques o variables explicatives). Els mètodes de regularització de la dispersió se centren a seleccionar les variables d'entrada que descriuen millor la sortida. Els mètodes de regularització de la dispersió estructurada generalitzen i amplien els mètodes de regularització de la dispersió, permetent una selecció òptima sobre estructures com ara grups o xarxes de variables d'entrada en $X$ . ^[2]

La motivació comuna per a l'ús de mètodes de dispersió estructurada és la interpretabilitat del model, l'aprenentatge d'alta dimensió (on la dimensionalitat de $X$ pot ser superior al nombre d'observacions $n$ ), i reducció de la complexitat computacional. A més, els mètodes d'esparsitat estructurada permeten incorporar supòsits previs sobre l'estructura de les variables d'entrada, com ara grups superposats, ^[3] grups no superposats i gràfics acíclics. Alguns exemples d'ús dels mètodes d'esparsitat estructurada inclouen el reconeixement facial, el processament d'imatges de ressonància magnètica (MRI), ^[4] l'anàlisi sociolingüística en el processament del llenguatge natural, ^[5] i l'anàlisi de l'expressió genètica en el càncer de mama. ^[6]

Definició i conceptes relacionats

Regularització de la dispersió

Considereu el problema de minimització del risc empíric regularitzat del nucli lineal amb una funció de pèrdua $V(y_{i},f(x))$ i la $\ell _{0}$ "norma" com a penalització de regularització:

$\min _{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},\langle w,x_{i}\rangle )+\lambda \|w\|_{0},$

on $x,w\in \mathbb {R^{d}}$ , i $\|w\|_{0}$ denota la $\ell _{0}$ "norma", definit com el nombre d'entrades diferents de zero del vector $w$ . $f(x)=\langle w,x_{i}\rangle$ es diu que és escàs si $\|w\|_{0}=s<d$ . El que significa que la sortida $Y$ es pot descriure mitjançant un petit subconjunt de variables d'entrada.

De manera més general, suposa un diccionari $\phi _{j}:X\rightarrow \mathbb {R}$ amb $j=1,...,p$ es dóna, de manera que la funció objectiu $f(x)$ d'un problema d'aprenentatge es pot escriure com:

$f(x)=\sum _{j=1}^{p}\phi _{j}(x)w_{j}$ , $\forall x\in X$

El $\ell _{0}$ norma $\|f\|_{0}=\|w\|_{0}$ com el nombre de components diferents de zero de $w$ es defineix com

$\|w\|_{0}=|\{j|w_{j}\neq 0,j\in \{1,...,p\}\}|$ , on $|A|$ és la cardinalitat del conjunt $A$ .

$f$ es diu que és escàs si $\|f\|_{0}=\|w\|_{0}=s<d$ .

Tanmateix, mentre s'utilitza el $\ell _{0}$ La norma de regularització afavoreix solucions més disperses, és difícil d'utilitzar computacionalment i, a més, no és convexa. Una norma computacionalment més factible que afavoreix solucions més disperses és la $\ell _{1}$ norma; S'ha demostrat que encara afavoreix solucions més disperses i, a més, és convex.

Regularització de l'escassetat estructurada

La regularització de l'escassetat estructurada amplia i generalitza el problema de selecció de variables que caracteritza la regularització de l'escassetat.[1][2] Considereu el problema de minimització del risc empíric regularitzat anteriorment amb un nucli general i un mapa de característiques associats ϕj:X→R amb j=1,...,p

. $\min _{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},\langle w,\Phi (x_{i})\rangle )+\lambda \|w\|_{0},$

El termini de regularització λ‖w‖0 penalitza a cadascun wj component independentment, el que significa que l'algorisme suprimirà les variables d'entrada de manera independent les unes de les altres.

En diverses situacions podem voler imposar més estructura en el procés de regularització, de manera que, per exemple, les variables d'entrada es suprimeixin segons grups predefinits. Els mètodes de regularització de l'esparsa estructurada permeten imposar aquesta estructura afegint estructura a les normes que defineixen el terme de regularització.

Usos i aplicacions addicionals

Els mètodes de regularització de la dispersió estructurada s'han utilitzat en diversos entorns on es vol imposar una estructura de variables d'entrada a priori al procés de regularització. Algunes d'aquestes aplicacions són:

Detecció compressiva en imatges de ressonància magnètica (MRI), reconstrucció d'imatges de RM a partir d'un nombre reduït de mesures, que pot produir reduccions significatives en el temps d'exploració de RM
Reconeixement facial robust en presència de desalineació, oclusió i variació d'il·luminació
Descobrint associacions sociolingüístiques entre les freqüències lèxiques utilitzades pels autors de Twitter i les variables sociodemogràfiques de les seves comunitats geogràfiques
Anàlisi de selecció de gens de dades de càncer de mama utilitzant anteriors de grups superposats, per exemple, conjunts de gens biològicament significatius

Referències

↑ Rosasco, Lorenzo. A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes (en anglès), December 2014.
↑ Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.
↑ Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.
↑ Chen, Chen. «Compressive Sensing MRI with Wavelet Tree Sparsity». A: Proceedings of the 26th Annual Conference on Neural Information Processing Systems (en anglès). 25. Curran Associates, 2012, p. 1115–1123.
↑ Eisenstein, Jacob; etal Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011.
↑ Jacob, Laurent; etal Proceedings of the 26th International Conference on Machine Learning, 2009.

[rosPoggio-1] Rosasco, Lorenzo. A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes (en anglès), December 2014.

[groupLasso-2] Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.

[groupLasso2-3] Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.

[MRI-4] Chen, Chen. «Compressive Sensing MRI with Wavelet Tree Sparsity». A: Proceedings of the 26th Annual Conference on Neural Information Processing Systems (en anglès). 25. Curran Associates, 2012, p. 1115–1123.

[sociolinguistic-5] Eisenstein, Jacob; etal Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011.

[genetic-6] Jacob, Laurent; etal Proceedings of the 26th International Conference on Machine Learning, 2009.

[1]

[2]

[3]

[4]

[5]

[6]