Aprenentatge de diccionari escàs

L'aprenentatge de diccionari escàs (també conegut com a codificació escassa o SDL) és un mètode d'aprenentatge de representació que té com a objectiu trobar una representació escassa de les dades d'entrada en forma d'una combinació lineal d'elements bàsics així com d'aquests elements bàsics. Aquests elements s'anomenen àtoms i formen un diccionari. No cal que els àtoms del diccionari siguin ortogonals i poden ser un conjunt que abasta massa. Aquesta configuració del problema també permet que la dimensionalitat dels senyals que es representen sigui superior a la dels senyals que s'observen. Les dues propietats anteriors porten a tenir àtoms aparentment redundants que permeten múltiples representacions del mateix senyal, però també proporcionen una millora en l'escassetat i la flexibilitat de la representació.^[1]

Una de les aplicacions més importants de l'aprenentatge de diccionaris escàs és en el camp de la detecció comprimida o la recuperació del senyal. En la detecció comprimida, es pot recuperar un senyal d'alta dimensió amb només unes quantes mesures lineals sempre que el senyal sigui escàs o gairebé escàs. Com que no tots els senyals compleixen aquesta condició d'esparsitat, és de gran importància trobar una representació escassa d'aquest senyal, com ara la transformada wavelet o el gradient direccional d'una matriu rasteritzada. Una vegada que una matriu o un vector d'alta dimensió es transfereix a un espai escàs, es poden utilitzar diferents algorismes de recuperació com la recerca de base, CoSaMP ^[2] o algorismes ràpids no iteratius per recuperar el senyal. Un dels principis clau de l'aprenentatge del diccionari és que el diccionari s'ha de deduir de les dades d'entrada. L'aparició de mètodes d'aprenentatge de diccionaris dispersos es va estimular pel fet que en el processament del senyal normalment es vol representar les dades d'entrada utilitzant el mínim de components possible. Abans d'aquest enfocament, la pràctica general era utilitzar diccionaris predefinits (com les transformades de Fourier o wavelet). No obstant això, en determinats casos un diccionari entrenat per adaptar-se a les dades d'entrada pot millorar significativament l'esparsitat, que té aplicacions en la descomposició, compressió i anàlisi de dades i s'ha utilitzat en els camps de la eliminació de sorolls i la classificació d'imatges, el processament de vídeo i àudio. L'escàs i els diccionaris sobrecomplets tenen immenses aplicacions en compressió d'imatges, fusió d'imatges i inpainting.

Algorismes[modifica]

Com que el problema d'optimització descrit anteriorment es pot resoldre com un problema convex pel que fa al diccionari o a la codificació escassa, mentre que l'altre dels dos està fixat, la majoria dels algorismes es basen en la idea d'actualitzar iterativament un i després l'altre.

El problema de trobar una codificació escassa òptima $R$ amb un diccionari determinat $\mathbf {D}$ es coneix com a aproximació escassa (o de vegades només problema de codificació escassa). S'han desenvolupat una sèrie d'algorismes per resoldre'l (com ara la recerca de concordança i LASSO) i s'incorporen als algorismes que es descriuen a continuació.

Aplicacions[modifica]

El marc d'aprenentatge del diccionari, és a dir, la descomposició lineal d'un senyal d'entrada utilitzant uns quants elements bàsics apresos de les mateixes dades, ha donat lloc a resultats d'última generació en diverses tasques de processament d'imatges i vídeo. Aquesta tècnica es pot aplicar als problemes de classificació de manera que si hem construït diccionaris específics per a cada classe, el senyal d'entrada es pot classificar trobant el diccionari corresponent a la representació més escassa.

També té propietats útils per eliminar el soroll del senyal, ja que normalment es pot aprendre un diccionari per representar la part significativa del senyal d'entrada d'una manera escassa, però el soroll a l'entrada tindrà una representació molt menys escassa.

L'aprenentatge escàs del diccionari s'ha aplicat amb èxit a diverses tasques de processament d'imatges, vídeo i àudio, així com a la síntesi de textures ^[3] i l'agrupació no supervisada.^[4] En avaluacions amb el model Bag-of-Words,^[5]^[6] es va trobar que la codificació escassa superava empíricament altres enfocaments de codificació en les tasques de reconeixement de categories d'objectes.

Referències[modifica]

↑ «[https://cse.msu.edu/~cse902/S14/ppt/Sparse%20Coding%20and%20Dictionary%20Learning.pdf An Introduction to Sparse Coding and Dictionary Learning]» (en anglès). https://cse.msu.edu.+[Consulta: 15 agost 2023].
↑ Needell, D.; Tropp, J.A. Applied and Computational Harmonic Analysis, 26, 3, 2009, pàg. 301–321. arXiv: 0803.2392. DOI: 10.1016/j.acha.2008.07.002.
↑ Peyré, Gabriel Journal of Mathematical Imaging and Vision, 34, 1, 06-11-2008, pàg. 17–31. DOI: 10.1007/s10851-008-0120-3. ISSN: 0924-9907.
↑ Ramirez, Ignacio. «Classification and clustering via dictionary learning with structured incoherence and shared features». A: 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (en anglès). Los Alamitos, CA, USA: IEEE Computer Society, 2010, p. 3501–3508. DOI 10.1109/CVPR.2010.5539964. ISBN 978-1-4244-6984-0.
↑ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian Computer Vision and Image Understanding, 117, 5, 01-05-2013, pàg. 479–492. DOI: 10.1016/j.cviu.2012.10.010. ISSN: 1077-3142.
↑ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 2, 24-02-2017, pàg. 313–326. DOI: 10.1109/TPAMI.2016.2545667. ISSN: 0162-8828. PMID: 27019477.

[1] «[https://cse.msu.edu/~cse902/S14/ppt/Sparse%20Coding%20and%20Dictionary%20Learning.pdf An Introduction to Sparse Coding and Dictionary Learning]» (en anglès). https://cse.msu.edu.+[Consulta: 15 agost 2023].

[2] Needell, D.; Tropp, J.A. Applied and Computational Harmonic Analysis, 26, 3, 2009, pàg. 301–321. arXiv: 0803.2392. DOI: 10.1016/j.acha.2008.07.002.

[3] Peyré, Gabriel Journal of Mathematical Imaging and Vision, 34, 1, 06-11-2008, pàg. 17–31. DOI: 10.1007/s10851-008-0120-3. ISSN: 0924-9907.

[4] Ramirez, Ignacio. «Classification and clustering via dictionary learning with structured incoherence and shared features». A: 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (en anglès). Los Alamitos, CA, USA: IEEE Computer Society, 2010, p. 3501–3508. DOI 10.1109/CVPR.2010.5539964. ISBN 978-1-4244-6984-0.

[5] Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian Computer Vision and Image Understanding, 117, 5, 01-05-2013, pàg. 479–492. DOI: 10.1016/j.cviu.2012.10.010. ISSN: 1077-3142.

[6] Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 2, 24-02-2017, pàg. 313–326. DOI: 10.1109/TPAMI.2016.2545667. ISSN: 0162-8828. PMID: 27019477.

[1]

[2]

[3]

[4]

[5]

[6]