Aprenentatge per similitud

L'aprenentatge de similitud és una àrea d'aprenentatge automàtic supervisat en intel·ligència artificial. Està estretament relacionat amb la regressió i la classificació, però l'objectiu és aprendre una funció de semblança que mesura com de semblants o relacionats són dos objectes. Té aplicacions en el rànquing, en sistemes de recomanació, seguiment d'identitat visual, verificació facial i verificació de parlants.^[1]

Configuració d'aprenentatge[modifica]

Hi ha quatre configuracions comunes per a l'aprenentatge a distància mètric i semblança:

Aprenentatge per similitud de regressió: En aquesta configuració, es donen parells d'objectes juntament amb una mesura de la seva similitud . L'objectiu és aprendre una funció aproximada per a cada nou exemple de triplet etiquetat . Això s'aconsegueix normalment minimitzant una pèrdua regularitzada .
Aprenentatge per similitud de classificació: Es donen parelles d'objectes semblants i objectes no semblants . Una formulació equivalent és que cada parell es dona juntament amb una etiqueta binària que determina si els dos objectes són semblants o no. L'objectiu és tornar a aprendre un classificador que pugui decidir si un nou parell d'objectes és semblant o no.
Classificació de l'aprenentatge per similitud: Es donen tres bessons d'objectes la semblança relativa del qual obeeix a un ordre predefinit: se sap que és més semblant a que a . L'objectiu és aprendre una funció tal que per a qualsevol nou triplet d'objectes , obeeix (aprenentatge contrastiu). Aquesta configuració suposa una forma de supervisió més feble que en la regressió, perquè en comptes de proporcionar una mesura exacta de semblança, només cal proporcionar l'ordre relatiu de semblança. Per aquest motiu, l'aprenentatge per similitud basat en la classificació és més fàcil d'aplicar en aplicacions reals a gran escala.
Hashing sensible a la localitat (LSH): Ratlla els elements d'entrada de manera que els elements similars es maquin als mateixos "cubs" a la memòria amb una alta probabilitat (el nombre de dipòsits és molt més petit que l'univers dels possibles elements d'entrada). Sovint s'aplica a la cerca de veïnatge més proper en dades d'alta dimensió a gran escala, per exemple, bases de dades d'imatges, col·leccions de documents, bases de dades de sèries temporals i bases de dades del genoma.

Un enfocament comú per a l'aprenentatge de la semblança és modelar la funció de semblança com una forma bilineal. Per exemple, en el cas de l'aprenentatge de semblança de classificació, es pretén aprendre una matriu W que parametritzi la funció de semblança. $f_{W}(x,z)=x^{T}Wz$ . Quan les dades són abundants, un enfocament comú és aprendre una xarxa siamesa: un model de xarxa profunda amb compartició de paràmetres.

Aplicacions[modifica]

L'aprenentatge per similitud s'utilitza en la recuperació d'informació per aprendre a classificar, en la verificació facial o la identificació facial,^[2]^[3] i en els sistemes de recomanació. A més, molts enfocaments d'aprenentatge automàtic depenen d'alguna mètrica. Això inclou l'aprenentatge no supervisat, com ara l'agrupació, que agrupa objectes propers o similars. També inclou enfocaments supervisats com l'algoritme K-nearest neighbor que es basen en etiquetes d'objectes propers per decidir l'etiqueta d'un objecte nou. L'aprenentatge mètric s'ha proposat com un pas de preprocessament per a molts d'aquests enfocaments.^[4]

Referències[modifica]

↑ Martino, Thomas Di. «Introduction to Deep Similarity Learning for sequences» (en anglès). https://towardsdatascience.com,+19-06-2020.+[Consulta: 16 agost 2023].
↑ Guillaumin, M.; Verbeek, J.; Schmid, C. IEEE International Conference on Computer Vision (ICCV), 2009.
↑ Mignon, A.; Jurie, F. IEEE Conference on Computer Vision and Pattern Recognition, 2012.
↑ Xing, E. P.; Ng, A. Y.; Jordan, M. I.; Russell, S. Advances in Neural Information Processing Systems, 15, 2002, pàg. 505–512.

[1] Martino, Thomas Di. «Introduction to Deep Similarity Learning for sequences» (en anglès). https://towardsdatascience.com,+19-06-2020.+[Consulta: 16 agost 2023].

[GUILLAUMIN-2] Guillaumin, M.; Verbeek, J.; Schmid, C. IEEE International Conference on Computer Vision (ICCV), 2009.

[MIGNON-3] Mignon, A.; Jurie, F. IEEE Conference on Computer Vision and Pattern Recognition, 2012.

[XING-4] Xing, E. P.; Ng, A. Y.; Jordan, M. I.; Russell, S. Advances in Neural Information Processing Systems, 15, 2002, pàg. 505–512.

[1]

[2]

[3]

[4]