Vés al contingut

Incrustació del nucli de distribucions

De la Viquipèdia, l'enciclopèdia lliure

En l'aprenentatge automàtic, la incrustació de distribucions del nucli (també anomenada mitjana del nucli o mapa de mitjana) comprèn una classe de mètodes no paramètrics en què una distribució de probabilitat es representa com un element d'un espai de Hilbert del nucli reproductor (RKHS). Una generalització de l'assignació de característiques de punts de dades individuals feta en mètodes clàssics del nucli, la incrustació de distribucions en espais de característiques de dimensions infinites pot preservar totes les característiques estadístiques de distribucions arbitràries, alhora que permet comparar i manipular distribucions mitjançant operacions espacials de Hilbert com ara com a productes interns, distàncies, projeccions, transformacions lineals i anàlisi espectral. Aquest marc d'aprenentatge és molt general i es pot aplicar a distribucions en qualsevol espai sobre la qual una funció sensible del nucli (mesura la similitud entre els elements de ) es poden definir. Per exemple, s'han proposat diversos nuclis per aprendre a partir de dades que són: vectors in , classes/categories discretes, cadenes, gràfics/xarxes, imatges, sèries temporals, varietats, sistemes dinàmics i altres objectes estructurats. La teoria darrere de les incrustacions del nucli de distribucions ha estat desenvolupada principalment per Alex Smola, Le Song Arxivat 2021-04-12 a Wayback Machine., Arthur Gretton i Bernhard Schölkopf. Es pot trobar una revisió dels treballs recents sobre incrustació del nucli de distribucions a.[1]

L'anàlisi de distribucions és fonamental en l'aprenentatge automàtic i les estadístiques, i molts algorismes d'aquests camps es basen en enfocaments teòrics de la informació com l'entropia, la informació mútua o la divergència Kullback-Leibler. No obstant això, per estimar aquestes quantitats, primer s'ha de realitzar una estimació de densitat o utilitzar estratègies sofisticades de partició espacial/correcció de biaix que normalment són inviables per a dades d'alta dimensió. Normalment, els mètodes per modelar distribucions complexes es basen en supòsits paramètrics que poden ser infundats o difícils de calcular (p. ex. Models de mescles gaussianes), mentre que els mètodes no paramètrics com l'estimació de la densitat del nucli (Nota: els nuclis de suavització en aquest context tenen una interpretació diferent de la dels nuclis discutits aquí) o la representació de funcions característiques (mitjançant la transformada de Fourier de la distribució) es descomponen en configuracions d'alta dimensió.[2]

Els mètodes basats en la incrustació del nucli de distribucions eviten aquests problemes i també tenen els avantatges següents: [3]

  1. Les dades es poden modelar sense hipòtesis restrictives sobre la forma de les distribucions i les relacions entre variables
  2. No cal estimar la densitat intermèdia
  3. Els professionals poden especificar les propietats d'una distribució més rellevant per al seu problema (incorporant coneixements previs mitjançant l'elecció del nucli)
  4. Si s'utilitza un nucli característic, la incrustació pot preservar de manera única tota la informació sobre una distribució, mentre que gràcies al truc del nucli, els càlculs sobre el RKHS de dimensions potencialment infinites es poden implementar a la pràctica com a simples operacions de matriu de Gram.
  5. Es poden demostrar les taxes de convergència independents de la dimensionalitat per a la mitjana del nucli empírica (estimada utilitzant mostres de la distribució) a la incrustació del nucli de la veritable distribució subjacent.
  6. Els algorismes d'aprenentatge basats en aquest marc mostren una bona capacitat de generalització i convergència de mostres finites, tot i que sovint són més simples i eficaços que els mètodes teòrics de la informació.

Per tant, l'aprenentatge mitjançant la incorporació del nucli de distribucions ofereix un reemplaçament de principis per als enfocaments teòrics de la informació i és un marc que no només inclou molts mètodes populars en aprenentatge automàtic i estadístiques com a casos especials, sinó que també pot conduir a algorismes d'aprenentatge completament nous.[4]

Referències[modifica]

  1. Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharath; Schölkopf, Bernhard (en english) Foundations and Trends in Machine Learning, 10, 1–2, 28-06-2017, pàg. 1–141. arXiv: 1605.09522. DOI: 10.1561/2200000060. ISSN: 1935-8237.
  2. Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharath; Schölkopf, Bernhard «Kernel Mean Embedding of Distributions: A Review and Beyond». Foundations and Trends® in Machine Learning, 10, 1-2, 2017, pàg. 1–141. DOI: 10.1561/2200000060. ISSN: 1935-8237.
  3. «[https://jmlr.csail.mit.edu/papers/volume19/16-291/16-291.pdf Kernel Distribution Embeddings: Universal Kernels, Characteristic Kernels and Kernel Metrics on Distributions]» (en anglès). https://jmlr.csail.mit.edu.+[Consulta: 21 agost 2023].
  4. Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharath; Schölkopf, Bernhard «Kernel mean embedding of distributions: A review and beyond». Foundations and Trends in Machine Learning, 10, 1-2, 2017, pàg. 1–141. DOI: 10.1561/2200000060. ISSN: 1935-8237.