Models de difusió

De la Viquipèdia, l'enciclopèdia lliure
Exemple de models de difusió d'eliminació de soroll en imatges.

En l'aprenentatge automàtic, els models de difusió, també coneguts com a models probabilístics de difusió, són una classe de models de variables latents. Són cadenes de Markov entrenades mitjançant inferència variacional.[1] L'objectiu dels models de difusió és aprendre l'estructura latent d'un conjunt de dades modelant la manera com els punts de dades es difonen a través de l'espai latent. En visió per ordinador, això significa que una xarxa neuronal està entrenada per eliminar el soroll d'imatges borroses amb el soroll gaussià aprenent a invertir el procés de difusió.[2][3] Tres exemples de marcs de modelització de difusió genèrics utilitzats en visió per ordinador són els models probabilístics de difusió de soroll, les xarxes de puntuació condicionades al soroll i les equacions diferencials estocàstiques.[4]

Els models de difusió es van introduir el 2015 amb una motivació de la termodinàmica no d'equilibri.[5]

Els models de difusió es poden aplicar a una varietat de tasques, com ara l'eliminació de sorolls d'imatges, la pintura incorporada, la superresolució i la generació d'imatges. Per exemple, un model de generació d'imatges començaria amb una imatge de soroll aleatòria i després, després d'haver estat entrenat invertint el procés de difusió sobre imatges naturals, el model seria capaç de generar noves imatges naturals. Anunciat el 13 d'abril de 2022, el model de text a imatge d'OpenAI DALL-E 2 és un exemple recent. Utilitza models de difusió tant per a l'anterior del model (que produeix una incrustació d'imatges amb un títol de text) com per al descodificador que genera la imatge final.[6]

Referències[modifica]

  1. Ho, Jonathan; Jain, Ajay; Abbeel, Pieter Denoising Diffusion Probabilistic Models, 19-06-2020. arXiv: 2006.11239.
  2. Score-Based Generative Modeling through Stochastic Differential Equations. 
  3. Vector Quantized Diffusion Model for Text-to-Image Synthesis. 
  4. Diffusion models in vision: A survey. 
  5. Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (en anglès) Proceedings of the 32nd International Conference on Machine Learning, 37, 01-06-2015, pàg. 2256–2265.
  6. . https://arxiv.org/abs/2204.06125