Xarxa generativa antagònica

De la Viquipèdia, l'enciclopèdia lliure

Les xarxes generatives antagòniques, conegudes com a GAN (Gemerative Adversarial Networks, en anglès), són una classe d'algorismes d'intel·ligència artificial, el machine learning, que s'utilitzen en l'aprenentatge no supervisat, implementades per un sistema de dues xarxes neuronals que competeixen mútuament en una espècie de Joc de suma nul·la. Van ser presentades per Ian Goodfellow el 2014.

Aquesta tècnica pot generar fotografies que semblen autèntiques als observadors humans. Per exemple, una fotografia sintètica d'un gat que aconsegueixi enganyar al discriminador (una de les parts funcionals de l'algorisme), és probable que porti una persona qualsevol a acceptar-ho com una fotografia real.[1]

La idea principal de GAN es basa en l'entrenament indirecte a través d'un discriminador, una altra xarxa neuronal, que podrà dir quant de "realista" és una entrada, que s'actualitza dinàmicament.[2] Això vol dir que el generador no està entrenat per minimitzar la distància a una imatge específica, sinó per enganyar al discriminador. Això ens permet que el model pugui aprendre sense supervisió.

Les Xarxes Generatives Antagòniques són similars al mimetisme de biologia evolutiva, per una carrera evolutiva entre aquests dos.

Origen de les GAN[modifica]

[3]

Hi ha un problema amb la IA quan li demanem que es creï alguna cosa nova que no existeix. Com que no pot simular la nostra imaginació, tot i poder simular la nostra intel·ligència.

El 2014, durant un debat a un bar entre un estudiant de la Universitat de Mont-real i els seus companys van tenir una idea de com solucionar el problema.[4]

De fet, es van basar en investigacions anteriors, com els de Jürgen Schmidhuber sobre previsibilitat de minimització i curiositat artificial, o també l'aprenentatge de Turing de Li, Gauci i Bruto.

Ian Goodfellow, l'estudiant de la Universitat de Mont-real, en aquell moment de 29 anys, i que acabaria treballant per Google Brain, és actualment un dels investigadors millor pagats del sector.

El document que va firmar amb els seus set companys portava el títol de la seva invenció: "Generative Adversarial Nets", o Xarxa Generativa Antagònica.

Mètode de funcionament[modifica]

Semi-supervised learning

Una xarxa genera els candidats (el model generador o xarxa generativa) i una altra els avalua (el model discriminatori o xarxa discriminatòria).[5] Típicament, la xarxa generativa aprèn a assignar elements d'un espai latent a una distribució de dades determinada, mentre la xarxa discriminatòria diferencia entre elements de la distribució de dades originals i els candidats produïts pel generador. L'objectiu de l'aprenentatge de la xarxa generativa és augmentar l'índex d'error de la xarxa discriminatòria (o sigui, "enganyar" la xarxa discriminatòria produint nous elements sintètics que semblen provenir de la distribució de dades autèntiques).[6]

En la pràctica, un conjunt de dades conegut serveix com el saber de partida pel discriminador. Entrenar al discriminador implica presentar-li mostres del conjunt de dades, fins que aconsegueix algun nivell d'exactitud. Habitualment, el generador està "sembrat" amb una entrada aleatoritzada que s'escull d'un espai latent predefinit (p. ex. una Distribució normal multivariable). Després, les mostres sintetitzades pel generador són avaluades pel discriminador. En ambdues xarxes s'aplica la retropropagació, de manera que el generador produeix imatges progressivament millors, mentre el discriminador es refina cada vegada més a l'hora de distingir aquestes imatges sintètiques.[7] Els generadors són normalment xarxes neuronals deconvolucionals, i els discriminadors són xarxes neuronals convolucionals.

La idea d'inferir models en un sistema competitiu (model versus discriminador) va ser proposada per Li, Gauci i Brut en 2013.[8] El seu mètode s'usa per a inferència conductista. Es denomina Aprenentatge de Turing, ja que l'esquema recorda molt al d'un Test de Turing.[9]

Aplicacions[modifica]

Moda, art i publicitat[modifica]

Les GAN es poden fer servir per a generar art. The Verge va escriure el març de 2019 que "les imatges creades per GAN s'han convertit en l'aspecte definitiu de l'art contemporani d'IA".[10]

Les GAN també es poden utilitzar per a crear fotos de models de moda imaginaris, sense necessitat de contractar un model, fotògraf o maquillador, ni pagar un estudi o transport.[11][12] Aquestes xarxes també han sigut utilitzades per la generació d'ombres virtuals.[13]

Ciència[modifica]

Les GAN poden millorar les imatges astronòmiques i simular les lents gravitacionals per a la investigació de la matèria fosca.[14] Es van utilitzar el 2019 per modelar amb èxit la distribució de la matèria fosca en una direcció determinada a l'espai i per predir la lent gravitatòria que es produirà.[15]

Les GAN s'han proposat com una manera ràpida i precisa de modelar la formació de raigs d'alta energia i modelar pluges mitjançant calorímetres d'experiments de física d'alta energia. També s'han entrenat les GAN per aproximar amb precisió els colls d'ampolla en simulacions computacionalment costoses d'experiments de física de partícules. Les aplicacions en el context dels experiments actuals i suggerits del CERN han demostrat el potencial d'aquests mètodes per accelerar la simulació i/o millorar la fidelitat de la simulació.[16]

Videojocs[modifica]

El 2018, les GAN van arribar a la comunitat de video game modding, com un mètode per augmentar les textures 2D de baixa resolució en videojocs antics recreant-les en resolucions de 4k o superiors mitjançant l'entrenament d'imatges i, a continuació, reduint-les per tal que s'adaptin al nadiu del joc.

Amb una formació adequada, les GAN proporcionen una imatge de textura 2D més clara i nítida amb magnituds de qualitat superiors a l'original, alhora que mantenen completament el nivell de detalls, colors, etc. de l'original.

Preocupacions sobre aplicacions malicioses[modifica]

S'han plantejat preocupacions sobre l'ús potencial de la síntesi d'imatges humanes basada en GAN amb finalitats sinistres, per exemple, per produir fotografies i vídeos falsos, possiblement incriminats.[17]

Les GAN es poden utilitzar per generar fotos de perfil úniques i realistes de persones que no existeixen, per tal d'automatitzar la creació de perfils de xarxes socials falsos.[18]

L'any 2019 l'estat de Califòrnia va considerar[19] i va aprovar el 3 d'octubre de 2019 el projecte de llei AB-602,[20] que prohibeix l'ús de tecnologies de síntesi d'imatges humanes per fer pornografia falsa sense el consentiment de les persones representades, i el projecte de llei AB-730,[21] que prohibeix distribució de vídeos manipulats d'un candidat polític dins dels seixanta dies següents a les eleccions. Tots dos projectes de llei van ser escrits pel membre de l'Assemblea Marc Berman i signats pel governador Gavin Newsom. Les lleis van entrar en vigor el 2020.[22]

El programa Media Forensics de DARPA estudia maneres de contrarestar els mitjans falsos, inclosos els mitjans falsos produïts amb GAN.[23]

Aprenentatge transferit[modifica]

La investigació sobre aprenentatge de transferència d'última generació fa servir GAN per reforçar l'alineació de l'espai de característiques latents, com ara l'aprenentatge de reforç profund.[24] Això funciona alimentant les incrustacions de la tasca d'origen i de destinació al discriminador que intenta endevinar el context. Aleshores, la pèrdua resultant es retropropaga (inversament) a través del codificador.

Aplicacions diverses[modifica]

Les GAN es poden usar per a detectar imatges de glaucoma ajudant al diagnòstic precoç que és essencial per evitar la pèrdua parcial o total de la visió.[25]

Les GAN s'han utilitzat per crear reconstruccions facials forenses de personatges històrics morts.[26]

Les GAN poden reconstruir models 3D d'objectes a partir d'imatges,[27] generar objectes nous com a núvols de punts 3D [28] i modelar patrons de moviment en vídeo.[29]

Història[modifica]

Edmond de Belamy

La inspiració més directa per a les GAN va ser l’estimació de contrast de soroll,[30] que fa servir la mateixa funció de pèrdua que les GAN i que Goodfellow va estudiar durant el seu doctorat entre el 2010 i el 2014.

Altres investigadors havien tingut idees semblants, però ningú no les va desenvolupar de manera similar. L’any 2010, el finlandès Olli Nietmitalo,[31] va publicar una idea que involucrava les xarxes antagòniques en un bloc, era una idea que mai no s’havia implementat i que no usava estocasticitat al generador, per això no fou considerada un model generatiu, sinó que avui en dia es coneix com a GAN condicional.[32] Una idea similar a les GAN va ser usada l’any 2013 pels investigadors Li, Gauci i Gross per tal de modelar el comportament animal.[33]

L’aprenentatge automàtic adversari té altres usos a més del modelatge generatiu i es pot aplicar a diferents models de xarxes neuronals. Per exemple, en teoria de control, aquest aprenentatge adversari basat en xarxes neuronals es va usar l’any 2006 per tal d’entrenar controladors robustos en la teoria de jocs, alternant entre una política minimitzadora, controlador, i una de maximitzadora, la pertorbació.[34][35]

L’any 2017 es va fer ús d'una GAN per a millorar una imatge centrant-se en les textures realistes en comptes de la precisió per píxel, això va produir una qualitat superior, amb una gran millora.[36] El mateix 2017 es van generar els primers rostres,[37] els quals es van exhibir el febrer del 2018 al Grand-Palais de París.[38][39] Les cares generades per l'StyleGAN[40] el 2019 van generar comparacions amb falsificacions profundes (deep fakes).[41][42][43]

A partir del 2017, les tecnologies GAN van començar a fer notar la seva presència també en el camp de les belles arts, amb l’aparició d’una implementació recentment desenvolupada, que es va dir que travessava el llindar de poder generar pintures abstractes, úniques i atractives, anomenades CAN, “xarxa antagònica creativa”.[44] L’any 2018 es va fer servir un sistema GAN per crear la pintura Edmond de Belamy, que es va vendre per 432.500 $.[45] Més endavant, el 2019, un article escrit per membres originals del grup CAN, discutia el progrés addicional amb aquest sistema i també considerava les perspectives generals per un art habilitat per IA (intel·ligència artificial).[46]

El maig de 2019, els investigadors de Samsung varen mostrar un sistema basat en GAN, que produeix vídeos d’una persona parlant, partint únicament d’una foto d’aquesta.[47] A l’agost del mateix any, es va crear un gran conjunt de dades amb 12.197 cançons MIDI, cada una emparellada amb la seva lletra i melodia per la generació de melodies neuronals a partir de les lletres usant RGA-LSTM condicional.[48]

El maig del 2020, els investigadors de Nvidia varen ensenyar un sistema d'intel·ligència artificial, anomenat “GameGAN”, per recrear el joc Pac-Man simplement veient-lo jugar.[49][50]

Classificació[modifica]

GAN bidireccional[modifica]

Mentre el model GAN estàndard aprèn l’assignació d’un espai latent a la distribució de dades, els models inversos com el GAN Bidireccional (BiGAN)[51] i els codificadors automàtics antagònics (Adversarial Autoencoders)[52] també aprenen una assignació de dades a l’espai latent. Aquest mapatge invers permet que els exemples de dades reals o generadors es tornin a projectar en l’espai latent, de manera similar al codificador d’un codificador automàtic variacional. Les aplicacions dels models bidireccionals inclouen un aprenentatge semisupervisat,[53] l'aprenentatge automàtic interpretable[54] i la traducció automàtica neuronal.[55]

Referències[modifica]

  1. Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi. Improved Techniques for Training GANs, 2016. 
  2. Adaloglou, Nikolas. «GANs in computer vision - Introduction to generative learning» (en anglès), 10-04-2020. [Consulta: 2 juny 2022].
  3. «Todo lo que necesitas saber sobre las GAN: Redes Generativas Antagónicas – Puentes Digitales». [Consulta: 2 juny 2022].
  4. Merino, Marcos. «Conceptos de inteligencia artificial: qué son las GANs o redes generativas antagónicas» (en castellà), 31-03-2019. [Consulta: 15 juny 2022].
  5. Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua. Generative Adversarial Networks, 2014. 
  6. ; Couprie, Camille; Chintala, Soumith; Verbeek, Jakob «Semantic Segmentation using Adversarial Networks». NIPS Workshop on Adversarial Training, Dec, Barcelona, Spain, 2016, 25-11-2016.
  7. Andrej Karpathy, Pieter Abbeel, Greg Brockman, Peter Chen, Vicki Cheung, Rocky Duan, Ian Goodfellow, Durk Kingma, Jonathan Ho, Rein Houthooft, Tim Salimans, John Schulman, Ilya Sutskever, And Wojciech Zaremba. «Generative Models». [Consulta: 7 /4/2016].
  8. A coevolutionary approach to learn animal behavior through controlled interaction. 
  9. Li, Wei; Gauci, Melvin; Groß, Roderich «Turing learning: a metric-free approach to inferring behavior and its application to swarms». Swarm Intelligence, 10, 3, 30-08-2016, pàg. 211–243. DOI: 10.1007/s11721-016-0126-1.
  10. Vincent, James. «A never-ending stream of AI art goes up for auction» (en anglès), 05-03-2019. [Consulta: 16 juny 2022].
  11. «Generative Image Inpainting with Contextual Attention». Computer Vision Foundation. [Consulta: 9 desembre 2022].
  12. «The Rise of AI Supermodels». Ceecee Wong, 27-05-2019. [Consulta: 9 desembre 2022].
  13. «Cast Shadow Generation Using Generative Adversarial Networks». National Library of Medicine, 25-05-2020. [Consulta: 9 desembre 2022].
  14. [1]
  15. [2]
  16. [3]
  17. [4]
  18. [5]
  19. «A European Research Council with new funding moves closer». III-Vs Review, 16, 8, 2003-11, pàg. 4. DOI: 10.1016/s0961-1290(03)01105-0. ISSN: 0961-1290.
  20. [6]
  21. [7]
  22. [8]
  23. [9]
  24. François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle An Introduction to Deep Reinforcement Learning. now Publishers Inc, 2018. ISBN 978-1-68083-539-7. 
  25. Bisneto, Tomaz Ribeiro Viana; de Carvalho Filho, Antonio Oseas; Magalhães, Deborah Maria Vieira «Generative adversarial network and texture features applied to automatic glaucoma detection». Applied Soft Computing, 90, 2020-05, pàg. 106165. DOI: 10.1016/j.asoc.2020.106165. ISSN: 1568-4946.
  26. [10]
  27. author., Ahirwar, Kailash,. Generative Adversarial Networks Projects. ISBN 978-1-78913-667-8. 
  28. Huang, Ruqi; Rakotosaona, Marie-Julie; Achlioptas, Panos; Guibas, Leonidas; Ovsjanikov, Maks «OperatorNet: Recovering 3D Shapes From Difference Operators». IEEE Xplore. IEEE, 2019-10. DOI: 10.1109/iccv.2019.00868.
  29. Pirsiavash, Hamed; Vondrick, Carl; Torralba, Antonio «Inferring the Why in Images». [Fort Belvoir, VA], 01-01-2014.
  30. Gutmann, Michael; Hyvärinen, Aapo. [http://proceedings.mlr.press/v9/gutmann10a/gutmann10a.pdf Noise-contrastive estimation: A new estimation principle for unnormalized statistical models] (International Conference on AI and Statistics.). 
  31. «A method for training artificial neural networks to generate missing data within a variable context.», 12-03-2012. [Consulta: 18 juny 2022].
  32. «GANs were invented in 2010?», 28-05-2019. [Consulta: 18 juny 2022].
  33. Li, Wei; Gauci, Melvin; Gross, Roderich. "Proceeding of the fifteenth annual conference on Genetic and evolutionary computation conference - GECCO '13", 06 juliol 2013 (Proceedings of the 15th Annual Conference on Genetic and Evolutionary Computation (GECCO 2013)). DOI 10.1145/2463372.2465801. ISBN 9781450319638. 
  34. Abu-Khalaf, Murad; Lewis, Frank L.; Huang, Jie. "Neurodynamic Programming and Zero-Sum Games for Constrained Control Systems" (IEEE Transactions on Neural Networks). DOI 10.1109/TNN.2008.2000204. 
  35. Abu-Khalaf, Murad; Lewis, Frank L.; Huang, Jie. "Policy Iterations on the Hamilton–Jacobi–Isaacs Equation for H∞ State Feedback Control With Input Saturation", 01 desembre 2006 (IEEE Transactions on Automatic Control). DOI 10.1109/TAC.2006.884959. 
  36. Sajjadi, Mehdi S. M.; Schölkopf, Bernhard; Hirsch, Michael. "EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis", 23 desembre 2016. 
  37. «This Person Does Not Exist: Neither Will Anything Eventually with AI», 20-03-2019. [Consulta: 17 juny 2022].
  38. «ARTificial Intelligence enters the History of Art», 28-12-2018. [Consulta: 17 juny 2022].
  39. «Le scandale de l’intelligence ARTificiell», 17-02-2019. [Consulta: 18 juny 2022].
  40. «StyleGAN - Official TensorFlow Implementation», 02-03-2019. [Consulta: 18 juny 2022].
  41. «This Person Does Not Exist Is the Best One-Off Website of 2019», 16-02-2019. [Consulta: 18 juny 2022].
  42. «This Person Does Not Exist». Boing-Boing, 15-02-2019. [Consulta: 18 juny 2022].
  43. Horev, Rani. «Style-based GANs – Generating and Tuning Realistic Artificial Faces», 26-12-2018. Arxivat de l'original el 5 de novembre 2020. [Consulta: 18 juny 2022].
  44. Elgammal, Ahmed; Liu, Bingchen; Elhoseiny, Mohamed; Mazzone, Marian. "CAN: Creative Adversarial Networks, Generating "Art" by Learning About Styles and Deviating from Style Norms", 2017. 
  45. Cohn, Gabe "AI Art at Christie's Sells for $432,500". The New York Times, 25-10-2018.
  46. Mazzone, Marian; Elgammal, Ahmed. "Art, Creativity, and the Potential of Artificial Intelligence". Arts. 8, 21 febrer 2019. DOI 10.3390/arts8010026. 
  47. Kulp, Patrick "Samsung's AI Lab Can Create Fake Video Footage From a Single Headshot". AdWeek, 23-05-2019.
  48. Yu, Yi; Canales, Simon «ACM Transactions on Multimedia Computing, Communications, and Applications». "Conditional LSTM-GAN for Melody Generation from Lyrics", 2021, pàg. 1-20. arXiv: 1908.05551. DOI: 10.1145/3424116. ISSN: 1551-6857.
  49. Vincent, James "Nvidia's AI recreates Pac-Man from scratch just by watching it being played". The Verge, 22-05-2020.
  50. Seung Wook, Kim; Zhou, Yuhao; Philion, Jonah; Torralba, Antonio; Fidler, Sanja "Learning to Simulate Dynamic Environments with GameGAN", 2020. arXiv: 2005.12126.
  51. Donahue, Jeff; Krähenbühl, Philipp; Darrell, Trevor "Adversarial Feature Learning", 2016. arXiv: 1605.09782.
  52. Makhzani, Alireza; Shlens, Jonathon; Jaitly, Navdeep; Goodfellow, Ian; Frey, Brendan "Adversarial Autoencoders", 2016. arXiv: 1511.05644.
  53. Dumoulin, Vincent; Belghazi, Ishmael; Poole, Ben; Mastropietro, Oliver; Arjovsky, Alex "Adversarially Learned Inference", 2016. arXiv: 1606.00704 [Consulta: 20 juny 2022].
  54. Chen, Xi; Duan, Yan; Houthooft, Rein; Schulman, John; Sutskever, Ilya "InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets", 2016. arXiv: 1606.03657 [Consulta: 20 juny 2022].
  55. Zhang, Zhiriu; Liu, Shujie; Li, Mu; Zhou, Ming; Chen, Enhong "Bidirectional Generative Adversarial Networks for Neural Machine Translation", pàg. 190-199 [Consulta: 20 juny 2022].

Enllaços externs[modifica]