Aprenentatge per reforç

De Viquipèdia
Salta a la navegació Salta a la cerca

L'aprenentatge per reforç[1], o RL de l'anglès reinforcement learning, és una àrea de l'aprenentatge automàtic que desenvolupa agents que poden aprendre a triar les accions que han de realitzar en un entorn, simulat o real, per maximitzar una recompensa de forma autònoma.[2] Més col·loquialment, l'aprenentatge per reforç estudia sistemes que interactuen amb el seu entorn i aprenen a triar les accions que funcionen millor automàticament.[3]

Diagrama d'un procés d'aprenentatge per reforç.[4]

És un dels tres paradigmes bàsics de l'aprenentatge automàtic, juntament amb l'aprenentatge supervisat i el no supervisat.[2] A diferència d'aquestes altres dues aproximacions, però, a l'aprenentatge per reforç no se li subministra un conjunt de dades; aprèn a partir de la interacció amb l'entorn, que pot ser el món real o una simulació.[5] Per dur a terme aquesta tasca hi ha nombrosos algorismes, que a grans trets es divideixen en algoritmes basats en model o sense model.[6] Els primers disposen, o generen, un model matemàtic intern per decidir com actuar, l'AlphaZero n'és un exemple particularment famós. Per altra banda, els algorismes sense model relacionen directament l'estat amb la recompensa esperada, alguns dels exemples més populars són els algorismes DQN, A2C i DDPG.[7][8]

L'aprenentatge per reforç té els seus orígens en dos altres camps d'investigació: l'aprenentatge animal i el control òptim.[9] El primer estudia com els animals aprenen a relacionar-se amb el seu entorn amb el mètode d'assaig i error. Per altra banda, la segona àrea analitza el disseny de controladors que optimitzin el comportament d'un sistema dinàmic. Aquests dos camps de recerca es van començar a combinar a principis de la dècada dels 60, però no seria fins als 80 que s'establirien els fonaments actuals d'aquesta àrea.[10] Recentment, la combinació dels mètodes d'aprenentatge per reforç amb aprenentatge profund ha permès resoldre tasques complexes i se n'ha popularitzat l'ús en molts tipus d'aplicacions, com la robòtica o les finances.[11][12]

Conceptes clau[modifica]

Els principals aspectes de l'aprenentatge per reforç són l'agent i l'entorn. L'agent és l'entitat controlada per l'algorisme d'aprenentatge per reforç; pot ser real, per exemple un robot, o pot ser simulat, com un personatge de videojoc. Per altra banda, l'entorn és l'espai amb el qual l'agent interacciona, que també pot ser real o simulat. A cada pas de la interacció l'agent obté, sovint parcialment, una observació de l'estat de l'entorn, i a partir d'això decideix quines accions prendre. L'entorn canvia quan l'agent hi actua, però també pot canviar sense intervenció per part de l'agent.

Els videojocs clàssics de les màquines recreatives i l'Atari 2600, com l'Space Invaders, s'han fet servir darrerament per comparar diferents algorismes d'aprenentatge per reforç.[13]

L'agent també percep un senyal de recompensa de l'entorn, un nombre que determina com de bo o dolent és l'estat en cada moment. L'objectiu de l'agent és maximitzar la recompensa acumulada, anomenada retorn. Els mètodes d'aprenentatge per reforç permeten a l'agent d'aprendre comportaments per assolir aquest objectiu.[14]

Estats i observacions[modifica]

Un estat s és la descripció completa de les característiques rellevants de l'entorn. No hi ha cap informació important que no estigui descrita per l'estat. Una observació o és una descripció parcial de l'estat, que pot ometre certa informació rellevant. En aprenentatge per reforç, els estats i observacions se solen representar amb vectors, matrius o tensors d'alt ordre amb valors reals.

Per exemple, l'estat d'un robot industrial podria descriure la posició de cada element del manipulador. Per altra banda, s'obtindria una observació si un sensor s'espatllés i no es tingués tota la informació de la posició del robot. Quan un agent pot observar la totalitat de l'estat es diu que l'entorn és totalment observat. Per contra, quan l'agent només té accés a una observació parcial es diu que l'entorn és parcialment observat.

Accions[modifica]

Les accions són qualsevol interacció que l'agent pot realitzar amb l'entorn. El conjunt de totes les accions vàlides en un entorn sovint s'anomena espai d'accions. Alguns entorns, com els populars videojocs de l'Atari 2600, tenen un espai d'accions discret, l'agent té un nombre limitat d'accions. En d'altres casos l'espai d'accions és continu, quan són vectors amb valors reals, i el nombre d'accions és pràcticament il·limitat, com els moviments que pot dur a terme un robot industrial. Aquesta distinció té profundes conseqüències en els mètodes d'aprenentatge per reforç que es poden aplicar. Hi ha algorismes que només es poden aplicar en un o altre dels casos, o en ambdós.

Polítiques[modifica]

Una política és la regla o conjunt de normes que un agent fa servir per decidir quina acció ha de prendre tenint en compte el seu estat actual. Aquesta política pot ser determinista, representada amb la notació , o estocàstica, de notació . Així doncs, l'acció que l'agent triarà depèn de l'estat actual i d'una política determinista o estocàstica que es pot representar, respectivament, amb la següent formulació:

Les polítiques són funcions computables que depenen d'un conjunt de paràmetres, que s'ajusten amb algun tipus d'algorisme d'optimització per aconseguir el millor comportament possible. Els paràmetres emprats per la política sovint es representen a la notació com, o .

Trajectòries[modifica]

Una trajectòria o episodi, , és la seqüència d'estats i accions que un agent ha experimentat en una seqüència de passos discrets :[4]

El primer estat de l'entorn, , és mostrejat aleatòriament de la distribució d'estats d'inici, que sovint té la notació :

Les transicions d'estat són els canvis a l'entorn entre l'estat a temps t, , i l'estat a temps t+1, . Aquestes transicions d'estat estan governades per les lleis de l'entorn i l'acció més recent duta a terme per l'agent, . Les transicions d'estat poden ser deterministes o estocàstiques, respectivament:

Recompenses[modifica]

La funció de recompensa, , és crucial en l'aprenentatge per reforç. Aquesta funció determina la recompensa que se li atorgarà a l'agent depenent de l'estat actual de l'entorn, l'acció presa i el posterior estat de l'entorn.

La recompensa sovint se sol simplificar a la parella estat-acció o, fins i tot, simplement a l'estat .

L'objectiu de l'agent és maximitzar la recompensa acumulada al llarg de tota la trajectòria, sovint anomenat retorn. La notació del retorn, la recompensa acumulada a través de la trajectòria, és , i n'hi ha diferents tipus. El retorn sense descompte d'horitzó finit és la suma de totes les recompenses obtingudes en una finestra de temps fixa:

El retorn amb descompte d'horitzó infinit és la suma de totes les recompenses obtingudes per l'agent, amb un cert descompte que penalitza obtenir recompenses . Aquesta formulació de la retorn inclou un factor de descompte :

El factor de descompte, intuïtivament, és útil perquè prioritza que l'agent obtingui recompenses ràpidament. Matemàticament, en un horitzó infinit, la suma de recompenses pot no convergir a un valor finit i és difícil de resoldre amb equacions. En canvi, amb un factor de descompte i amb unes condicions raonables, la suma infinita convergeix.

El problema de l'aprenentatge per reforç[modifica]

Sigui quina sigui la mesura de retorn, l'objectiu en l'aprenentatge per reforç és aprendre una política que maximitzi el retorn esperat quan l'agent actua a l'entorn. Suposant que les transicions de l'entorn i les polítiques són estocàstiques, la probabilitat d'una trajectòria de T passos és:

El retorn esperat d'aquesta trajectòria, denotat per seria:

L'objectiu de l'aprenentatge per reforç és aconseguir una política que maximitzi aquest retorn esperat, la política òptima . Així doncs, el problema de l'aprenentatge per reforç és trobar aquesta política òptima:[15]

Referències[modifica]

  1. Torra i Reventós, 2007, p. 266.
  2. 2,0 2,1 François-Lavet, 2018, p. 6.
  3. Izquierdo i Izquierdo, 2012, p. 163.
  4. 4,0 4,1 Sutton i Barto, 2018, p. 48.
  5. Kaelbling, Littman i Moore, 1996, p. 239.
  6. Kaelbling, Littman i Moore, 1996, p. 251.
  7. Dayan i Yael, 2008, p. 2.
  8. «Part 2: Kinds of RL Algorithms». OpenAI, 2018. [Consulta: 23 febrer 2020].
  9. Sutton i Barto, 2018, p. 13.
  10. Sutton i Barto, 2018, p. 17.
  11. Mnih, 2015, p. 529.
  12. François-Lavet, 2018, p. 3.
  13. Mnih, 2015, p. 531.
  14. «Part 1: Key Concepts in RL». OpenAI, 2018. [Consulta: 25 febrer 2020].
  15. Sutton i Barto, 2018, p. 62.

Bibliografia[modifica]

  • Dayan, Peter; Yael, Niv «Reinforcement learning: the good, the bad and the ugly.». Current opinion in neurobiology, 2008, p. 12 [Consulta: 23 febrer 2020].
  • François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle. «An Introduction to Deep Reinforcement Learning» p. 106, 2018. DOI: 10.1561/2200000071. [Consulta: 15 agost 2019].
  • Graesser, Laura; Loon Keng, Wah. Foundations of Deep Reinforcement Learning. Theory and Practice in Python. Pearson Addison-Wesley, 2020, p. 379. ISBN 978-0-13-517238-4 [Consulta: 10 juliol 2020]. 
  • Izquierdo, L.R.; Izquierdo, S.S. «Reinforcement Learning». Encyclopedia of the Sciences of Learning. Springer., 2012. [Consulta: 26 desembre 2019].
  • Kaelbling, Leaslie Pack; Littman, Michael L.; Moore, Andrew W. «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research 4, 1996, p. 237-285 [Consulta: 24 febrer 2020].
  • Mnih, Volodymyr; Kavukcuoglu, Koray; Silver, David; Rusu, Andrei A.; Veness, Joel; Bellemare, Marc G.; Graves, Alex; Riedmiller, Martin; Fidjeland, Andreas K.; Ostrovski, Georg; Petersen, Stig; Beattie, Charles; Sadik, Amir; Antonoglou, Ioannis; King, Helen; Kumaran, Dharshan; Wierstra, Daan; Legg, Shane; Hassabis, Demis «Human-level control through deep reinforcement learning». Nature, 2015, p. 529–533 [Consulta: 15 agost 2019].
  • Sutton, Richard S.; Barto, Andrew G. Reinforcement Learning. An introduction. Cambridge, Massachusetts: The MIT Press, 2018, p. 526. ISBN 978-0-262-19398-6 [Consulta: 8 febrer 2020]. 
  • Torra i Reventós, Vicenç. Fonaments d'intel·ligència artificial. Editorial UOC, 2007, p. 456. ISBN 9788497886062 [Consulta: 15 agost 2019]. 

Enllaços externs[modifica]