Sense model (aprenentatge de reforç)

De la Viquipèdia, l'enciclopèdia lliure

En l'aprenentatge per reforç (RL), un algorisme sense model (a diferència d'un basat en models) és un algorisme que no estima la distribució de probabilitat de transició (i la funció de recompensa ) associada al procés de decisió de Markov (MDP),[1] que, en RL, representa el problema a resoldre. La distribució de probabilitat de transició (o model de transició) i la funció de recompensa sovint s'anomenen col·lectivament "model" de l'entorn (o MDP), d'aquí el nom "sense model". Un algorisme de RL sense model es pot pensar com un algorisme d'assaig i error "explícit".[1] Un exemple d'algorisme sense models és Q-learning.[2][3][4]

Algoritmes clau d'aprenentatge de reforç "sense models"[modifica]

Algorisme Descripció Model Política Espai d'acció Espai de l'Estat
DQN Xarxa Deep Q Sense models Fora de la política Discret Contínua
DDPG Deep Deterministic Policy Gradient Sense models Fora de la política Contínua Contínua
A3C Avantatge asíncron Algoritme actor-crític Sense models En política Contínua Contínua
TRPO Optimització de la política de la regió de confiança Sense models En política Continu o discret Contínua
PPO Optimització de la política proximal Sense models En política Continu o discret Contínua
TD3 Doble Delayed Deep Deterministic Policy Gradient Sense models Fora de la política Contínua Contínua
SAC Actor-crític suau Sense models Fora de la política Contínua Contínua

Referències[modifica]

  1. 1,0 1,1 Sutton, Richard S. Reinforcement Learning: An Introduction (en anglès). Second. A Bradford Book, 13 novembre 2018, p. 552. ISBN 0262039249. 
  2. baeldung. «Model-free vs. Model-based Reinforcement Learning | Baeldung on Computer Science» (en anglès americà), 10-06-2022. [Consulta: 28 setembre 2023].
  3. «Model-Free Reinforcement Learning - an overview | ScienceDirect Topics» (en anglès). [Consulta: 28 setembre 2023].
  4. Doody, Max; Van Swieten, Maaike M. H.; Manohar, Sanjay G. «Model-based learning retrospectively updates model-free values» (en anglès). Scientific Reports, 12, 1, 11-02-2022, pàg. 2358. DOI: 10.1038/s41598-022-05567-3. ISSN: 2045-2322.