Sense model (aprenentatge de reforç)

En l'aprenentatge per reforç (RL), un algorisme sense model (a diferència d'un basat en models) és un algorisme que no estima la distribució de probabilitat de transició (i la funció de recompensa ) associada al procés de decisió de Markov (MDP),^[1] que, en RL, representa el problema a resoldre. La distribució de probabilitat de transició (o model de transició) i la funció de recompensa sovint s'anomenen col·lectivament "model" de l'entorn (o MDP), d'aquí el nom "sense model". Un algorisme de RL sense model es pot pensar com un algorisme d'assaig i error "explícit".^[1] Un exemple d'algorisme sense models és Q-learning.^[2]^[3]^[4]

Algoritmes clau d'aprenentatge de reforç "sense models"[modifica]

Algorisme	Descripció	Model	Política	Espai d'acció	Espai de l'Estat
DQN	Xarxa Deep Q	Sense models	Fora de la política	Discret	Contínua
DDPG	Deep Deterministic Policy Gradient	Sense models	Fora de la política	Contínua	Contínua
A3C	Avantatge asíncron Algoritme actor-crític	Sense models	En política	Contínua	Contínua
TRPO	Optimització de la política de la regió de confiança	Sense models	En política	Continu o discret	Contínua
PPO	Optimització de la política proximal	Sense models	En política	Continu o discret	Contínua
TD3	Doble Delayed Deep Deterministic Policy Gradient	Sense models	Fora de la política	Contínua	Contínua
SAC	Actor-crític suau	Sense models	Fora de la política	Contínua	Contínua

Referències[modifica]

↑ ^1,0 ^1,1 Sutton, Richard S. Reinforcement Learning: An Introduction (en anglès). Second. A Bradford Book, 13 novembre 2018, p. 552. ISBN 0262039249.
↑ baeldung. «Model-free vs. Model-based Reinforcement Learning | Baeldung on Computer Science» (en anglès americà), 10-06-2022. [Consulta: 28 setembre 2023].
↑ «Model-Free Reinforcement Learning - an overview | ScienceDirect Topics» (en anglès). [Consulta: 28 setembre 2023].
↑ Doody, Max; Van Swieten, Maaike M. H.; Manohar, Sanjay G. «Model-based learning retrospectively updates model-free values» (en anglès). Scientific Reports, 12, 1, 11-02-2022, pàg. 2358. DOI: 10.1038/s41598-022-05567-3. ISSN: 2045-2322.

[sutton2018-1] 1,0 ^1,1 Sutton, Richard S. Reinforcement Learning: An Introduction (en anglès). Second. A Bradford Book, 13 novembre 2018, p. 552. ISBN 0262039249.

[2] ung. «Model-free vs. Model-based Reinforcement Learning | Baeldung on Computer Science» (en anglès americà), 10-06-2022. [Consulta: 28 setembre 2023].

[3] «Model-Free Reinforcement Learning - an overview | ScienceDirect Topics» (en anglès). [Consulta: 28 setembre 2023].

[4] Doody, Max; Van Swieten, Maaike M. H.; Manohar, Sanjay G. «Model-based learning retrospectively updates model-free values» (en anglès). Scientific Reports, 12, 1, 11-02-2022, pàg. 2358. DOI: 10.1038/s41598-022-05567-3. ISSN: 2045-2322.

[1]

[2]

[3]

[4]