View on GitHub

Appunti di Reinforcement Learning

< Torna all’indice dei conenuti

Lecture 6 - Model-based RL

Fin’ora, si sono trattati model-free RL methods. Si può fare in modo di creare una rappresentazione interna dell’ambiente dai dati che l’agente colleziona.

Model-based RL

MB Reinforcement Learning

Osservazioni:

Perché non usarlo sempre?

Robust Model-Based RL: Model-Ensemble TRPO (ME-TRPO)

Standard overfitting (supervised): buone performance in training ma cattive in testing.

Model-bias:

ME-TRPO

Model ensemble: più modelli per avere performance più solide.

ME-TRPO

Osservazioni:

Risultati:

Adaptive Model-based RL: Model-Based Meta-Policy Optimization (MB-MPO)

Possiamo imparare qualcosa che si può applicare al mondo reale? quindi molto solido e generale? Possiamo aggiungere adaptiveness

Soluzioni:

MB-MPO

Osservazioni chiave:

Risultati: