< Torna all’indice dei conenuti
Note
On-policy VS off-policy
- on-policy: l’agente apprende la policy prendendo in considerazione tutti i dati collezionati durante l’apprendimento indipendentemente dallo stato della policy al momento della collezione del dato
- on-policy: l’agente apprende la policy successiva prendendo in considerazione soltanto i dati collezionati utilizzando la policy più recente
Glossario
| Termine | Definizione | Sinonimi |
|---|---|---|
| trajectory | $\tau=\langle s_0, a_0, …, s_T, a_T\rangle$ | episode, rollout |