View on GitHub

Appunti di Reinforcement Learning

Note

on-policy: l’agente apprende la policy prendendo in considerazione tutti i dati collezionati durante l’apprendimento indipendentemente dallo stato della policy al momento della collezione del dato
on-policy: l’agente apprende la policy successiva prendendo in considerazione soltanto i dati collezionati utilizzando la policy più recente

Termine	Definizione	Sinonimi
trajectory	$\tau=\langle s_0, a_0, …, s_T, a_T\rangle$	episode, rollout