Apprendimento per rinforzo

La biologia dietro l'apprendimento del rinforzo può essere trovata in Condizionamento Operante, e Ricompensa

L'apprendimento per rinforzo (RL) è insegnare ad un agente software come comportarsi in un ambiente dicendogli quanto bene sta facendo. È un'area dell'apprendimento automatico ispirata dalla psicologia comportamentale.

L'apprendimento per rinforzo è diverso dall'apprendimento supervisionato perché gli input e gli output corretti non vengono mai mostrati. Inoltre, l'apprendimento per rinforzo di solito impara mentre va avanti (apprendimento online) a differenza dell'apprendimento supervisionato. Questo significa che un agente deve scegliere tra esplorare e attenersi a ciò che conosce meglio.

Introduzione

Un sistema di apprendimento per rinforzo è composto da una politica ( π {displaystyle \pi } {\displaystyle \pi }), una funzione di ricompensa ( R {displaystyle R}{\displaystyle R} ), una funzione di valore ( v {displaystyle v}{\displaystyle v} ), e un modello opzionale dell'ambiente.

Una politica dice all'agente cosa fare in una certa situazione. Può essere una semplice tabella di regole, o una complicata ricerca dell'azione corretta. Le politiche possono anche essere stocastiche, il che significa che invece di regole la politica assegna probabilità ad ogni azione. Una politica da sola può far fare delle cose ad un agente, ma non può imparare da sola.

Una funzione di ricompensa definisce l'obiettivo per un agente. Prende uno stato (o uno stato e l'azione intrapresa in quello stato) e restituisce un numero chiamato ricompensa, che dice all'agente quanto è buono essere in quello stato. Il compito dell'agente è quello di ottenere la maggior quantità di ricompensa possibile nel lungo periodo. Se un'azione produce una bassa ricompensa, l'agente probabilmente prenderà un'azione migliore in futuro. La biologia usa segnali di ricompensa come il piacere o il dolore per assicurarsi che gli organismi rimangano vivi per riprodursi. I segnali di ricompensa possono anche essere stocastici, come una slot machine in un casinò, dove a volte pagano e a volte no.

Una funzione di valore dice ad un agente quanta ricompensa otterrà seguendo una politica π {displaystyle \pi }{\displaystyle \pi } a partire dallo stato s {displaystyle s}{\displaystyle s} . Essa rappresenta quanto sia desiderabile essere in un certo stato. Poiché la funzione di valore non è data direttamente all'agente, esso ha bisogno di tirare a indovinare o stimare sulla base della ricompensa che ha ottenuto finora. La stima della funzione di valore è la parte più importante della maggior parte degli algoritmi di apprendimento per rinforzo.

Un modello è la copia mentale dell'agente dell'ambiente. Viene usato per pianificare le azioni future.

Sapendo questo, possiamo parlare del ciclo principale di un episodio di apprendimento per rinforzo. L'agente interagisce con l'ambiente in passi di tempo discreti. Pensatelo come il "tic-tac" di un orologio. Con il tempo discreto, le cose accadono solo durante i "ticks" e i "tocks", e non nel mezzo. Ad ogni tempo t = 0 , 1 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } l'{\displaystyle t=0,1,2,3,...}agente osserva lo stato dell'ambiente S t {displaystyle S_{t}}{\displaystyle S_{t}} e sceglie un'azione A t {displaystyle A_{t}}{\displaystyle A_{t}} basata su una politica π {displaystyle \pi } {\displaystyle \pi }. Il passo temporale successivo, l'agente riceve un segnale di ricompensa R t + 1 {displaystyle R_{t+1}}{\displaystyle R_{t+1}} e una nuova osservazione S t + 1 {displaystyle S_{t+1}} {\displaystyle S_{t+1}}. La funzione di valore v ( S t ) {displaystyle v(S_{t})} {\displaystyle v(S_{t})}viene aggiornata usando la ricompensa. Questo continua fino al raggiungimento di uno stato terminale S T {displaystyle S_{T}}{\displaystyle S_{T}}.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3