La biologia dietro l'apprendimento del rinforzo può essere trovata in Condizionamento Operante, e Ricompensa

L'apprendimento per rinforzo (RL) è insegnare ad un agente software come comportarsi in un ambiente dicendogli quanto bene sta facendo. È un'area dell'apprendimento automatico ispirata dalla psicologia comportamentale.

L'apprendimento per rinforzo è diverso dall'apprendimento supervisionato perché gli input e gli output corretti non vengono mai mostrati. Inoltre, l'apprendimento per rinforzo di solito impara mentre va avanti (apprendimento online) a differenza dell'apprendimento supervisionato. Questo significa che un agente deve scegliere tra esplorare e attenersi a ciò che conosce meglio.