Apprentissage automatique


2. Types d'apprentissage

2.3. Apprentissage par renforcement

L’agent intelligent:
  • Observe les effets de ses actions
  • Déduit de ses observations la qualité de ses actions
  • Améliore ses actions futures

L'action de l'algorithme sur l'environnement produit une valeur de retour qui guide l'algorithme d'apprentissage.

L’agent intelligent décide d’effectuer une action en fonction de son état pour interagir avec son environnement. L’environnement lui renvoie un renforcement sous la forme d’une récompense positive ou négative. Charge ensuite à l’agent de maximiser ce renforcement. 

Lorsqu’il y a de l’incertain dans la manière dont l’environnement évolue.

L’apprentissage par renforcement se distingue des autres approches d’apprentissage par plusieurs aspects :  L’apprentissage se fait sans supervision  Il repose sur le principe d’essai/erreur