Apprentissage automatique
2. Types d'apprentissage
2.3. Apprentissage par renforcement
L’agent intelligent:
- Observe les effets de ses actions
- Déduit de ses observations la qualité de ses actions
- Améliore ses actions futures
L'action de l'algorithme sur
l'environnement produit une valeur de retour qui guide l'algorithme
d'apprentissage.
L’agent intelligent décide
d’effectuer une action en fonction de son état pour interagir avec son
environnement. L’environnement lui renvoie un renforcement sous la forme d’une
récompense positive ou négative.
Charge ensuite à l’agent de maximiser ce renforcement.
Lorsqu’il y a de l’incertain dans
la manière dont l’environnement évolue.
L’apprentissage par renforcement se distingue des autres
approches d’apprentissage par plusieurs aspects : L’apprentissage se fait sans supervision Il repose sur le principe d’essai/erreur