Apprentissage automatique
Site: | Campus Numérique UABT |
Cours: | Intelligence Artificielle |
Livre: | Apprentissage automatique |
Imprimé par: | Visiteur anonyme |
Date: | jeudi 21 novembre 2024, 17:17 |
Description
1. Définition
L'apprentissage est un processus de construire un modèle
général à partir de données (observations) particulières du monde réel.
Ainsi, le but est double :
- Prédire un comportement face à une nouvelle donnée.
- Approximer une fonction ou une densité de probabilité.
L’apprentissage est définit comme
étant la capacité à améliorer les performances au fur et à mesure de l’exercice
d’une activité.
L'apprentissage automatique fait
référence au développement, à l’analyse et à l’implémentation de méthodes qui
permettent à une machine d’évoluer grâce à un processus d’apprentissage, et
ainsi de remplir des tâches qu’il est difficile ou impossible de remplir par
des moyens algorithmiques plus classiques.
Objectif : extraire et exploiter
automatiquement l'information présente dans un jeu de données.
C'est une technique de science des données
qui permet aux ordinateurs d’utiliser des données existantes afin de prévoir
les tendances, les résultats et les comportements futurs.
Arthur Samuel a définit l'apprentissage automatique comme étant:
« Un champ d'étude qui donne aux
ordinateurs la capacité d'apprendre sans être explicitement programmés » .
2. Types d'apprentissage
- Apprentissage supervisé
- Apprentissage non supervié
- Apprentissage par renforcement
2.1. Apprentissage supervisé
- Un expert doit préalablement étiqueter des exemples.
- L’apprenant doit alors trouver ou approximer la fonction qui permet d’affecter la bonne étiquette à ces exemples.
- Les classes sont prédéterminées et les exemples connus.
Le processus se passe en deux
phases:
- 1ère phase (Phase d'apprentissage): déterminer un modèle des données étiquetées.
- 2ème phase (Phase de test): Prédire l'étiquette d'une nouvelle donnée, connaissant le modèle préalablement appris.
2.2. Apprentissage non supervisé
- Quand le système ou l'opérateur ne disposent que d'exemples, mais non d'étiquettes, et que le nombre de classes et leur nature n'ont pas été prédéterminés, on parle d'apprentissage non supervisé.
- Aucun expert n'est requis.
- L'algorithme doit découvrir par lui-même la structure plus ou moins cachée des données.
Les problèmes d’apprentissage non
supervisé les plus populaires sont les analyses de clustering.
En cluster analysis, on essaye de séparer les données
en k
groupes.
Pour faire ce classement on va
optimiser deux choses :
- Maximiser l’homogénéité des données au sein des groupes, c’est à dire faire en sorte que les observations contenues dans un même groupe se ressemblent le plus possible ;
- Maximiser l’hétérogénéité entre les groupes, c’est à dire faire en sorte que des observations appartenant à des groupes distincts soient les plus différentes possible.
2.3. Apprentissage par renforcement
L’agent intelligent:
- Observe les effets de ses actions
- Déduit de ses observations la qualité de ses actions
- Améliore ses actions futures
L'action de l'algorithme sur
l'environnement produit une valeur de retour qui guide l'algorithme
d'apprentissage.
L’agent intelligent décide
d’effectuer une action en fonction de son état pour interagir avec son
environnement. L’environnement lui renvoie un renforcement sous la forme d’une
récompense positive ou négative.
Charge ensuite à l’agent de maximiser ce renforcement.
Lorsqu’il y a de l’incertain dans
la manière dont l’environnement évolue.
L’apprentissage par renforcement se distingue des autres
approches d’apprentissage par plusieurs aspects : L’apprentissage se fait sans supervision Il repose sur le principe d’essai/erreur
3. Sur apprentissage (overfitting)
En général, l’erreur
d’apprentissage diminue à chaque étape.
L’erreur réelle (de validation) diminue, se stabilise et puis augmente !
C’est le phénomène de
sur-apprentissage.
4. Données d'apprentissage
- Ensemble d’apprentissage ou population d’entrainement : constitue l’ensemble des candidats ou exemples (images, attributs, DB, …) utilisés pour générer le modèle d’apprentissage.
- Ensemble de Test est constitué des candidats sur lesquels sera appliqué le modèle d’apprentissage (pour tester et corriger l’algorithme).
- Ensemble de validation peut être utilisé lors de l’apprentissage (comme sous population de l’ensemble d’apprentissage) afin de valider (intégrer) le modèle et d’éviter le sur apprentissage.
5. Critères de performance
L'évaluation de la performance d'un classifieur se fait par le taux de bonnes classifications.
Exemple, si pour 100 exemples de tests, 89 ont été prédits correctement par notre modèle de prédiction, on pourra dire que ce modèle a une précision de 89% (souvent écrit 0,89).
Mais la précision n'est pas le seul critère à prendre en compte, notamment pour les problèmes à deux classes.
En effet, lorsque l'on travaille avec des modèles de prédiction binaires, de nouveaux critères peuvent entrer en jeu (par exemple, dans le domaine médical).
Tableau de confusion:
La sensibilité (se) représente la proportion de personnes vraiment atteintes de la maladie, dans la population ciblée, qui sont identifiées par le test de dépistage comme étant atteintes de la maladie (c’est-à-dire qu’elles
ont des résultats élevés).
La sensibilité indique la probabilité que le test diagnostiquera correctement un cas.
La spécificité (sp) représente la proportion de personnes non atteintes de la maladie qui a des résultats peu élevés sur le test de dépistage: la probabilité que le test identifiera correctement une personne n’étant pas
atteinte de la maladie.
L'exactitude (Accuracy): Le taux de bonne classification
𝑎𝑐𝑐
= 𝑡𝑏𝑐 = 𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝐹𝑁 + 𝑇𝑁 +
𝐹𝑃
≈ 𝑇𝑃 + 𝐹𝑁 ∗ 𝑡𝑝𝑟 + 𝐹𝑃 + 𝑇𝑁 ∗ 1 − 𝑓𝑝𝑟
La sensibilité et la spécificité d'une classification doivent toujours être données ensemble.
On peut d'ailleurs définir l'indice
de Youden :
𝐼𝑌𝑜𝑢𝑑𝑒𝑛 = 𝑆𝑒 + 𝑆𝑝 − 1
Cet indice révèle l'efficacité de la prédiction :
- S'il est négatif ou nul, la classification est inefficace.
- Elle est d'autant plus efficace qu'il se rapproche de 1.