Qu'est-ce que l'apprentissage par renforcement ?

<built-in method title of str object at 0x7fa138028460>

L'apprentissage par renforcement est une méthode d'apprentissage automatique basée sur la récompense des comportements souhaités et/ou la punition des comportements indésirables. En général, un agent d'apprentissage par renforcement est capable de percevoir et d'interpréter son environnement, de prendre des mesures et d'apprendre par essais et erreurs.

Comment fonctionne l'apprentissage par renforcement ?

Dans l'apprentissage par renforcement, les développeurs conçoivent une méthode pour récompenser les comportements souhaités et punir les comportements négatifs. Cette méthode attribue des valeurs positives aux actions souhaitées pour encourager l'agent et des valeurs négatives aux comportements indésirables. Cela programme l'agent pour qu'il recherche une récompense globale maximale et à long terme afin d'obtenir une solution optimale.

Ces objectifs à long terme aident à empêcher l'agent de s'arrêter sur des objectifs moins importants. Avec le temps, l'agent apprend à éviter le négatif et à rechercher le positif. Cette méthode d'apprentissage a été adoptée dans l'intelligence artificielle (IA) comme moyen de diriger l'apprentissage automatique non supervisé par le biais de récompenses et de pénalités.

Applications et exemples d'apprentissage par renforcement

Bien que l'apprentissage par renforcement ait suscité beaucoup d'intérêt dans le domaine de l'IA, son adoption et son application généralisées dans le monde réel restent limitées. Notant cela, cependant, les articles de recherche abondent sur les applications théoriques, et il y a eu quelques cas d'utilisation réussis.

Les cas d'utilisation actuels incluent, mais sans s'y limiter, les éléments suivants :

jeu vidéo
la gestion des ressources
recommandations personnalisées
robotique

Le jeu est probablement le domaine d'utilisation le plus courant pour l'apprentissage par renforcement. Il est capable d'atteindre des performances surhumaines dans de nombreux jeux. Un exemple courant concerne le jeu Pac-Man.

Un algorithme d'apprentissage jouant à Pac-Man pourrait avoir la capacité de se déplacer dans l'une des quatre directions possibles, sauf obstruction. À partir des données de pixels, un agent peut recevoir une récompense numérique pour le résultat d'une unité de déplacement : 0 pour l'espace vide, 1 pour les granulés, 2 pour les fruits, 3 pour les granulés de puissance, 4 pour les granulés fantômes post-alimentation, 5 pour la collecte. Tous les plombs et terminer un niveau, et une déduction de 5 points pour collision avec un fantôme. L'agent commence par un jeu aléatoire et passe à un jeu plus sophistiqué, apprenant l'objectif d'obtenir toutes les pastilles pour terminer le niveau. Avec le temps, un agent pourrait même apprendre des tactiques telles que la conservation des pastilles de puissance jusqu'à ce qu'elles soient nécessaires à l'autodéfense.

L'apprentissage par renforcement peut fonctionner dans une situation aussi longtemps qu'une récompense claire peut être appliquée. Dans la gestion des ressources d'entreprise (ERM), les algorithmes d'apprentissage par renforcement peuvent allouer des ressources limitées à différentes tâches tant qu'il existe un objectif global qu'ils tentent d'atteindre. Un objectif dans cette circonstance serait de gagner du temps ou de conserver des ressources.

En robotique, l'apprentissage par renforcement a trouvé sa place dans des tests limités. Ce type d'apprentissage automatique peut fournir aux robots la capacité d'apprendre des tâches qu'un enseignant humain ne peut pas démontrer, d'adapter une compétence acquise à une nouvelle tâche ou d'obtenir une optimisation malgré le manque de formulation analytique disponible.

L'apprentissage par renforcement est également utilisé dans la recherche opérationnelle, la théorie de l'information, la théorie des jeux, la théorie du contrôle, l'optimisation basée sur la simulation, les systèmes multi-agents, l'intelligence en essaim, les statistiques et les algorithmes génétiques.

Les défis de l'application de l'apprentissage par renforcement

L'apprentissage par renforcement, bien que fort potentiel, peut être difficile à déployer et reste limité dans son application. L'un des obstacles au déploiement de ce type d'apprentissage automatique est sa dépendance à l'exploration de l'environnement.

Par exemple, si vous deviez déployer un robot qui s'appuyait sur l'apprentissage par renforcement pour naviguer dans un environnement physique complexe, il cherchera de nouveaux états et entreprendra différentes actions au fur et à mesure de son déplacement. Cependant, il est difficile de prendre systématiquement les meilleures actions dans un environnement réel, en raison de la fréquence à laquelle l'environnement change.

Le temps nécessaire pour s'assurer que l'apprentissage se fait correctement par cette méthode peut limiter son utilité et être gourmand en ressources informatiques. À mesure que l'environnement de formation devient plus complexe, il en va de même pour les demandes de temps et de ressources informatiques.

L'apprentissage supervisé peut fournir des résultats plus rapides et plus efficaces que l'apprentissage par renforcement aux entreprises si la quantité appropriée de données est disponible, car il peut être utilisé avec moins de ressources.

Algorithmes d'apprentissage par renforcement courants

Plutôt que de se référer à un algorithme spécifique, le domaine de l'apprentissage par renforcement est composé de plusieurs algorithmes qui adoptent des approches quelque peu différentes. Les différences sont principalement dues à leurs stratégies d'exploration de leur environnement.

State-action-reward-state-action (SARSA =État-action-récompense-état-action). Cet algorithme d'apprentissage par renforcement commence par donner à l'agent ce qu'on appelle une politique. La politique est essentiellement une probabilité qui lui indique les chances que certaines actions entraînent des récompenses ou des états bénéfiques.
Q-apprentissage. Cette approche de l'apprentissage par renforcement adopte l'approche opposée. L'agent ne reçoit aucune politique, ce qui signifie que son exploration de son environnement est plus autonome.
Réseaux Q profonds. Ces algorithmes utilisent des réseaux de neurones en plus des techniques d'apprentissage par renforcement. Ils utilisent l'exploration autonome de l'environnement, de l'apprentissage par renforcement. Les actions futures sont basées sur un échantillon aléatoire d'actions bénéfiques passées apprises par le réseau de neurones.

Quelle est la différence entre l'apprentissage par renforcement et l'apprentissage supervisé et non supervisé ?

L'apprentissage par renforcement est considéré comme sa propre branche de l'apprentissage automatique, bien qu'il présente certaines similitudes avec d'autres types d'apprentissage automatique, qui se décomposent en quatre domaines :

Enseignement supervisé. Dans l'apprentissage supervisé, les algorithmes s'entraînent sur un corps de données étiquetées. Les algorithmes d'apprentissage supervisé ne peuvent apprendre que les attributs spécifiés dans l'ensemble de données. Les applications courantes de l'apprentissage supervisé sont les modèles de reconnaissance d'images. Ces modèles reçoivent un ensemble d'images étiquetées et apprennent à distinguer les attributs communs des formes prédéfinies.
Apprentissage non supervisé. Dans l'apprentissage non supervisé, les développeurs libèrent les algorithmes sur des données entièrement non étiquetées. L'algorithme apprend en cataloguant ses propres observations sur les caractéristiques des données sans qu'on lui dise quoi à rechercher.
Apprentissage semi-supervisé. Cette méthode adopte une approche intermédiaire. Les développeurs saisissent un ensemble relativement restreint de données d'entraînement étiquetées, ainsi qu'un corpus plus important de données non étiquetées. L'algorithme est ensuite chargé d'extrapoler ce qu'il apprend des données étiquetées aux données non étiquetées et de tirer des conclusions à partir de l'ensemble dans son ensemble.
Apprentissage par renforcement. Cela adopte une approche complètement différente. Il situe un agent dans un environnement avec des paramètres clairs définissant l'activité bénéfique et l'activité non bénéfique et une fin de partie globale à atteindre. Il est similaire à certains égards à l'apprentissage supervisé dans la mesure où les développeurs doivent donner aux algorithmes des objectifs clairement spécifiés et définir des récompenses et des punitions. Cela signifie que le niveau de programmation explicite requis est supérieur à celui de l'apprentissage non supervisé. Mais, une fois ces paramètres définis, l'algorithme fonctionne de lui-même, ce qui le rend beaucoup plus autonome que les algorithmes d'apprentissage supervisé. Pour cette raison, les gens se réfèrent parfois à l'apprentissage par renforcement comme une branche de l'apprentissage semi-supervisé, mais en vérité, il est le plus souvent reconnu comme son propre type d'apprentissage automatique.