Machine learning

Machine learning

Apprentissage par renforcement

L’idée d’apprendre via des interactions avec notre environnement est probablement la première réponse à laquelle on pense quand on se pose des questions sur la nature de l’apprentissage (Richard S. Sutton, 2014). Quand un enfant (agent) joue, bouge les bras, ou observe, il n’a pas de professeur mais il peut capter son environnement. Expérimenter ces connections produit des informations à propos de la cause et de l’effet, à propos des conséquences des actions, et de ce qu’il faut faire afin d’atteindre un objectif (Richard S. Sutton, 2014). La particularité de l’apprentissage par renforcement est qu’elle se trouve à l’intersection de plusieurs domaines scientifiques comme présenté dans la Figure 20 : Introduction à l’apprentissage par renforcement. Dans tous ces domaines d’expertise, il y a un problème que tous étudient, la science de la prise de décisions et cela représente l’essence même de l’apprentissage par renforcement (David Silver, 2015). Les différences entre l’apprentissage par renforcement et les autres paradigmes du machine learning sont qu’il n’y a pas de superviseur. Aucun élément externe informe l’agent que cette action précise à ce moment donné est le meilleur choix. Ce processus fonctionne par le biais de récompenses. De plus, le résultat qu’engendre l’action ne survient pas directement, il faut attendre, généralement, plusieurs étapes avant d’avoir un retour. Enfin, l’agent interagi avec son environnement ce qui provoque un dynamisme sur les informations qu’il reçoit et qui changent en fonction de l’action choisie (David Silver, 2015). L’apprentissage par renforcement s’appuie sur cette logique pour apprendre à une machine. Un agent qui interagit avec son environnement et agi en fonction des informations qu’il reçoit. Le problème de l’apprentissage par renforcement est d’apprendre à agir. Comment associer situations et actions afin de maximiser la récompense (Richard S. Sutton, 2014). Avant de penser à des solutions, comprenons les éléments qui structurent l’apprentissage par renforcement.

Eléments du paradigme

Au-delà de l’agent et de l’environnement, quatre sous-éléments principaux à un système d’apprentissage par renforcement sont identifiables : une politique, un signal de récompense, une value function et, optionnellement, un modèle de l’environnement (Richard S. Sutton, 2014).
Une politique défini le comportement de l’agent à un moment donné, c’est-à-dire, que cela représente le lien entre les états observés dans l’environnement par l’agent aux actions prises dans ces états (Richard S. Sutton, 2014). Un signal de récompense défini l’objectif d’un problème d’apprentissage par renforcement. A chaque étape, l’environnement envoie une récompense à l’agent et son but est de maximiser le total des récompenses sur le long-terme. Un signal de récompense défini si les évènements sont bons ou mauvais pour l’agent. Dans un système biologique, il représenterait le plaisir et la douleur (Richard S. Sutton, 2014).
Si la récompense détermine ce qui est bon dans l’immédiat, la value function informe de ce qui est bon sur le long-terme. En effet, la value function d’un état est le total des récompenses que l’agent peut espérer obtenir dans le futur en partant de cet état. Pour continuer sur l’analogie humaine, si la récompense est comme le plaisir ou la douleur, une value function représente un jugement plus prévoyant. En effet, il s’agit de la récompense que l’agent pourrait espérer avoir plus tard si cette action est faite tout de suite (Richard S. Sutton, 2014). Il s’agit de la clé pour la résolution des problèmes d’apprentissage par renforcement. Un modèle de l’environnement est optionnel selon le type et le nombre d’interaction que l’agent a avec l’environnement. Dans le monde du jeux-vidéos, l’apprentissage se ferait sans modèle car l’agent interagit en continue avec l’environnement ce qui lui permet d’apprendre par expérience. A l’inverse, si l’agent interagit un nombre limité de fois avec l’environnement, l’objectif est de créer un modèle sur la base des premières interactions et utiliser le modèle construit pour simuler d’autres épisodes (Ziad Salloum, 2019).

Fonctionnement

L’apprentissage par renforcement est une approche computationnelle sur la compréhension et l’automatisation d’un apprentissage par objectif et de prise de décision (Richard S. Sutton, 2014). Ce paradigme utilise le cadre de Markof Decision Process (MDP) pour définir les interactions entre l’agent et l’environnement en termes d’états, d’actions, et de récompenses. Le concept d’état est omniprésent dans l’apprentissage par renforcement. En effet, il est possible de voir cela comme une photo envoyée à l’agent de « comment est l’environnement » à cet instant précis (Richard S. Sutton, 2014). Le cadre MDP est une formalisation classique d’une séquence de prise de décision où l’action influe sur la récompense immédiate mais également sur les états à venir ainsi que leurs récompenses. L’objectif du cadre MDP est d’estimer la valeur de chaque action dans un état 𝑄(𝑠, 𝑎) par des problèmes mathématiques tels que la value fonction et Bellman Equations présentés plus tard dans le chapitre (Richard S. Sutton, 2014). Comme présenté dans la Figure 21 : L’interaction entre l’agent et l’environnement dans le cadre MDP ci-dessous, l’agent représente l’apprenant /décideur et celui-ci interagis avec son environnement en continu. L’agent choisit une action et l’environnement réagit en fonction du choix, présentant ainsi à l’agent une nouvelle situation. L’environnement envoie alors une récompense, une valeur numérique que l’agent cherche à maximiser sur le long terme et son nouvel état (Richard S. Sutton, 2014).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Table des matières
Déclaration
Remerciements
Liste des figures
1. Introduction
2. Technologies utilisées
2.1 PyTorch
2.1.1 Explication du choix
2.2 OpenAI Gym
2.2.1 Explication du choix
3. Machine learning
3.1 Introduction
3.2 Réseaux de neurones artificiels
3.2.1 Introduction
3.2.2 Structure
3.2.3 Phase d’apprentissage
3.2.3.1 L’algorithme de descente du gradient
3.2.3.2 Calcul du gradient sur régression linéaire
3.2.3.2.1 Régression linéaire univariée
3.2.3.2.2 Explication mathématique
3.2.3.2.3 Implémentation Python
3.2.3.3 Calcul du gradient dans un réseau de neurones artificiels manuellement
3.2.3.4 Calcul du gradient dans un réseau de neurone avec PyTorch
3.3 Apprentissage par renforcement
3.3.1 Eléments du paradigme
3.3.2 Fonctionnement
5 3.3.3 Tabular Q-learning
3.3.3.1 Implémentation
3.3.4 DQN
3.3.4.1 Concepts
3.3.4.2 Fonctionnement
3.3.4.3 Implémentation
4. Conclusion
5. Bibliographie