Stabilisation d’un pendule inversé à l’aide d’un apprentissage par renforcement

publié le 13 juin 2022 par Hélène HORSIN MOLINARO [1]

Interaction entre l’agent et l’environnement

[2]

Photo du robot Handle de Boston Dynamics

[3]

[4]

Schéma cinématique de l'ensemble {chariot + pendule}

[5]

Compétences et connaissances du référentiel MPSI/PCSI/PC/PSI/MP

[6]

[7]

Contenu principal

Description

Stabilisation d’un pendule inversé à l’aide d’un apprentissage par renforcement

Cette ressource fait partie du « Dossier Intelligence Artificielle [8] ».

Cette ressource propose d’illustrer à travers une séance de travaux pratiques, les principes de base de l’apprentissage par renforcement.

Les concepts de base de l’apprentissage par renforcement sont rappelés. Cette partie théorique présente les notions d’action, d’observation, d’état, de récompense et de politique. Puis est montré comment formaliser le redressement et la stabilisation d’un pendule simple sous la forme d’un problème d’apprentissage par renforcement. Enfin, une séance de travaux pratiques mêlant simulations et expérimentations sur un système réel permet d’illustrer la pertinence de la méthode proposée, en particulier de l’importance du modèle utilisé pour modéliser l’environnement est discuté. L’activité pratique permet également de mettre en évidence la différence entre phases d’apprentissage et d’inférence.

La phase d’expérimentation se base sur Control’X et Matlab. Cependant, la partie simulation peut également se faire sur python dirigée principalement vers l’utilisation de la librairie Gym.

Cette ressource est à destination d’enseignants ou de chercheurs désirant se familiariser avec les concepts de l’apprentissage par renforcement. Il ne nécessite pas de connaissances préalables. Les activités pratiques peuvent être effectuées par des élèves de lycée ou de classe préparatoire même si l’apprentissage par renforcement n’est pas explicitement au programme. Les points du programme de classe préparatoire abordés sont listés dans le tableau à la fin de cette ressource.

Contenu de la ressource :

Déroulement de la séance de travaux pratiques
Contextualisation
Formalisme général
Formalisation du redressement et de la stabilisation du pendule inversé
Préparer l'apprentissage
Application sur le Control'X
Conclusion
Annexe

Fichiers et liens

Stabilisation d’un pendule inversé à l’aide d’un apprentissage par renforcement [9]

Liens:
[1] https://eduscol.education.fr/sti/utilisateurs/helene-horsin-molinaro?node=14546
[2] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-interaction-entre-lagent-et-lenvironnement-vignette.png
[3] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-photo-du-robot.png
[4] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-controlx-pendule.png
[5] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-schema-cinematique-de-lensemble.png
[6] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-competences-et-connaissances-du-referentiel-mpsi-pcsi-pc-psi-mp.png
[7] https://eduscol.education.fr/sti/system/files/images/ressources/pedagogiques/14546/14546-comparaison-dun-controle-par-retour-detat-et-laide-dun-apprentissage-par-renforcement.png
[8] https://eduscol.education.fr/sti/si-ens-paris-saclay/ressources_pedagogiques/dossier-intelligence-artificielle
[9] https://eduscol.education.fr/sti/sites/eduscol.education.fr.sti/files/ressources/pedagogiques/14546/14546-stabilisation-dun-pendule-inverse-laide-dun-apprentissage-par-renforcement-ensps.pdf