167 articles – 36 Notices  [english version]
HAL : hal-00703774, version 1

Fiche détaillée  Récupérer au format
JFPDA 2011, Rouen : France (2011)
Apprentissage de politiques efficaces avec XCSF et CEPS
Didier Marin 1, Jérémie Decock 1, Lionel Rigoux 1, Olivier Sigaud 1
(2011)

Nous proposons dans cette contribution une méthode qui permet d'obtenir une politique efficace dans un cadre où l'état et l'action sont continus. Le système contrôlé est un bras à deux degrés de liberté actionné par six muscles. Nous apprenons par démonstration une politique paramétrique avec le système de classeurs xcsf à partir de trajectoires quasi-optimales et nous étudions la capacité d'xcsf à généraliser ce qu'il a appris le long de ces trajectoires sur l'ensemble de l'espace atteignable. De plus, nous montrons qu'une méthode d'optimisation stochastique appelée Cross-Entropy Policy Search permet d'améliorer encore la performance du contrôleur paramétrique.
1 :  Institut des Systèmes Intelligents et Robotique (ISIR)
CNRS : UMR7222 – Université Pierre et Marie Curie [UPMC] - Paris VI
Informatique/Intelligence artificielle