L’algorithme de l’équipe, appelé Dreamer, utilise les expériences passées pour construire un modèle du monde environnant. Dreamer permet également au robot d’effectuer des calculs d’essais et d’erreurs dans un programme informatique par opposition au monde réel, en prédisant les résultats futurs potentiels de ses steps potentielles. Cela lui permet d’apprendre furthermore vite qu’il ne pourrait le faire simplement. Une fois que le robot a appris à marcher, il a continué à apprendre à s’adapter à des circumstances inattendues, comme résister à être renversé par un bâton.

“L’enseignement des robots par essais et erreurs est un problème difficile, rendu encore additionally difficile par les longs temps de formation requis par un tel enseignement”, explique Lerrel Pinto, professeur adjoint d’informatique à l’Université de New York, spécialisé dans la robotique et l’apprentissage automatique. Dreamer montre que l’apprentissage par renforcement profond et les modèles mondiaux sont capables d’enseigner de nouvelles compétences aux robots en très peu de temps, dit-il.

Jonathan Hurst, professeur de robotique à l’Oregon State College, affirme que les résultats, qui n’ont pas encore été évalués par des pairs, indiquent clairement que “l’apprentissage par renforcement sera un outil fondamental dans l’avenir du contrôle des robots”.

Supprimer le simulateur de la development des robots présente de nombreux avantages. L’algorithme pourrait être utile pour enseigner aux robots remark acquérir des compétences dans le monde réel et s’adapter à des situations telles que les pannes matérielles, dit Hafner – par exemple, un robotic pourrait apprendre à marcher avec un moteur défectueux dans une jambe.

L’approche pourrait également avoir un énorme potentiel pour des choses furthermore compliquées comme la conduite autonome, qui nécessitent des simulateurs complexes et coûteux, explique Stefano Albrecht, professeur adjoint d’intelligence artificielle à l’Université d’Édimbourg. Une nouvelle génération d’algorithmes d’apprentissage par renforcement pourrait “reprendre très rapidement dans le monde réel le fonctionnement de l’environnement”, déclare Albrecht.