Controller Learning using Bayesian Optimization
Links: Humanoider Roboter Apollo, der lernt, einen umgekehrten Pol mittels Bayes'scher Optimierung auszubalancieren. Rechts: Eindimensionales synthetisches Beispiel eines unbekannten Kosten J(θ), modelliert als Gauß-Prozess für Reglerparameter θ, bedingt durch beobachtete Datenpunkte.
Autonome Systeme wie humanoide Roboter sind durch eine Vielzahl von Regelkreisen gekennzeichnet, die auf unterschiedlichen hierarchischen Ebenen und Zeitskalen arbeiten. Der Entwurf und das Parametrisieren dieser Regler erfordert in der Regel einen erheblichen manuellen Modellierungs- und Konstruktionsaufwand und ausgiebige experimentelle Tests. Zur Bewältigung der immer größeren Komplexität und dem Streben nach größerer Autonomie ist es wünschenswert, intelligente Algorithmen maßzuschneidern, die es autonomen Systemen ermöglichen, aus experimentellen Daten zu lernen. In unserer Forschung setzen wir Regelungstechnik, maschinelles Lernen und Optimierung ein, um Algorithmen für den Entwurf und die Abstimmung automatischer Regelungen zu entwickeln.
Das am Max-Planck Institut für Intelligente Systeme, kurz MPI-IS, in unserer Publikation ICRA 2016 vorgeschlagene Framework basiert auf der Bayes'schen Optimierung, abgekürzt BO. Bei diesem Framework haben wir das Regelungsziel als Gauß'schen Prozess, von hier an mit GP abgekürzt, modelliert (siehe Abbildung oben) und den Regler in Experimenten evaluiert. Die Bayes'sche Optimierung schlägt nacheinander neue Experimente vor, um mehr Informationen über die Kostenfunktion zu erhalten. Das Gesamtziel besteht darin, in möglichst wenigen Experimenten gute oder sogar optimale Parameter zu finden, indem man sich für Experimente entscheidet, die informativ sind.
Wir haben dieses Framework am MPI-IS in verschiedene Richtungen erweitert, um die Dateneffizienz weiter zu verbessern. Beim automatischen Parametrisieren realer komplexer Systeme wie humanoider Roboter stehen typischerweise Simulationen der Systemdynamik zur Verfügung. Sie liefern weniger genaue Informationen als reale Experimente, sind aber weniger aufwendig zu erhalten. Unsere Arbeit ICRA 2017 erweitert BO, um den Simulator als zusätzliche Informationsquelle und wägt damit automatisch Information gegen Kosten ab. In CDC 2017 wird die Kovarianzfunktion des GP-Modells auf das vorliegende Regelungsproblem zugeschnitten, indem ihre mathematische Struktur in das Kernel-Design integriert wird. Auf diese Weise kann die Reglerperformance besser modelliert werden. Dies beschleunigt letztlich die Konvergenz des Bayes'schen Optimierers.
Die Bayes'sche Optimierung bietet einen leistungsfähigen Rahmen für das Lernen von Reglern, den wir in sehr unterschiedliche Anwendungen erfolgreich demonstriert haben: humanoide Roboter ICRA 2016, Mikroroboter IROS 2018 und Automobilindustrie TCST 2020.
Kürzlich haben wir diesen Rahmen erweitert, in dieser Publikation
arXiv 2019
um Fehler, d.h. instabile Regler, in die Zielfunktion einzubeziehen und um mit einem begrenzten Budget von Constraint-Verletzungen während der Optimierung umzugehen, siehe arXiv 2020.
Zu den aktuellen Forschungsrichtungen gehören die Kombination von BO und gradientenbasierten Optimierern sowie ereignisgesteuerte BO in dynamischen Umgebungen.