Learning Safety Constraints and Safe Learning

  Ein Spielzeugmodell mit einem 2-dimensionalen Zustands-Aktionsraum Urheberrecht: © Steve Heim / MPI-IS
 

Um die Steuerung direkt auf der Roboterhardware zu erlernen, ist es wichtig, Sicherheitseinschränkungen in das Lernverhalten zu kodieren.
Obwohl Fehler oft leicht zu klassifizieren sind, z.B. ist ein Roboter mit Beinen gestürzt, wenn der Körper den Boden berührt, ist die tatsächliche Zustands-Raum-Einschränkung z.B. der Roboter stolpert und kann sich nicht mehr auffangen typischerweise schwer zu berechnen.
Folglich verwenden Algorithmen für sicheres Lernen oft sehr konservative Näherungen der Constraint-Funktion, was die Leistung einschränkt.
In unserem Paper CoRL 2019 haben wir scharfe Nebenbedingungen mit Hilfe der Lebensfähigkeitstheorie formalisiert und gezeigt, dass wir diese Nebenbedingung in einer modellfreien Umgebung lernen können, indem wir ein Maß verwenden, das über die Menge der lebensfähigen Zustands-Aktions-Paare genommen wird. Während die Sicherheit erst dann gewährleistet werden kann, wenn das Lernen der Randbedingung konvergiert hat, können Ausfälle bereits während des Lernens durch Verwendung der Randbedingungsschätzung stark reduziert werden.
Wir erweitern derzeit diese theoretische Arbeit mit einem Schwerpunkt auf der Anwendbarkeit.
Die wichtigsten offenen Herausforderungen, die wir in Angriff nehmen:

  • Wie können wir die Stichprobeneffizienz verbessern, indem wir zwischen Kosten- und Constraint- Informationen abwägen
  • Wie können Misserfolge beim Lernen durch modellbasiertes Vorwissen weiter reduziert werden?
  • Welches systemspezifische Wissen in der Praxis erforderlich ist, mit legged-locomotion als Fallstudie.