Lernen von ressourcenschonenden Reglern
Ansprechpartner
Name
Dominik Baumann
- E-Mail schreiben
In modernen technischen Systemen, wie zum Beispiel Flotten autonomer Fahrzeuge oder mobilen Robotern, haben wir es häufig mit hochdimensionalen Systemen mit komplexer Dynamik zu tun. Gleichzeitig müssen diese Systeme miteinander interagieren, z.B. um sich zu koordinieren. Zu diesem Zweck sind sie über typischerweise drahtlose Kommunikationsnetzwerke verbunden. Wärend drahtlose Netzwerke beispiellose Flexibilät bieten, erhöhen sie die Komplexität: Neben den Dynamiken der Systeme müssen wir auch berücksichtigen, dass die Bandbreite drahtloser Netzwerke begrenzt ist. Wenn mehrere Agenten das gleiche Netzwerk nutzen, wird Bandbreite eine knappe Ressource. Deswegen sind konventionelle Regelungsmethoden, die auf periodischer Kommunikation basieren, oft nicht anwendbar.
Für solche Systeme müssen wir zwei Probleme lösen: 1. Wir müssen Regelungsstrategien entwickeln die mit den Dynamiken der Systeme zurechtkommen; 2. wir müssen die begrenzte Bandbreite des drahtlosen Netzwerkes berücksichtigen. Diese Probleme werden noch zusätzlich dadurch verkompliziert, dass ein separates Design einer optimalen Regelungs- und einer optimalen Kommunikationsstrategie im Allgemeinen nicht in der insgesamt optimale Strategie resultiert. Das bedeutet, Regelung und Kommunikation müssen gemeinsam optimiert werden. Da dieses Problem für allgemeine, nichtlineare Systems schwierig zu lösen ist, nutzen wir Techniken des Deep Reinforcement Learning , abgekürzt mit DRL. Beim DRL lernt ein Agent das optimale Verhalten durch Interaktion mit seiner Umgebung. Auf diese Art können wir gemeinsame Regelungs- und Kommunikationsstrategien aus Daten lernen, die problemlos von niedrigdimensionalen zu hochdimensionalen nichtlinearen Systemen skalieren. Wir demonstrieren die Effektivität unserer Methoden in anspruchsvollen Simulationsumgebungen und in Experimenten auf einem Robotiksystem. Zusätzlich präsentieren wir einen ersten Ansatz zur Prüfung der Stabilität gelernter, ressourcenschonender Regler. Siehe unsere Publikationen CDC 2018 und arXiv 2019
Mehr Informationen wie Videos oder Code finden Sie unter:
Learning Event-triggered Control from Data through Joint Optimization