rubiks cube

Der bekannte Würfel

Einer der zufällig ausgewählten Parameter ist die Größe des Zauberwürfels (oben). ADR beginnt mit einer festen Größe vom Würfel aus dem https://mastercubestore.de/ und erhöht allmählich den Randomisierungsbereich mit fortschreitendem Training. Wir wenden die gleiche Technik auf alle anderen Parameter an, wie die Masse des Würfels, die Reibung der Roboterfinger und die visuellen Oberflächenmaterialien der Hand. Das neuronale Netz muss also lernen, den Zauberwürfel unter all diesen immer schwieriger werdenden Bedingungen zu lösen.

Bei der Domain-Randomisierung mussten wir manuell Randomisierungsbereiche angeben, was schwierig ist, da zu viel Randomisierung das Lernen erschwert, aber zu wenig Randomisierung den Transfer zum echten Roboter behindert. ADR löst dieses Problem, indem es die Randomisierungsbereiche im Laufe der Zeit ohne menschliches Eingreifen automatisch erweitert. ADR beseitigt die Notwendigkeit von Domänenkenntnissen und macht es einfacher, unsere Methoden auf neue Aufgaben anzuwenden. Im Gegensatz zur manuellen Domain-Randomisierung hält ADR die Aufgabe auch immer herausfordernd, da das Training niemals konvergiert.

Wir verglichen ADR mit manueller Domain-Randomisierung bei der Block-Flipping-Aufgabe, bei der wir bereits eine starke Basislinie hatten. Am Anfang schneidet ADR in Bezug auf die Anzahl der Erfolge auf dem echten Roboter schlechter ab. Aber wenn ADR die Entropie erhöht, die ein Maß für die Komplexität der Umgebung ist, verdoppelt sich die Übertragungsleistung schließlich gegenüber der Basislinie – ohne menschliches Tuning.

Prüfung auf Robustheit

Mit ADR sind wir in der Lage, neuronale Netze in der Simulation zu trainieren, die den Zauberwürfel an der echten Roboterhand lösen können. Dies liegt daran, dass ADR das Netzwerk einer endlosen Vielfalt randomisierter Simulationen aussetzt. Es ist diese Exposition gegenüber Komplexität während des Trainings, die das Netzwerk auf den Übergang von der Simulation in die reale Welt vorbereitet, da es lernen muss, sich schnell zu identifizieren und sich an jede physische Welt anzupassen, mit der es konfrontiert wird.

Um die Grenzen unserer Methode zu testen, experimentieren wir mit einer Vielzahl von Störungen, während die Hand den Zauberwürfel löst. Dieser Test testet nicht nur die Robustheit unseres Kontrollnetzwerks, sondern testet auch unser Vision-Netzwerk, das wir hier verwenden, um die Position und Ausrichtung des Würfels abzuschätzen.

Wir stellen fest, dass unser mit ADR trainiertes System überraschend robust gegenüber Störungen ist, obwohl wir nie damit trainiert haben: Der Roboter kann die meisten Flips und Gesichtsdrehungen unter allen getesteten Störungen erfolgreich ausführen, wenn auch nicht mit Spitzenleistung.

Emergentes Meta-Lernen

Wir glauben, dass Meta-Lernen oder Lernen lernen eine wichtige Voraussetzung für den Aufbau von Mehrzwecksystemen ist, da es ihnen ermöglicht, sich schnell an sich ändernde Bedingungen in ihrer Umgebung anzupassen. Die Hypothese hinter ADR ist, dass ein gedächtniserweitertes Netzwerk in Kombination mit einer ausreichend randomisierten Umgebung zu emergentem Meta-Lernen führt, bei dem das Netzwerk einen Lernalgorithmus implementiert, der es ihm ermöglicht, sein Verhalten schnell an die Umgebung anzupassen, in der es eingesetzt wird.

Konkreter stellen wir die Hypothese auf, dass ein neuronales Netzwerk mit endlicher Kapazität, das in Umgebungen mit unbegrenzter Komplexität trainiert wird, das Netzwerk dazu zwingt, einen speziellen Lernalgorithmus zu lernen, da es sich keine Lösungen für jede einzelne Umgebung merken kann und es keine einzige robuste Richtlinie gibt, die unter allen Randomisierungen funktioniert .