Kıskaç Öğrenir… Deneme Yanılma Yoluyla

Dec 26, 2019

İnsan elinden ilham alan LearningGripper'ın dört parmağı vardır. Makine öğrenim yazılımının yardımıyla, bu tutucu bir makaleyi almak ve yönlendirmek gibi karmaşık bir eylemde ustalaşabilir. Parmakların temel pozisyonları ve ortamdan gelen geri bildirim fonksiyonu önceden tanımlanmalıdır; tutucu, diğer tüm hareket dizilerini deneme yanılma yoluyla öğrenir.

LearningGripper'ın görevi, gösterildiği gibi, logo üstte olana kadar topu döndürmekti. Başlangıçta kavrayıcı topu rastgele hareket ettirdi. Toptaki bir konum sensörü, logonun yakalayıcının “avuç içi” sinden ne kadar uzakta olduğuna dair geri bildirim sağladı. LearningGripper bir puan sistemine dayalı bir ödül aldı; puanlar makine öğrenme yazılımında işlenir. Zamanla, yazılım bir hareket stratejisi geliştirdi ve yakalayıcı belirli bir noktada hangi eylemin gerçekleştirileceğini öğrendi. Mümkün olduğunca olumlu geri bildirim almak için hareketlerini değiştirir ve sonunda görevine güvenilir bir çözüm bulur. Eğer bir tutucu stratejisi diğerine aktarılırsa, ikinci tutucu bunu kendi stratejisini daha verimli bir şekilde öğrenmek için bir bilgi tabanı olarak kullanır.

LearningGripper, gelecekteki sistemlerin karmaşık görevleri karmaşık programlama olmadan nasıl özerk bir şekilde çözebileceğini gösterir. LearningGripper gibi kendi kendine öğrenme sistemleri bir üretim hattına kurulabilir ve daha sonra davranışlarını bağımsız olarak optimize etmesine izin verilebilir