HomeKomputerMempercepat Pergerakan Visual yang Dipelajari Evolusi dengan Representasi Informasi Prediktif – Blog...

Mempercepat Pergerakan Visual yang Dipelajari Evolusi dengan Representasi Informasi Prediktif – Blog Google AI

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Strategi evolusi (ES) adalah keluarga teknik optimasi yang terinspirasi oleh ide-ide dari seleksi alam: populasi solusi kandidat biasanya berkembang dari generasi ke generasi untuk lebih beradaptasi dengan tujuan optimasi. ES telah diterapkan pada berbagai masalah pengambilan keputusan yang menantang, seperti: penggerak berkaki, kontrol quadcopterdan bahkan kontrol sistem tenaga.

pembelajaran penguatan (RL) metode seperti optimasi kebijakan proksimal (PPO) dan aktor-kritikus lembut (SAC), ES memiliki beberapa keunggulan. Pertama, ES secara langsung mengeksplorasi dalam ruang parameter pengontrol, sementara metode berbasis gradien sering mengeksplorasi dalam ruang aksi terbatas, yang secara tidak langsung mempengaruhi parameter pengontrol. Eksplorasi lebih langsung telah terbukti meningkatkan kinerja belajar dan memungkinkan pengumpulan data skala besar dengan komputasi paralel. Kedua, tantangan utama dalam RL adalah penugasan kredit jangka panjang, misalnya, ketika robot menyelesaikan tugas pada akhirnya, menentukan tindakan mana yang dilakukan di masa lalu yang paling kritis dan harus diberi hadiah yang lebih besar. Karena ES secara langsung mempertimbangkan total hadiah, ini membebaskan peneliti dari kebutuhan untuk menangani penugasan kredit secara eksplisit. Selain itu, karena ES tidak bergantung pada informasi gradien, ES secara alami dapat menangani tujuan yang sangat tidak mulus atau arsitektur pengontrol di mana perhitungan gradien tidak sepele, seperti pembelajaran meta-penguatan. Namun, kelemahan utama dari algoritma berbasis ES adalah kesulitannya dalam menskalakan masalah yang memerlukan input sensorik dimensi tinggi untuk mengkodekan dinamika lingkungan, seperti robot pelatihan dengan input penglihatan yang kompleks.

Dalam karya ini, kami mengusulkan “PI-ARS: Mempercepat Gerakan Visual yang Dipelajari Evolusi dengan Representasi Informasi Prediktif”, algoritma pembelajaran yang menggabungkan pembelajaran representasi dan ES untuk secara efektif memecahkan masalah dimensi tinggi dengan cara yang terukur. Ide intinya adalah untuk memanfaatkan informasi prediktiftujuan pembelajaran representasi, untuk mendapatkan representasi yang kompak dari dinamika lingkungan berdimensi tinggi, dan kemudian menerapkan Pencarian Acak yang Diperbesar (ARS), algoritma ES populer, untuk mengubah representasi kompak yang dipelajari menjadi tindakan robot. Kami menguji PI-ARS pada masalah menantang gerak visual untuk robot berkaki. PI-ARS memungkinkan pelatihan cepat dari pengontrol penggerak berbasis visi berkinerja yang dapat melintasi berbagai lingkungan yang sulit. Selanjutnya, pengontrol yang terlatih dalam lingkungan simulasi berhasil mentransfer ke robot berkaki empat yang sebenarnya.

See also  Tim kreatif ini menggunakan alat digital untuk berkolaborasi dari jarak jauh pada film berdurasi panjang

PI-ARS melatih kebijakan penggerak visual yang andal yang dapat ditransfer ke dunia nyata.

Informasi Prediktif

Representasi yang baik untuk pembelajaran kebijakan harus keduanya tekansehingga ES dapat fokus pada pemecahan masalah dimensi yang jauh lebih rendah daripada belajar dari pengamatan mentah, dan tugas-kritis, sehingga pengontrol yang dipelajari memiliki semua informasi yang diperlukan untuk mempelajari perilaku yang optimal. Untuk masalah kontrol robot dengan ruang input berdimensi tinggi, sangat penting bagi kebijakan untuk memahami lingkungan, termasuk informasi dinamis dari robot itu sendiri dan objek di sekitarnya.

Dengan demikian, kami mengusulkan encoder observasi yang menyimpan informasi dari observasi input mentah yang memungkinkan kebijakan untuk memprediksi keadaan lingkungan di masa depan, sehingga namanya informasi prediktif (PI). Lebih khusus lagi, kami mengoptimalkan pembuat enkode sedemikian rupa sehingga versi yang disandikan dari apa yang telah dilihat dan direncanakan robot di masa lalu dapat secara akurat memprediksi apa yang mungkin dilihat dan dihargai robot di masa depan. Salah satu alat matematika untuk menggambarkan properti seperti itu adalah dari informasi bersamayang mengukur jumlah informasi yang kita peroleh tentang satu variabel acak X dengan mengamati variabel acak lain kamu. Dalam kasus kami, X dan kamu akan menjadi apa yang dilihat dan direncanakan robot di masa lalu, dan apa yang dilihat dan dihargai robot di masa depan. Mengoptimalkan tujuan informasi timbal balik secara langsung adalah masalah yang menantang karena kami biasanya hanya memiliki akses ke sampel variabel acak, tetapi tidak distribusi dasarnya. Dalam pekerjaan ini kami mengikuti pendekatan sebelumnya yang menggunakan InfoNCEikatan variasi kontrastif pada informasi timbal balik untuk mengoptimalkan tujuan.

Kiri: Kami menggunakan pembelajaran representasi untuk mengkodekan PI lingkungan. Benar: Kami melatih representasi dengan memutar ulang lintasan dari buffer replay dan memaksimalkan prediktabilitas antara pengamatan dan rencana gerak di masa lalu dan pengamatan dan penghargaan di masa depan lintasan.

Informasi Prediktif dengan Augmented Random Search

Selanjutnya, kita gabungkan PI dengan Pencarian Acak yang Diperbesar (ARS), algoritme yang telah menunjukkan kinerja pengoptimalan yang sangat baik untuk tugas pengambilan keputusan yang menantang. Pada setiap iterasi ARS, ia mengambil sampel populasi parameter pengontrol yang terganggu, mengevaluasi kinerjanya di lingkungan pengujian, dan kemudian menghitung gradien yang menggerakkan pengontrol ke arah yang berkinerja lebih baik.

See also  Mensinergikan Penalaran dan Akting dalam Model Bahasa – Blog Google AI

Kami menggunakan representasi ringkas yang dipelajari dari PI untuk menghubungkan PI dan ARS, yang kami sebut PI-ARS. Lebih khusus lagi, ARS mengoptimalkan pengontrol yang mengambil input PI representasi ringkas yang dipelajari dan memprediksi perintah robot yang sesuai untuk mencapai tugas. Dengan mengoptimalkan pengontrol dengan ruang input yang lebih kecil, memungkinkan ARS menemukan solusi optimal dengan lebih efisien. Sementara itu, kami menggunakan data yang dikumpulkan selama optimasi ARS untuk lebih meningkatkan representasi yang dipelajari, yang kemudian dimasukkan ke pengontrol ARS pada iterasi berikutnya.

Ikhtisar aliran data PI-ARS. Algoritme kami menyisipkan antara dua langkah: 1) mengoptimalkan tujuan PI yang memperbarui kebijakan, yang merupakan bobot untuk jaringan saraf yang mengekstraksi representasi yang dipelajari; dan 2) pengambilan sampel lintasan baru dan pemutakhiran parameter pengontrol menggunakan ARS.

Visual-Locomotion untuk Robot Berkaki

Kami mengevaluasi PI-ARS pada masalah gerak visual untuk robot berkaki. Kami memilih masalah ini karena dua alasan: penggerak visual adalah hambatan utama bagi robot berkaki untuk diterapkan dalam aplikasi dunia nyata, dan masukan visi berdimensi tinggi ke kebijakan dan dinamika kompleks pada robot berkaki menjadikannya ujian yang ideal. -case untuk mendemonstrasikan efektivitas algoritma PI-ARS. Demonstrasi pengaturan tugas kami dalam simulasi dapat dilihat di bawah ini. Kebijakan pertama dilatih di lingkungan simulasi, dan kemudian ditransfer ke perangkat keras.

Ilustrasi pengaturan tugas penggerak visual. Robot dilengkapi dengan dua kamera untuk mengamati lingkungan (diilustrasikan dengan piramida transparan). Pengamatan dan status robot dikirim ke kebijakan untuk menghasilkan rencana gerak tingkat tinggi, seperti lokasi pendaratan kaki dan kecepatan gerak yang diinginkan. Rencana gerakan tingkat tinggi kemudian dicapai oleh pengontrol Motion Predictive Control (MPC) tingkat rendah.

Hasil Eksperimen

Kami pertama-tama mengevaluasi algoritma PI-ARS pada empat tugas simulasi yang menantang:

  • Batu loncatan yang tidak rata: Robot harus berjalan di medan yang tidak rata sambil menghindari celah.
  • Tumpukan quincuncial: Robot harus menghindari celah baik di depan maupun di samping.
  • Platform bergerak: Robot harus berjalan di atas batu loncatan yang secara acak bergerak secara horizontal atau vertikal. Tugas ini menggambarkan fleksibilitas mempelajari kebijakan berbasis visi dibandingkan dengan merekonstruksi lingkungan secara eksplisit.
  • Navigasi dalam ruangan: Robot perlu menavigasi ke lokasi acak sambil menghindari rintangan di lingkungan dalam ruangan.
See also  Laporan Dampak Lingkungan, Sosial, dan Tata Kelola (ESG) perdana kami

Seperti yang ditunjukkan di bawah ini, PI-ARS mampu secara signifikan mengungguli ARS di keempat tugas dalam hal total imbalan tugas yang dapat diperolehnya (sebesar 30-50%).

Kiri: Visualisasi kinerja kebijakan PI-ARS dalam simulasi. Benar: Total hadiah tugas (yaitu, pengembalian episode) untuk PI-ARS (garis hijau) dan AR (garis merah). Algoritme PI-ARS secara signifikan mengungguli ARS pada empat tugas penggerak visual yang menantang.

Kami selanjutnya menerapkan kebijakan yang terlatih secara nyata Laikago robot pada dua tugas: batu loncatan acak dan navigasi dalam ruangan. Kami menunjukkan bahwa kebijakan terlatih kami dapat berhasil menangani tugas dunia nyata. Khususnya, tingkat keberhasilan tugas batu loncatan acak meningkat dari 40% dalam pekerjaan sebelumnya sampai 100%.

Kebijakan terlatih PI-ARS memungkinkan robot Laikago nyata untuk bernavigasi di sekitar rintangan.

Kesimpulan

Dalam karya ini, kami menyajikan algoritme pembelajaran baru, PI-ARS, yang menggabungkan pembelajaran representasi berbasis gradien dengan algoritme strategi evolusi bebas gradien untuk memanfaatkan keunggulan keduanya. PI-ARS menikmati keefektifan, kesederhanaan, dan kemampuan paralel dari algoritma bebas gradien, sambil menghilangkan hambatan utama dari algoritma ES dalam menangani masalah dimensi tinggi dengan mengoptimalkan representasi dimensi rendah. Kami menerapkan PI-ARS ke serangkaian tugas penggerak visual yang menantang, di antaranya PI-ARS secara signifikan mengungguli keadaan seni. Selanjutnya, kami memvalidasi kebijakan yang dipelajari oleh PI-ARS pada robot berkaki empat yang sebenarnya. Ini memungkinkan robot berjalan di atas batu loncatan yang ditempatkan secara acak dan bernavigasi di ruang dalam ruangan dengan rintangan. Metode kami membuka kemungkinan untuk menggabungkan model jaringan saraf besar modern dan data skala besar ke dalam bidang strategi evolusioner untuk kontrol robotika.

Ucapan Terima Kasih

Kami ingin berterima kasih kepada rekan penulis makalah kami: Ofir Nachum, Tingnan Zhang, Sergio Guadarrama, dan Jie Tan. Kami juga ingin berterima kasih kepada Ian Fischer dan John Canny atas umpan balik yang berharga.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments