HomeKomputerBelajar Berjalan di Alam Liar dari Semantik Medan – Google AI Blog

Belajar Berjalan di Alam Liar dari Semantik Medan – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Sebuah janji penting untuk robot berkaki empat adalah potensi mereka untuk beroperasi di lingkungan luar yang kompleks yang sulit atau tidak dapat diakses oleh manusia. Baik itu untuk menemukan sumber daya alam jauh di pegunungan, atau untuk mencari sinyal kehidupan di lokasi gempa yang rusak berat, robot berkaki empat yang kuat dan serbaguna bisa sangat membantu. Untuk mencapai itu, robot perlu memahami lingkungan, memahami tantangan penggeraknya, dan menyesuaikan keterampilan penggeraknya. Sementara baru-baru ini Rayuan dalam penggerak perseptif telah sangat meningkatkan kemampuan robot berkaki empat, sebagian besar pekerjaan fokus pada lingkungan dalam ruangan atau perkotaan, sehingga mereka tidak dapat secara efektif menangani kompleksitas medan off-road. Di lingkungan ini, robot tidak hanya perlu memahami medan membentuk (misalnya, sudut kemiringan, kehalusan), tetapi juga properti kontak (misalnya, gesekan, restitusi, deformabilitas), yang penting bagi robot untuk menentukan keterampilan geraknya. Karena sistem penggerak perseptif yang ada sebagian besar fokus pada penggunaan kamera kedalaman atau LiDARmungkin sulit bagi sistem ini untuk memperkirakan properti medan seperti itu secara akurat.

Mempelajari Keterampilan Locomotion Sadar Semantik dari Demonstrasi Manusia”, kami merancang kerangka kerja pembelajaran hierarkis untuk meningkatkan kemampuan robot melintasi lingkungan off-road yang kompleks. Tidak seperti pendekatan sebelumnya yang berfokus pada lingkungan geometriseperti bentuk medan dan lokasi rintangan, kami fokus pada lingkungan semantik, seperti jenis medan (rumput, lumpur, dll.) dan properti kontak, yang menyediakan kumpulan informasi pelengkap yang berguna untuk lingkungan off-road. Saat robot berjalan, kerangka memutuskan keterampilan penggerak, termasuk kecepatan dan kiprah (yaitu, bentuk dan waktu gerakan kaki) robot berdasarkan semantik yang dirasakan, yang memungkinkan robot berjalan dengan kokoh di berbagai medan off-road, termasuk bebatuan, kerikil, rumput dalam, lumpur, dan banyak lagi.

Kerangka kerja kami memilih keterampilan (gaya berjalan dan kecepatan) robot dari gambar RGB kamera. Kami pertama-tama menghitung kecepatan dari semantik medan, dan kemudian memilih gaya berjalan berdasarkan kecepatan.

Ringkasan

Kerangka hirarkis terdiri dari tingkat tinggi kebijakan keterampilan dan tingkat rendah pengontrol motor. Itu kebijakan keterampilan memilih keterampilan penggerak berdasarkan gambar kamera, dan pengontrol motor mengubah keterampilan yang dipilih menjadi perintah motorik. tingkat tinggi kebijakan keterampilan selanjutnya didekomposisi menjadi yang dipelajari kebijakan kecepatan dan berbasis heuristik pemilih gaya berjalan. Untuk memutuskan sebuah skill, kebijakan kecepatan pertama menghitung kecepatan maju yang diinginkan, berdasarkan informasi semantik dari onboard RGB kamera. Untuk efisiensi energi dan ketahanan, robot berkaki empat biasanya pilih gaya berjalan yang berbeda untuk setiap kecepatan, jadi kami merancang pemilih gaya berjalan untuk menghitung gaya berjalan yang diinginkan berdasarkan kecepatan maju. Terakhir, cembung tingkat rendah pengontrol model-prediktif (MPC) mengubah keterampilan gerak yang diinginkan menjadi motorik torsi perintah, dan mengeksekusinya pada perangkat keras yang sebenarnya. Kami melatih kebijakan kecepatan secara langsung di dunia nyata menggunakan belajar meniru karena membutuhkan lebih sedikit data pelatihan dibandingkan dengan standar pembelajaran penguatan algoritma.

See also  Peluncuran NVIDIA Scrubs GeForce RTX 4080 12GB; 16GB Menjadi Satu-satunya Kartu RTX 4080

Kerangka kerja ini terdiri dari kebijakan keterampilan tingkat tinggi dan pengontrol motorik tingkat rendah.

Belajar Perintah Kecepatan dari Demonstrasi Manusia

Sebagai komponen utama dalam pipa kami, the kebijakan kecepatan mengeluarkan kecepatan maju robot yang diinginkan berdasarkan gambar RGB dari kamera onboard. Meskipun banyak tugas pembelajaran robot dapat dimanfaatkan simulasi sebagai sumber pengumpulan data berbiaya lebih rendah, kami melatih kebijakan kecepatan di dunia nyata karena simulasi akurat dari lingkungan off-road yang kompleks dan beragam belum tersedia. Karena pembelajaran kebijakan di dunia nyata adalah membuang-buang waktu dan berpotensi tidak amankami membuat dua pilihan desain utama untuk meningkatkan efisiensi data dan keamanan sistem kami.

Yang pertama adalah belajar dari demonstrasi manusia. Algoritma pembelajaran penguatan standar biasanya belajar dengan eksplorasi, di mana agen mencoba tindakan yang berbeda dalam suatu lingkungan dan membangun preferensi berdasarkan imbalan yang diterima. Namun, eksplorasi semacam itu berpotensi tidak aman, terutama di lingkungan off-road, karena kegagalan robot apa pun dapat merusak perangkat keras robot dan lingkungan sekitarnya. Untuk memastikan keamanan, kami melatih kebijakan kecepatan menggunakan pembelajaran imitasi dari demonstrasi manusia. Kami pertama-tama meminta operator manusia untuk mengoperasikan robot di berbagai medan off-road, di mana operator mengontrol kecepatan dan arah robot menggunakan joystick jarak jauh. Selanjutnya, kami mengumpulkan data pelatihan dengan menyimpan (gambar, maju_kecepatan) berpasangan. Kami kemudian melatih kebijakan kecepatan menggunakan pembelajaran terawasi standar untuk memprediksi perintah kecepatan operator manusia. Ternyata, demonstrasi manusia aman dan berkualitas tinggi, dan memungkinkan robot mempelajari pilihan kecepatan yang tepat untuk medan yang berbeda.

Pilihan desain kunci kedua adalah metode pelatihan. Jaringan saraf dalam, terutama yang melibatkan input visual berdimensi tinggi, biasanya membutuhkan banyak data untuk dilatih. Untuk mengurangi jumlah data pelatihan dunia nyata yang diperlukan, pertama-tama kita melakukan pra-latihan a segmentasi semantik model pada KARPET (set data mengemudi off-road di mana gambar terlihat mirip dengan yang ditangkap oleh kamera onboard robot), di mana model memprediksi kelas semantik (rumput, lumpur, dll.) untuk setiap piksel dalam gambar kamera. Kami kemudian mengekstrak penyematan semantik dari lapisan perantara model dan menggunakannya sebagai fitur untuk pelatihan pada robot. Dengan penyematan semantik yang telah dilatih sebelumnya, kami dapat melatih kebijakan kecepatan secara efektif menggunakan kurang dari 30 menit data dunia nyata, yang sangat mengurangi jumlah upaya yang diperlukan.

See also  Kolaborasi musikal TikTok membuka pintu baru bagi kreator muda

Kami melakukan pra-pelatihan model segmentasi semantik dan mengekstrak embedding semantik untuk disesuaikan pada data robot.

Seleksi Gaya Berjalan dan Kontrol Motor

Komponen berikutnya dalam pipa, the pemilih gaya berjalanmenghitung gaya berjalan yang sesuai berdasarkan perintah kecepatan dari kebijakan kecepatan. Itu kiprah robot, termasuk frekuensi loncatan, tinggi ayunan, dan tinggi alasnya, dapat sangat memengaruhi kemampuan robot untuk melintasi medan yang berbeda.

Studi ilmiah telah menunjukkan bahwa hewan beralih di antara gaya berjalan yang berbeda pada kecepatan yang berbeda, dan hasil ini lebih jauh divalidasi dalam robot berkaki empat, jadi kami merancang pemilih gaya berjalan untuk menghitung gaya berjalan yang kuat untuk setiap kecepatan. Dibandingkan dengan menggunakan gaya berjalan tetap di semua kecepatan, kami menemukan bahwa pemilih gaya berjalan lebih meningkatkan kinerja navigasi robot di medan off-road (detail lebih lanjut di makalah).

Komponen terakhir dari pipa adalah a pengontrol motor, yang mengubah perintah kecepatan dan gaya berjalan menjadi torsi motor. Mirip dengan pekerjaan sebelumnya, kami menggunakan strategi kontrol terpisah untuk ayunan dan kaki kuda-kuda. Dengan memisahkan tugas pembelajaran keterampilan dan kontrol motorik, kebijakan keterampilan hanya perlu menghasilkan kecepatan yang diinginkan, dan tidak perlu mempelajari kontrol gerak tingkat rendah, yang sangat menyederhanakan proses pembelajaran.

Hasil Eksperimen

Kami menerapkan kerangka kerja kami pada Robot berkaki empat A1 dan mengujinya di jalur luar ruangan dengan berbagai jenis medan, termasuk rumput, kerikil, dan aspal, yang menimbulkan berbagai tingkat kesulitan bagi robot. Misalnya, ketika robot perlu berjalan perlahan dengan ayunan kaki yang tinggi di rumput yang dalam untuk mencegah kakinya tersangkut, di aspal ia dapat berjalan lebih cepat dengan ayunan kaki yang lebih rendah untuk efisiensi energi yang lebih baik. Kerangka kerja kami menangkap perbedaan tersebut dan memilih keterampilan yang sesuai untuk setiap jenis medan: kecepatan lambat (0,5m/dtk) di rumput dalam, kecepatan sedang (1m/dtk) di kerikil, dan kecepatan tinggi (1,4m/dtk) di aspal. Ini menyelesaikan jejak sepanjang 460m dalam 9,6 menit dengan kecepatan rata-rata 0,8m/s (yaitu, 1,8 mil atau 2,9 kilometer per jam). Sebaliknya, kebijakan non-adaptif tidak dapat menyelesaikan jejak dengan aman atau berjalan jauh lebih lambat (0,5 m/s), yang menggambarkan pentingnya mengadaptasi keterampilan penggerak berdasarkan lingkungan yang dirasakan.

See also  Toolkit untuk Transparansi dalam Dokumentasi Set Data – Google AI Blog

Kerangka memilih kecepatan yang berbeda berdasarkan kondisi jalan.

Untuk menguji kemampuan generalisasi, kami juga mengerahkan robot ke sejumlah jalur yang tidak terlihat selama pelatihan. Robot melintasi semuanya tanpa kegagalan, dan menyesuaikan keterampilan penggeraknya berdasarkan semantik medan. Secara umum, kebijakan keterampilan memilih keterampilan yang lebih cepat di medan yang kaku dan datar dan kecepatan yang lebih lambat di medan yang dapat berubah bentuk atau tidak rata. Pada saat penulisan, robot telah melintasi lebih dari 6 km jalur luar ruangan tanpa kegagalan.

Dengan kerangka tersebut, robot berjalan dengan aman di berbagai medan luar ruangan yang tidak terlihat selama pelatihan.

Kesimpulan

Dalam karya ini, kami menyajikan kerangka kerja hierarkis untuk mempelajari keterampilan penggerak sadar semantik untuk penggerak off-road. Menggunakan kurang dari 30 menit data demonstrasi manusia, kerangka belajar untuk menyesuaikan kecepatan dan gaya berjalan robot berdasarkan semantik yang dirasakan dari lingkungan. Robot dapat berjalan dengan aman dan efisien di berbagai medan off-road. Salah satu batasan kerangka kerja kami adalah bahwa kerangka kerja ini hanya menyesuaikan keterampilan gerak untuk berjalan standar dan tidak mendukung perilaku yang lebih gesit seperti melompat, yang dapat menjadi penting untuk melintasi medan yang lebih sulit dengan celah atau rintangan. Keterbatasan lainnya adalah bahwa kerangka kerja kami saat ini memerlukan perintah kemudi manual untuk mengikuti jalur yang diinginkan dan mencapai tujuan. Dalam pekerjaan di masa depan, kami berencana untuk melihat integrasi yang lebih dalam dari kebijakan keterampilan tingkat tinggi dengan pengontrol tingkat rendah untuk perilaku yang lebih gesit, dan menggabungkan navigasi dan perencanaan jalur ke dalam kerangka kerja sehingga robot dapat beroperasi sepenuhnya secara mandiri dalam tantangan off- lingkungan jalan.

Ucapan Terima Kasih

Kami ingin mengucapkan terima kasih kepada rekan penulis makalah kami: Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, dan Sepatu bot Byron. Kami juga ingin mengucapkan terima kasih kepada anggota tim Robotika di Google atas diskusi dan masukannya.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments