HomeKomputerBerbicara dengan Robot dalam Waktu Nyata – Google AI Blog

Berbicara dengan Robot dalam Waktu Nyata – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Visi besar dalam pembelajaran robot, kembali ke percobaan SHRDLU pada akhir 1960-an, adalah robot penolong yang menghuni ruang manusia dan mengikuti berbagai macam perintah bahasa alami. Selama beberapa tahun terakhir, telah terjadi kemajuan signifikan dalam penerapan pembelajaran mesin (ML). instruksi berikutkeduanya di simulasi dan dalam sistem dunia nyata. Terkini Palm-SayCan work telah menghasilkan robot yang memanfaatkan model bahasa untuk merencanakan perilaku jangka panjang dan alasan tentang tujuan abstrak. Kode sebagai Kebijakan telah menunjukkan bahwa model bahasa penghasil kode yang dikombinasikan dengan sistem persepsi terlatih dapat menghasilkan kebijakan terkondisi bahasa untuk manipulasi robot tanpa tembakan. Terlepas dari kemajuan ini, properti penting yang hilang dari sistem pembelajaran robot “bahasa masuk, tindakan keluar” saat ini adalah waktu sebenarnya interaksi dengan manusia.

Tantangan bahasa kosa kata terbuka berikut ini. Agar berhasil dipandu melalui tugas cakrawala panjang seperti “letakkan semua blok dalam garis vertikal”, robot harus merespons dengan tepat berbagai perintah, termasuk perilaku korektif kecil seperti “senggol lingkaran merah sedikit”.

Namun, membuat robot mengikuti kosa kata terbuka bahasa menimbulkan tantangan yang signifikan dari perspektif ML. Ini adalah pengaturan dengan sejumlah besar tugas, termasuk banyak perilaku korektif kecil. Yang ada multitasking sedang belajar setup memanfaatkan kurasi pembelajaran imitasi kumpulan data atau hadiah pembelajaran penguatan kompleks (RL) berfungsi untuk mendorong pembelajaran setiap tugas, dan upaya per tugas yang signifikan ini sulit untuk diskalakan di luar kumpulan kecil yang telah ditentukan sebelumnya. Dengan demikian, pertanyaan terbuka yang kritis dalam pengaturan kosa kata terbuka adalah: bagaimana kita dapat menskalakan kumpulan data robot untuk menyertakan bukan lusinan, tetapi ratusan ribu perilaku dalam suatu lingkungan, dan bagaimana kita dapat menghubungkan semua perilaku ini dengan bahasa alami dan pengguna akhir mungkin benar-benar menyediakan?

Di Bahasa Interaktifkami hadirkan dalam skala besar kerangka pembelajaran imitasi untuk menghasilkan robot yang dapat dikondisikan dengan bahasa kosa kata yang real-time dan terbuka. Setelah pelatihan dengan pendekatan kami, kami menemukan bahwa an kebijakan individu mampu dari mengatasi 87.000 instruksi unik (urutan besarnya lebih besar dari pekerjaan sebelumnya), dengan perkiraan tingkat keberhasilan rata-rata 93,5%. Kami juga sangat bersemangat untuk mengumumkan perilisan dari Tabel Bahasakumpulan data robot beranotasi bahasa terbesar yang tersedia, yang kami harap akan mendorong penelitian lebih lanjut yang berfokus pada robot yang dapat dikontrol bahasa secara real-time.

See also  NZXT Meluncurkan Motherboard N7 Z790 untuk Intel 13th Gen Core Series

Membimbing robot dengan bahasa waktu nyata.

Robot yang Dapat Dikontrol Bahasa Secara Real Time

Kunci dari pendekatan kami adalah resep yang dapat diskalakan untuk membuat kumpulan data demonstrasi robot yang besar dan beragam yang dikondisikan oleh bahasa. Tidak seperti pengaturan sebelumnya yang menentukan semua keterampilan di awal dan kemudian mengumpulkan demonstrasi yang dikuratori untuk setiap keterampilan, kami terus mengumpulkan data di beberapa robot tanpa pengaturan ulang adegan atau segmentasi keterampilan tingkat rendah. Semua data, termasuk data kegagalan (mis. menjatuhkan balok dari meja), melalui a pelabelan ulang bahasa proses untuk dipasangkan dengan teks. Di sini, anotator menonton video robot panjang untuk mengidentifikasi sebanyak mungkin perilaku, menandai kapan setiap perilaku dimulai dan diakhiri, dan menggunakan bahasa natural bentuk bebas untuk mendeskripsikan setiap segmen. Yang penting, berbeda dengan pengaturan mengikuti instruksi sebelumnya, semua keterampilan yang digunakan untuk pelatihan muncul dari bawah ke atas dari data itu sendiri, bukan ditentukan di awal oleh peneliti.

Pendekatan pembelajaran dan arsitektur kami sengaja dibuat lugas. Kebijakan robot kami adalah perhatian silang transformatormemetakan video dan teks 5 hz ke tindakan robot 5 hz, menggunakan pembelajaran terawasi standar kloning perilaku tujuan tanpa kerugian tambahan. Pada saat pengujian, perintah lisan baru dapat dikirim ke kebijakan (melalui ucapan-ke-teks) kapan saja hingga 5hz.

Bahasa Interaktif: sistem pembelajaran imitasi untuk menghasilkan robot yang dapat dikontrol bahasa secara real time.

Rilis Sumber Terbuka: Kumpulan Data Tabel Bahasa dan Tolok Ukur

Proses anotasi ini memungkinkan kami untuk mengumpulkan dataset Tabel Bahasa, yang berisi lebih dari 440k demonstrasi nyata dan 180k simulasi robot yang melakukan perintah bahasa, bersama dengan urutan tindakan yang diambil robot selama demonstrasi. Ini adalah kumpulan data demonstrasi robot terkondisi bahasa terbesar dari jenisnya, berdasarkan urutan besarnya. Tabel Bahasa hadir dengan tolok ukur pembelajaran imitasi yang disimulasikan yang kami gunakan untuk melakukan pemilihan model, yang dapat digunakan untuk mengevaluasi instruksi baru yang mengikuti arsitektur atau pendekatan.

See also  Perpaduan Pakar dengan Perutean Pilihan Pakar – Google AI Blog

Himpunan data # Lintasan (k) # Unik (k) Tindakan Fisik Nyata Tersedia
Demonstrasi Episodik
BC-Z 25
0,1
SayCan 68
0,5
Rumah bermain 1.097
779
Pelabelan Bahasa Hindsight
BLOK 30
t/a
LangLFP 10
t/a
LOREL 6
1.7
CALVIN 20
0,4
Tabel Bahasa (nyata + sim) 623 (442+181) 206 (127+79)

Kami membandingkan Tabel Bahasa dengan kumpulan data robot yang ada, menyoroti proporsi data robot yang disimulasikan (merah) atau nyata (biru), jumlah lintasan yang dikumpulkan, dan jumlah tugas bahasa unik yang dapat dideskripsikan.

Mempelajari Perilaku Bahasa Waktu Nyata

Contoh instruksi cakrawala pendek yang dapat diikuti robot, diambil sampelnya secara acak dari set lengkap lebih dari 87.000.

Instruksi Short-Horizon Kesuksesan
(87.000 lebih…)
dorong segitiga biru ke pojok kiri atas 80,0%
pisahkan bintang merah dan lingkaran merah 100,0%
menyenggol hati kuning sedikit kanan 80,0%
tempatkan bintang merah di atas kubus biru 90,0%
arahkan lengan Anda ke segitiga biru 100,0%
dorong kelompok balok ke kiri sedikit 100,0%
Rata-rata lebih dari 87k, CI 95% 93,5% +- 3,42%

Interval Keyakinan (CI) 95% pada keberhasilan rata-rata kebijakan Bahasa Interaktif individu atas 87.000 instruksi bahasa alami yang unik.

Kami menemukan bahwa kemampuan baru yang menarik muncul ketika robot mampu mengikuti bahasa waktu nyata. Kami menunjukkan bahwa pengguna dapat menjalankan robot melalui urutan cakrawala panjang yang rumit hanya dengan menggunakan bahasa alami untuk menyelesaikan tujuan yang memerlukan beberapa menit kontrol yang tepat dan terkoordinasi (misalnya, “buat wajah tersenyum dari balok dengan mata hijau” atau “letakkan semua blok dalam garis vertikal”). Karena robot dilatih untuk mengikuti bahasa kosa kata terbuka, kami melihatnya dapat bereaksi terhadap serangkaian koreksi verbal yang beragam (misalnya, “senggol bintang merah sedikit ke kanan”) yang mungkin sulit dihitung di awal.

Contoh tujuan cakrawala panjang yang dicapai di bawah panduan bahasa manusia waktu nyata.

Terakhir, kami melihat bahwa bahasa waktu nyata memungkinkan mode baru pengumpulan data robot. Misalnya, satu operator manusia dapat mengendalikan empat robot secara bersamaan hanya dengan menggunakan bahasa lisan. Hal ini berpotensi meningkatkan pengumpulan data robot di masa mendatang tanpa memerlukan perhatian penuh manusia untuk setiap robot.

Satu operator mengendalikan beberapa robot sekaligus dengan bahasa lisan.

Kesimpulan

Sementara saat ini terbatas pada bagian atas meja dengan kumpulan objek tetap, Bahasa Interaktif menunjukkan bukti awal bahwa pembelajaran imitasi skala besar memang dapat menghasilkan robot yang dapat berinteraksi secara real time yang mengikuti perintah pengguna akhir bentuk bebas. Kami membuka sumber Tabel Bahasa, kumpulan data demonstrasi robot dunia nyata terkondisi bahasa terbesar dari jenisnya dan tolok ukur simulasi terkait, untuk memacu kemajuan dalam kontrol bahasa waktu nyata dari robot fisik. Kami percaya kegunaan kumpulan data ini mungkin tidak hanya terbatas pada kontrol robot, tetapi juga dapat memberikan titik awal yang menarik untuk mempelajari prediksi video yang dikondisikan oleh bahasa dan tindakan, pemodelan bahasa yang dikondisikan video robot, atau sejumlah pertanyaan aktif menarik lainnya di konteks ML yang lebih luas. Lihat kami kertas dan GitHub halaman untuk mempelajari lebih lanjut.

Terima kasih

Kami mengucapkan terima kasih kepada semua pihak yang telah mendukung penelitian ini. Ini termasuk teleoperator robot: Alex Luong, Armando Reyes, Elio Prado, Eric Tran, Gavin Gonzalez, Jodexty Therlonge, Joel Magpantay, Rochelle Dela Cruz, Samuel Wan, Sarah Nguyen, Scott Lehrer, Norine Rosales, Tran Pham, Kyle Gajadhar, Reece Mungal , dan Nikauleene Andrews; dukungan perangkat keras robot dan koordinasi teleoperasi: Sean Snyder, Spencer Goodrich, Cameron Burns, Jorge Aldaco, Jonathan Vela; operasi dan infrastruktur data: Muqthar Mohammad, Mitta Kumar, Arnab Bose, Wayne Gramlich; dan banyak orang yang membantu memberikan pelabelan bahasa pada kumpulan data. Kami juga ingin berterima kasih kepada Pierre Sermanet, Debidatta Dwibedi, Michael Ryoo, Brian Ichter dan Vincent Vanhoucke atas nasihat dan dukungan mereka yang tak ternilai.

[ad_2]

See also  Menilai Estetika dan Kualitas Teknis Gambar dengan Transformer Multiskala – Blog Google AI
Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments