HomeKomputerPembelajaran Penguatan Reinkarnasi – Google AI Blog

Pembelajaran Penguatan Reinkarnasi – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Pembelajaran penguatan (RL) adalah luas dari pembelajaran mesin yang berfokus pada pelatihan agen cerdas menggunakan pengalaman terkait sehingga mereka dapat belajar menyelesaikan tugas pengambilan keputusan, seperti bermain video game, balon stratosfer terbangdan merancang chip perangkat keras. Karena RL bersifat umum, tren umum dalam penelitian RL adalah mengembangkan agen yang dapat belajar secara efisien selera, yaitu, dari awal tanpa menggunakan pengetahuan yang dipelajari sebelumnya tentang masalah tersebut. Namun, dalam praktiknya, sistem RL tabula rasa biasanya merupakan pengecualian daripada norma untuk memecahkan masalah RL skala besar. RL skala besar sistem, seperti BukaAI Limayang mencapai kinerja tingkat manusia pada Dota 2, menjalani beberapa perubahan desain (misalnya, perubahan algoritmik atau arsitektur) selama siklus perkembangannya. Proses modifikasi ini dapat berlangsung berbulan-bulan dan mengharuskan untuk memasukkan perubahan tersebut tanpa pelatihan ulang dari awal, yang akan sangat mahal.

TETAPI untuk 200 juta frame (protokol standar) membutuhkan 1.000+ hari GPU. Saat RL dalam bergerak menuju masalah yang lebih kompleks dan menantang, hambatan komputasi untuk masuk dalam penelitian RL kemungkinan akan menjadi lebih tinggi.

Untuk mengatasi inefisiensi tabula rasa RL, kami hadirkan “Pembelajaran Penguatan Reinkarnasi: Menggunakan Kembali Perhitungan Sebelumnya Untuk Mempercepat Kemajuan” pada NeuroIPS 2022. Di sini, kami mengusulkan pendekatan alternatif untuk penelitian RL, di mana pekerjaan komputasi sebelumnya, seperti model yang dipelajari, kebijakan, data yang dicatat, dll., digunakan kembali atau ditransfer antara iterasi desain agen RL atau dari satu agen ke agen lainnya. Sementara beberapa sub-area RL memanfaatkan perhitungan sebelumnya, sebagian besar agen RL sebagian besar masih dilatih dari awal. Hingga saat ini, belum ada upaya yang lebih luas untuk memanfaatkan pekerjaan komputasi sebelumnya untuk alur kerja pelatihan dalam penelitian RL. Kami juga telah merilis kode dan agen terlatih untuk memungkinkan peneliti untuk membangun pekerjaan ini.

Tabula rasa RL vs Reinkarnasi RL (RRL). Sementara tabula rasa RL berfokus pada pembelajaran dari awal, RRL didasarkan pada premis penggunaan kembali pekerjaan komputasi sebelumnya (misalnya, agen yang dipelajari sebelumnya) saat melatih agen baru atau meningkatkan agen yang ada, bahkan di lingkungan yang sama. Di RRL, agen baru tidak perlu dilatih dari awal, kecuali untuk terjun ke masalah baru.

Mengapa Reinkarnasi RL?

Reincarnating RL (RRL) adalah alur kerja yang lebih komputasi dan sampel-efisien daripada pelatihan dari awal. RRL dapat mendemokratisasi penelitian dengan memungkinkan komunitas yang lebih luas menangani masalah RL yang kompleks tanpa memerlukan sumber daya komputasi yang berlebihan. Selanjutnya, RRL dapat mengaktifkan paradigma pembandingan di mana peneliti terus meningkatkan dan memperbarui agen terlatih yang ada, terutama pada masalah di mana peningkatan kinerja memiliki dampak dunia nyata, seperti navigasi balon atau desain chip. Terakhir, kasus penggunaan RL dunia nyata kemungkinan akan berada dalam skenario di mana pekerjaan komputasi sebelumnya tersedia (misalnya, kebijakan RL yang diterapkan saat ini).

See also  Kembali Ke Profitabilitas, Tapi Tetap Menyakitkan

RRL sebagai alur kerja penelitian alternatif. Bayangkan seorang peneliti yang telah melatih agen A1 untuk beberapa waktu, tetapi sekarang ingin bereksperimen dengan arsitektur atau algoritma yang lebih baik. Sementara alur kerja tabula rasa memerlukan pelatihan ulang agen lain dari awal, RRL memberikan opsi yang lebih layak untuk mentransfer agen A yang ada1 ke agen lain dan melatih agen ini lebih lanjut, atau sekadar menyempurnakan A1.

Meskipun ada beberapa upaya reinkarnasi skala besar ad hoc dengan penerapan yang terbatas, misalnya, operasi model di Dota2, distilasi kebijakan dalam kubus Rubik, PBT di AlphaStarRL menyempurnakan kebijakan kloning perilaku di AlphaGo / Minecraft, RRL belum dipelajari sebagai masalah penelitian tersendiri. Untuk tujuan ini, kami berpendapat untuk mengembangkan pendekatan RRL tujuan umum sebagai lawan dari solusi ad-hoc sebelumnya.

Studi Kasus: Kebijakan Nilai Reinkarnasi RL

Masalah RRL yang berbeda dapat dibuat tergantung pada jenis pekerjaan komputasi sebelumnya yang disediakan. Sebagai langkah menuju pengembangan pendekatan RRL yang dapat diterapkan secara luas, kami menyajikan studi kasus tentang pengaturan Policy to Value reinkarnasi RL (PVRL) untuk secara efisien mentransfer kebijakan sub-optimal yang ada (guru) ke agen RL berbasis nilai mandiri (siswa) . Sementara kebijakan secara langsung memetakan keadaan lingkungan tertentu (misalnya, layar permainan di Atari) ke suatu tindakan, agen berbasis nilai memperkirakan keefektifan suatu tindakan pada keadaan tertentu dalam hal imbalan masa depan yang dapat dicapai, yang memungkinkan mereka untuk belajar dari data yang dikumpulkan sebelumnya.

Agar algoritme PVRL bermanfaat secara luas, algoritme tersebut harus memenuhi persyaratan berikut:

  • Guru Agnostik: Siswa tidak boleh dibatasi oleh arsitektur kebijakan guru atau algoritme pelatihan yang ada.
  • Menyapih guru: Tidak diinginkan untuk mempertahankan ketergantungan pada guru suboptimal masa lalu untuk reinkarnasi berturut-turut.
  • Hitung / Sampel Efisien: Reinkarnasi hanya berguna jika lebih murah daripada pelatihan dari awal.

Mengingat persyaratan algoritma PVRL, kami mengevaluasi apakah pendekatan yang ada, dirancang dengan tujuan yang terkait erat, akan cukup. Kami menemukan bahwa pendekatan semacam itu menghasilkan perbaikan kecil atas tabula rasa RL atau menurunkan kinerja saat menyapih guru.

Untuk mengatasi keterbatasan ini, kami memperkenalkan metode sederhana, QDaggerdi mana agen menyaring pengetahuan dari guru yang kurang optimal melalui sebuah algoritma imitasi sekaligus menggunakan interaksi lingkungannya untuk RL. Kita mulai dengan a jaringan Q yang dalam (DQN) agen dilatih untuk 400 juta bingkai lingkungan (seminggu pelatihan GPU tunggal) dan menggunakannya sebagai guru untuk agen reinkarnasi siswa yang dilatih hanya pada 10 juta bingkai (beberapa jam pelatihan), di mana guru disapih selama yang pertama 6M frame. Untuk evaluasi tolok ukur, kami melaporkan rata-rata interkuartil (IQM) metrik dari Perpustakaan RLiable. Seperti yang ditunjukkan di bawah ini untuk pengaturan PVRL pada game Atari, kami menemukan bahwa metode QDagger RRL mengungguli pendekatan sebelumnya.

See also  Mengumumkan Dataset Kesamaan Frasa Paten – Blog Google AI

Pembandingan algoritme PVRL di Atari, dengan skor yang dinormalisasi oleh guru dikumpulkan di 10 game. Tabula rasa DQN (–·–) memperoleh skor normalisasi 0,4. Pendekatan dasar standar meliputi memulai, JSRL, latihan, pra-pelatihan RL offline dan DQfD. Di antara semua metode, hanya QDagger yang melampaui kinerja guru dalam 10 juta bingkai dan mengungguli guru dalam 75% permainan.

Reinkarnasi RL dalam Praktek

Kami lebih lanjut memeriksa pendekatan RRL pada Lingkungan Pembelajaran Arkade, tolok ukur RL dalam yang banyak digunakan. Pertama, kita ambil Alam DQN agen yang menggunakan RMSProp pengoptimal dan menyempurnakannya dengan adam pengoptimal untuk membuat agen DQN (Adam). Meskipun mungkin untuk melatih agen DQN (Adam) dari awal, kami mendemonstrasikan bahwa penyempurnaan Nature DQN dengan pengoptimal Adam cocok dengan kinerja dari awal menggunakan data dan komputasi 40x lebih sedikit.

Reinkarnasi DQN (Adam) melalui Fine-Tuning. Pemisah vertikal sesuai dengan memuat bobot jaringan dan memutar ulang data untuk fine-tuning. Kiri: Tabula rasa Nature DQN hampir menyatu dalam kinerja setelah 200 juta bingkai lingkungan. Benar: Menyempurnakan agen DQN Alam ini menggunakan tingkat pembelajaran yang dikurangi dengan pengoptimal Adam untuk 20 juta bingkai memperoleh hasil yang serupa dengan DQN (Adam) yang dilatih dari awal untuk 400 juta bingkai.

Mengingat agen DQN (Adam) sebagai titik awal, fine-tuning terbatas pada 3-layer berbelit-belit Arsitektur. Jadi, kami mempertimbangkan pendekatan reinkarnasi yang lebih umum yang memanfaatkan kemajuan arsitektural dan algoritmik terkini tanpa pelatihan dari awal. Secara khusus, kami menggunakan QDagger untuk mereinkarnasi agen RL lain yang menggunakan algoritme RL yang lebih canggih (Pelangi) dan arsitektur jaringan saraf yang lebih baik (Impala-CNN ResNet) dari agen DQN (Adam) yang disetel halus.

Mereinkarnasi arsitektur / algoritme yang berbeda melalui QDagger. Pemisah vertikal adalah titik di mana kami menerapkan pra-pelatihan offline menggunakan QDagger untuk reinkarnasi. Kiri: Menyempurnakan DQN dengan Adam. Benar: Perbandingan tabula rasa Impala-CNN Rainbow agent (biru langit) dengan Impala-CNN Rainbow agent (merah muda) yang dilatih menggunakan QDagger RRL dari DQN (Adam) yang disetel halus. Reinkarnasi agen Impala-CNN Rainbow secara konsisten mengungguli mitra awal. Perhatikan bahwa penyempurnaan lebih lanjut DQN (Adam) menghasilkan pengembalian yang semakin berkurang (kuning).
See also  Mensinergikan Penalaran dan Akting dalam Model Bahasa – Blog Google AI

Secara keseluruhan, hasil ini menunjukkan bahwa penelitian sebelumnya dapat dipercepat dengan memasukkan pendekatan RRL untuk merancang agen, alih-alih melatih kembali agen dari awal. Kita kertas juga berisi hasil pada Lingkungan Belajar Balondi mana kami mendemonstrasikan bahwa RRL memungkinkan kami membuat kemajuan dalam masalah navigasi balon stratosfer hanya dengan menggunakan beberapa jam penghitungan TPU dengan menggunakan kembali didistribusikan RL agen dilatih tentang TPU selama lebih dari sebulan.

Diskusi

Membandingkan pendekatan reinkarnasi secara adil melibatkan penggunaan pekerjaan komputasi dan alur kerja yang sama persis. Selanjutnya, temuan penelitian di RRL yang digeneralisasi secara luas adalah tentang seberapa efektif suatu algoritma diberikan akses ke pekerjaan komputasi yang ada, misalnya, kami berhasil menerapkan QDagger yang dikembangkan menggunakan Atari untuk reinkarnasi di Lingkungan Pembelajaran Balon. Karena itu, kami berspekulasi bahwa penelitian tentang RL yang bereinkarnasi dapat berkembang ke dua arah:

  • Tolok ukur standar dengan pekerjaan komputasi bersumber terbuka: Mirip dengan NLP dan penglihatandi mana biasanya sekumpulan kecil model pra-pelatihan adalah umum, penelitian di RRL juga dapat menyatu dengan sekumpulan kecil pekerjaan komputasi sumber terbuka (misalnya, kebijakan guru pra-pelatihan) pada tolok ukur tertentu.
  • Domain dunia nyata: Karena mendapatkan kinerja yang lebih tinggi memiliki dampak dunia nyata di beberapa domain, ini memberi insentif kepada komunitas untuk menggunakan kembali agen canggih dan mencoba meningkatkan kinerja mereka.

Lihat kami kertas untuk diskusi yang lebih luas tentang perbandingan ilmiah, generalisasi dan reproduktifitas dalam RRL. Secara keseluruhan, kami berharap bahwa pekerjaan ini memotivasi para peneliti untuk merilis pekerjaan komputasi (misalnya, pos pemeriksaan model) yang dapat dibangun secara langsung oleh orang lain. Dalam hal ini, kami memiliki sumber terbuka kode kita dan agen terlatih dengan buffer ulangan akhir mereka. Kami percaya bahwa reinkarnasi RL secara substansial dapat mempercepat kemajuan penelitian dengan membangun pekerjaan komputasi sebelumnya, sebagai lawan selalu memulai dari awal.

Terima kasih

Pekerjaan ini dilakukan bekerja sama dengan Pablo Samuel Castro, Aaron Courville dan Marc Bellemare. Kami ingin berterima kasih kepada Tom Small untuk figur animasi yang digunakan dalam postingan ini. Kami juga berterima kasih atas umpan balik dari pengulas NeurIPS anonim dan beberapa anggota tim Riset Google, DeepMind dan Mila.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments