HomeKomputerModel Bahasa Lebih Baik Tanpa Komputasi Masif – Google AI Blog

Model Bahasa Lebih Baik Tanpa Komputasi Masif – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Dalam beberapa tahun terakhir, model bahasa (LM) telah menjadi lebih menonjol dalam penelitian pemrosesan bahasa alami (NLP) dan juga menjadi semakin berdampak dalam praktiknya. Meningkatkan LM telah terbukti meningkatkan kinerja di berbagai tugas NLP. Misalnya, meningkatkan model bahasa dapat meningkat kebingungan lintas tujuh urutan besarnya ukuran model, dan kemampuan baru seperti penalaran multi-langkah telah diamati muncul sebagai akibat dari skala model. Namun, salah satu tantangan penskalaan lanjutan adalah bahwa melatih model baru yang lebih besar membutuhkan sumber daya komputasi yang besar. Selain itu, model baru seringkali dilatih dari awal dan tidak memanfaatkan bobot dari model yang sudah ada sebelumnya.

Melampaui Hukum Penskalaan dengan Komputasi Ekstra 0,1%.”, kami memperkenalkan UL2R, yang merupakan tahap kedua pra-pelatihan ringan yang menggunakan a tujuan campuran-of-denoiser. UL2R meningkatkan kinerja di berbagai tugas dan bahkan membuka kinerja yang muncul pada tugas yang sebelumnya mendekati kinerja acak. Kedua, dalam “Menskalakan Instruksi-Model Bahasa yang Disempurnakan”, kami menjelajahi penyempurnaan model bahasa pada kumpulan kumpulan data yang diutarakan sebagai instruksi, sebuah proses yang kami sebut “Flan”. Pendekatan ini tidak hanya meningkatkan kinerja, tetapi juga meningkatkan kegunaan model bahasa untuk masukan pengguna tanpa rekayasa prompt. Terakhir, kami menunjukkan bahwa Flan dan UL2R dapat digabungkan sebagai teknik pelengkap dalam model yang disebut Flan-U-PaLM 540B, yang mengungguli model PaLM 540B yang tidak diadaptasi sebesar 10% di seluruh rangkaian tolok ukur evaluasi yang menantang.

Pelatihan UL2R

Secara tradisional, sebagian besar model bahasa dilatih sebelumnya baik pada a bahasa kausal tujuan pemodelan yang memungkinkan model untuk memprediksi kata berikutnya secara berurutan (misalnya, GPT-3 atau Telapak) atau menolak tujuan, di mana model belajar memulihkan kalimat asli dari urutan kata yang rusak, (mis., T5). Meskipun ada beberapa pengorbanan dalam tujuan pemodelan bahasa di mana LM kausal lebih baik pada pembuatan bentuk panjang dan LM yang dilatih pada tujuan denoising lebih baik untuk penyetelan halus, di pekerjaan sebelumnya kami didemonstrasikan bahwa tujuan campuran-of-denoiser yang mencakup kedua tujuan menghasilkan kinerja yang lebih baik pada kedua skenario.

Namun, pra-pelatihan model bahasa besar pada tujuan yang berbeda dari awal dapat menjadi penghalang komputasi. Oleh karena itu, kami mengusulkan Perbaikan UL2 (UL2R), tahap tambahan pra-pelatihan lanjutan dengan tujuan UL2 yang hanya memerlukan jumlah komputasi yang relatif kecil. Kami menerapkan UL2R ke PaLM dan memanggil model bahasa baru yang dihasilkan U-PaLM.

See also  Apakah Pengklasifikasi ImageNet Modern Secara Akurat Memprediksi Kesamaan Perseptual? – Blog Google AI

Dalam evaluasi empiris, kami menemukan bahwa kurva penskalaan meningkat secara substansial hanya dengan sedikit pelatihan UL2. Misalnya, kami menunjukkan bahwa dengan menggunakan UL2R pada titik pemeriksaan antara PaLM 540B, kami mencapai kinerja titik pemeriksaan akhir PaLM 540B saat menggunakan komputasi 2x lebih sedikit (atau selisih 4,4 juta TPUv4 jam). Biasanya, menerapkan UL2R ke pos pemeriksaan akhir PaLM 540B juga mengarah pada peningkatan substansial, seperti yang dijelaskan dalam makalah.

Kinerja komputasi versus model PaLM 540B dan U-PaLM 540B pada 26 tolok ukur NLP (tercantum dalam Tabel 8 di koran). U-PaLM 540B terus melatih PaLM untuk jumlah komputasi yang sangat kecil tetapi memberikan peningkatan kinerja yang substansial.

Manfaat lain yang kami amati dari penggunaan UL2R adalah bahwa pada beberapa tugas, kinerja jauh lebih baik daripada model yang dilatih murni pada tujuan pemodelan bahasa kausal. Misalnya, ada banyak Bangku BESAR tugas-tugas yang telah digambarkan sebagai “kemampuan yang muncul”, yaitu kemampuan yang hanya dapat diamati dalam model bahasa yang cukup besar. Meskipun cara munculnya kemampuan yang paling umum ditemukan adalah dengan memperbesar ukuran LM, kami menemukan bahwa UL2R sebenarnya dapat menimbulkan kemampuan muncul tanpa meningkatkan skala LM.

Misalnya, di Navigasi tugas dari BIG-Bench, yang mengukur kemampuan model untuk melakukan pelacakan status, semua model kecuali U-PaLM dengan kurang dari 1023 pelatihan FLOP mencapai kinerja yang kira-kira acak. Performa U-PaLM lebih dari 10 poin di atasnya. Contoh lain dari ini adalah Snarks tugas dari BIG-Bench, yang mengukur kemampuan model untuk mendeteksi sarkasme. Sekali lagi, sedangkan semua model kurang dari 1024 pelatihan FLOP mencapai kinerja acak, U-PaLM mencapai jauh di atas bahkan untuk model 8B dan 62B.

Untuk dua kemampuan dari Bangku BESAR yang menunjukkan kinerja tugas yang muncul, U-PaLM mencapai kemunculan pada ukuran model yang lebih kecil karena penggunaan tujuan UL2R.

Instruksi Fine-Tuning

Di kami kertas kedua, kami menjelajahi penyempurnaan instruksi, yang melibatkan penyempurnaan LM pada kumpulan dataset NLP yang diutarakan sebagai instruksi. Di pekerjaan sebelumnyakami menerapkan penyempurnaan instruksi ke model parameter 137B pada 62 tugas NLP, seperti menjawab pertanyaan sepele, mengklasifikasikan sentimen film, atau menerjemahkan kalimat ke bahasa Spanyol.

See also  Micron Mengumumkan Rencana 20 Tahun Untuk Membangun Kompleks Fab AS senilai $100 Miliar

Dalam pekerjaan ini kami menyempurnakan model bahasa parameter 540B pada lebih dari 1,8 ribu tugas. Selain itu, upaya sebelumnya hanya menyempurnakan LM dengan beberapa contoh bidikan (misalnya, MetaICL) atau zero-shot tanpa contoh (misalnya, PUDING KARAMEL, T0), kami menyempurnakan kombinasi keduanya. Kami juga menyertakan rangkaian pemikiran menyempurnakan data, yang memungkinkan model melakukan penalaran multi-langkah. Kami menyebut metodologi kami yang ditingkatkan “Flan”, untuk menyempurnakan model bahasa. Khususnya, bahkan dengan fine-tuning pada tugas 1,8K, Flan hanya menggunakan sebagian kecil komputasi dibandingkan pra-pelatihan (misalnya, untuk PaLM 540B, Flan hanya memerlukan 0,2% komputasi pra-pelatihan).

Kami menyempurnakan model bahasa pada tugas 1,8K yang diutarakan sebagai instruksi, dan mengevaluasinya pada tugas yang tidak terlihat, yang tidak disertakan dalam penyempurnaan. Kami menyempurnakan baik dengan dan tanpa contoh (yaitu, zero-shot dan few-shot) dan dengan dan tanpa rantai pemikiran, memungkinkan generalisasi di berbagai skenario evaluasi.

Di makalah, kami menginstruksikan–menyempurnakan LM dari berbagai ukuran untuk menyelidiki efek gabungan dari penskalaan ukuran LM dan jumlah tugas penyempurnaan. Misalnya, untuk kelas LM PaLM, yang mencakup model parameter 8B, 62B, dan 540B. Kami mengevaluasi model kami pada empat rangkaian evaluasi tolok ukur yang menantang (MMLU, BBH, TyDiQAdan MGSM), dan temukan bahwa penskalaan jumlah parameter dan jumlah tugas penyempurnaan meningkatkan kinerja pada tugas yang tidak terlihat.

Baik penskalaan hingga model parameter 540B dan menggunakan tugas penyempurnaan 1,8K meningkatkan kinerja pada tugas yang tidak terlihat. Sumbu y adalah rata-rata yang dinormalisasi pada empat suite evaluasi (MMLU, BBH, TyDiQAdan MGSM).

Selain kinerja yang lebih baik, penyempurnaan instruksi pada LM memungkinkannya merespons instruksi pengguna pada waktu inferensi, tanpa contoh beberapa tembakan atau rekayasa cepat. Ini membuat LM lebih ramah pengguna di berbagai input. Misalnya, LM tanpa penyetelan instruksi terkadang dapat mengulangi input atau gagal mengikuti instruksi, tetapi penyetelan instruksi mengurangi kesalahan tersebut.

Model bahasa instruksi-fine-tuned kami, Flan-PaLM, merespons instruksi lebih baik dibandingkan dengan model PaLM tanpa fine-tuning instruksi.
See also  Mengkarakterisasi Fenomena yang Muncul dalam Model Bahasa Besar – Blog Google AI

Menyatukan Mereka

Terakhir, kami menunjukkan bahwa UL2R dan Flan dapat digabungkan untuk melatih model Flan-U-PaLM. Karena Flan menggunakan data baru dari tugas NLP dan memungkinkan mengikuti instruksi zero-shot, kami menerapkan Flan sebagai metode kedua setelah UL2R. Kami kembali mengevaluasi keempat suite benchmark, dan menemukan bahwa model Flan-U-PaLM mengungguli model PaLM hanya dengan UL2R (U-PaLM) atau hanya Flan (Flan-PaLM). Selanjutnya, Flan-U-PaLM mencapai state-of-the-art baru di patokan MMLU dengan skor 75,4% bila digabungkan dengan rantai pemikiran dan konsistensi diri.

Menggabungkan UL2R dan Flan (Flan-U-PaLM) menghasilkan kinerja terbaik dibandingkan dengan hanya menggunakan UL2R (U-PaLM) atau hanya Flan (Flan-U-PaLM). Kinerja adalah rata-rata yang dinormalisasi selama empat suite evaluasi (MMLU, BBH, TyDiQAdan MGSM).

Secara keseluruhan, UL2R dan Flan adalah dua metode pelengkap untuk meningkatkan model bahasa pra-pelatihan. UL2R mengadaptasi LM ke tujuan campuran-of-denoiser menggunakan data yang sama, sedangkan Flan memanfaatkan data pelatihan dari lebih dari 1,8 ribu tugas NLP untuk mengajarkan model agar mengikuti instruksi. Karena LM semakin besar, teknik seperti UL2R dan Flan yang meningkatkan kinerja umum tanpa jumlah komputasi yang besar dapat menjadi semakin menarik.

Terima kasih

Merupakan suatu kehormatan untuk berkolaborasi dalam dua makalah ini dengan Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun , Xinyun Chen, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Ed H. Chi, Jeff Dean, Jacob Devlin, and Adam Roberts.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments