HomeKomputerMengkarakterisasi Fenomena yang Muncul dalam Model Bahasa Besar – Blog Google AI

Mengkarakterisasi Fenomena yang Muncul dalam Model Bahasa Besar – Blog Google AI

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Bidang pemrosesan bahasa alami (NLP) telah direvolusi oleh model bahasa yang dilatih pada sejumlah besar data teks. Meningkatkan ukuran model bahasa sering kali mengarah pada peningkatan kinerja dan efisiensi sampel pada berbagai tugas NLP hilir. Dalam banyak kasus, kinerja model bahasa besar dapat diprediksi dengan mengekstrapolasi tren kinerja model yang lebih kecil. Misalnya, efek skala pada model bahasa kebingungan telah terbukti secara empiris menjangkau lebih dari tujuh urutan besarnya.

kertas GPT-3 menunjukkan bahwa kemampuan model bahasa untuk melakukan penjumlahan multi-digit memiliki kurva penskalaan datar (kira-kira kinerja acak) untuk model dari parameter 100M hingga 13B, di mana kinerja melonjak secara substansial. Mengingat meningkatnya penggunaan model bahasa dalam penelitian dan aplikasi NLP, penting untuk lebih memahami kemampuan seperti ini yang dapat muncul secara tidak terduga.

Di “Kemampuan Muncul dari Model Bahasa Besar,” baru-baru ini diterbitkan di Transaksi pada Riset Pembelajaran Mesin (TMLR), kita membahas fenomena kemampuan yang muncul, yang kami definisikan sebagai kemampuan yang tidak ada dalam model kecil tetapi hadir dalam model yang lebih besar. Lebih khusus lagi, kami mempelajari kemunculan dengan menganalisis kinerja model bahasa sebagai fungsi skala model bahasa, yang diukur dengan total operasi titik mengambang (FLOPs), atau berapa banyak komputasi yang digunakan untuk melatih model bahasa. Namun, kami juga mengeksplorasi munculnya sebagai fungsi dari variabel lain, seperti ukuran dataset atau jumlah parameter model (lihat makalah untuk detail selengkapnya). Secara keseluruhan, kami menyajikan lusinan contoh kemampuan yang muncul sebagai hasil dari peningkatan model bahasa. Keberadaan kemampuan yang muncul seperti itu menimbulkan pertanyaan apakah penskalaan tambahan berpotensi memperluas jangkauan kemampuan model bahasa.

See also  Dropbox untuk mengakuisisi aset Boxcryptor, menghadirkan enkripsi ujung ke ujung untuk pengguna bisnis

Tugas yang Diminta Muncul

Pertama kita membahas kemampuan yang muncul yang mungkin muncul dalam tugas yang diminta. Dalam tugas-tugas tersebut, model bahasa pra-terlatih diberikan prompt untuk tugas yang dibingkai sebagai prediksi kata berikutnya, dan melakukan tugas dengan menyelesaikan respons. Tanpa penyempurnaan lebih lanjut, model bahasa seringkali dapat melakukan tugas yang tidak terlihat selama pelatihan.

Contoh permintaan beberapa bidikan pada klasifikasi sentimen ulasan film. Model diberi satu contoh tugas (mengklasifikasikan ulasan film sebagai positif atau negatif) dan kemudian melakukan tugas pada contoh yang tidak terlihat.

Kami menyebut tugas yang diminta muncul saat ia secara tak terduga melonjak dari kinerja acak ke atas acak pada ambang batas skala tertentu. Di bawah ini kami tunjukkan tiga contoh tugas yang diminta dengan kinerja yang muncul: aritmatika banyak langkahmemukau ujian tingkat perguruan tinggidan mengidentifikasi makna yang dimaksudkan dari sebuah kata. Dalam setiap kasus, model bahasa berkinerja buruk dengan ketergantungan yang sangat kecil pada ukuran model hingga ambang batas di mana kinerja mereka tiba-tiba mulai unggul.

Kemampuan untuk melakukan aritmatika multi-langkah (kiri), berhasil dalam ujian tingkat perguruan tinggi (tengah), dan mengidentifikasi arti yang dimaksud dari sebuah kata dalam konteks (Baik) semua muncul hanya untuk model skala yang cukup besar. Model yang ditampilkan meliputi LaMDA, GPT-3, Menggali, chinchilladan Telapak.

Kinerja pada tugas-tugas ini hanya menjadi non-acak untuk model skala yang memadai — misalnya, di atas 1022 melatih FLOP untuk tugas-tugas NLU aritmatika dan multi-tugas, dan di atas 1024 pelatihan FLOP untuk kata dalam tugas konteks. Perhatikan bahwa meskipun skala kemunculan dapat berbeda untuk tugas dan model yang berbeda, tidak ada model yang menunjukkan peningkatan yang mulus dalam perilaku pada tugas-tugas ini. Lusinan tugas yang diminta muncul lainnya terdaftar dalam makalah kami.

See also  NVIDIA Luncurkan DRIVE Atlan SoC, Perkenalkan 2 PFLOPS DRIVE Thor untuk Autos 2025

Strategi Dorongan yang Muncul

Kelas kedua dari kemampuan yang muncul meliputi mendorong strategi yang menambah kemampuan model bahasa. Strategi mendorong adalah paradigma luas untuk mendorong yang dapat diterapkan pada berbagai tugas yang berbeda. Mereka dianggap muncul ketika gagal untuk model kecil dan hanya dapat digunakan oleh model yang cukup besar.

Salah satu contoh strategi dorongan yang muncul disebut “bisikan rantai pemikiran”, di mana model diminta untuk menghasilkan serangkaian langkah perantara sebelum memberikan jawaban akhir. Perintah rangkaian pemikiran memungkinkan model bahasa untuk melakukan tugas yang membutuhkan penalaran kompleks, seperti soal kata matematika multi-langkah. Khususnya, model memperoleh kemampuan untuk melakukan penalaran rantai pemikiran tanpa dilatih secara eksplisit untuk melakukannya. Contoh dorongan rantai pemikiran ditunjukkan pada gambar di bawah ini.

Rantai pemikiran mendorong memungkinkan model yang cukup besar untuk memecahkan masalah penalaran multi-langkah.

Hasil empiris dari dorongan rantai pemikiran ditunjukkan di bawah ini. Untuk model yang lebih kecil, menerapkan prompt rantai pemikiran tidak mengungguli prompt standar, misalnya, bila diterapkan ke GSM8K, tolok ukur yang menantang dari masalah kata matematika. Namun, untuk model besar (1024 FLOPs), rangkaian pemikiran yang mendorong secara substansial meningkatkan kinerja dalam pengujian kami, mencapai tingkat penyelesaian 57% pada GSM8K.

Dorongan rangkaian pemikiran adalah kemampuan yang muncul — kemampuan ini gagal meningkatkan kinerja untuk model bahasa kecil, tetapi secara substansial meningkatkan kinerja untuk model besar. Di sini kami mengilustrasikan perbedaan antara dorongan standar dan rangkaian pemikiran pada skala yang berbeda untuk dua model bahasa, LaMDA dan Telapak.

Implikasi dari Kemampuan yang Muncul

Keberadaan kemampuan yang muncul memiliki berbagai implikasi. Misalnya, karena kemampuan dan strategi yang diminta beberapa tembakan yang muncul tidak secara eksplisit dikodekan dalam pra-pelatihan, peneliti mungkin tidak mengetahui cakupan penuh dari kemampuan yang diminta beberapa tembakan dari model bahasa saat ini. Selain itu, munculnya kemampuan baru sebagai fungsi skala model menimbulkan pertanyaan apakah penskalaan lebih lanjut akan berpotensi memberikan model yang lebih besar dengan kemampuan baru yang muncul.

See also  Toolkit untuk Transparansi dalam Dokumentasi Set Data – Google AI Blog

Mengidentifikasi kemampuan yang muncul dalam model bahasa besar adalah langkah pertama dalam memahami fenomena tersebut dan dampak potensial mereka pada kemampuan model masa depan. Mengapa penskalaan membuka kemampuan yang muncul? Karena sumber daya komputasi mahal, dapatkah kemampuan yang muncul dibuka melalui metode lain tanpa peningkatan penskalaan (misalnya, arsitektur model atau teknik pelatihan yang lebih baik)? Akankah aplikasi model bahasa dunia nyata baru menjadi tidak terkunci ketika kemampuan tertentu muncul? Menganalisis dan memahami perilaku model bahasa, termasuk perilaku yang muncul dari penskalaan, merupakan pertanyaan penelitian penting karena bidang NLP terus berkembang.

Ucapan Terima Kasih

Merupakan suatu kehormatan dan hak istimewa untuk bekerja dengan Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, dan William Fedus.



[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments