HomeKomputerPendekatan Pemodelan Bahasa untuk Generasi Audio – Google AI Blog

Pendekatan Pemodelan Bahasa untuk Generasi Audio – Google AI Blog

Facebook
Twitter
Pinterest
WhatsApp

[ad_1]

Menghasilkan audio yang realistis memerlukan informasi pemodelan yang direpresentasikan pada skala yang berbeda. Misalnya, sama seperti musik membangun frase musik yang kompleks dari catatan individu, pidato menggabungkan struktur temporal lokal, seperti fonem atau suku kata, ke dalam kata-kata dan kalimat. Membuat urutan audio yang terstruktur dengan baik dan koheren pada semua skala ini merupakan tantangan yang telah diatasi dengan menggabungkan audio dengan transkripsi yang dapat memandu proses generatif, baik itu transkrip teks untuk sintesis ucapan atau Representasi MIDI untuk piano. Namun, pendekatan ini rusak saat mencoba memodelkan aspek audio yang tidak ditranskripsi, seperti karakteristik speaker yang diperlukan untuk membantu orang dengan gangguan bicara memulihkan suara merekaatau komponen gaya pertunjukan piano.

AudioLM: Pendekatan Pemodelan Bahasa untuk Generasi Audio”, kami mengusulkan kerangka kerja baru untuk generasi audio yang belajar menghasilkan pidato yang realistis dan musik piano dengan mendengarkan audio saja. Audio yang dihasilkan oleh AudioLM menunjukkan konsistensi jangka panjang (misalnya, sintaksis dalam ucapan, melodi dalam musik) dan kesetiaan yang tinggi, mengungguli sistem sebelumnya dan mendorong batas generasi audio dengan aplikasi dalam sintesis ucapan atau musik yang dibantu komputer. Mengikuti kami Prinsip AIkami juga telah mengembangkan model untuk mengidentifikasi audio sintetis yang dihasilkan oleh AudioLM.

Dari Model Bahasa Teks ke Audio

Dalam beberapa tahun terakhir, model bahasa yang dilatih pada korpora teks yang sangat besar telah menunjukkan kemampuan generatif mereka yang luar biasa, dari: dialog terbuka ke mesin penerjemah atau bahkan penalaran yang masuk akal. Mereka lebih jauh menunjukkan kapasitas mereka untuk memodelkan sinyal selain teks, seperti: sebagai gambar alami. Intuisi utama di balik AudioLM adalah memanfaatkan kemajuan seperti itu dalam pemodelan bahasa untuk menghasilkan audio tanpa dilatih pada data beranotasi.

See also  Pembelajar Bahasa Terpadu Sumber Terbuka – Blog Google AI

Namun, beberapa tantangan perlu diatasi saat berpindah dari model bahasa teks ke model bahasa audio. Pertama, kita harus mengatasi fakta bahwa kecepatan data untuk audio secara signifikan lebih tinggi, sehingga mengarah ke urutan yang lebih panjang — sementara kalimat tertulis dapat diwakili oleh beberapa lusin karakter, audionya bentuk gelombang biasanya berisi ratusan ribu nilai. Kedua, ada hubungan satu-ke-banyak antara teks dan audio. Ini berarti bahwa kalimat yang sama dapat diberikan oleh pembicara yang berbeda dengan gaya bicara, isi emosional, dan kondisi perekaman yang berbeda.

Untuk mengatasi kedua tantangan tersebut, AudioLM memanfaatkan dua jenis token audio. Pertama, token semantik diekstraksi dari w2v-BERT, model audio yang diawasi sendiri. Token ini menangkap dependensi lokal (misalnya, fonetik dalam ucapan, melodi lokal dalam musik piano) dan struktur jangka panjang global (misalnya, sintaksis bahasa dan konten semantik dalam ucapan, harmoni, dan ritme dalam musik piano), sementara sangat mengurangi sinyal audio untuk memungkinkan pemodelan urutan panjang.

Namun, audio yang direkonstruksi dari token ini menunjukkan kesetiaan yang buruk. Untuk mengatasi keterbatasan ini, selain token semantik, kami mengandalkan token akustik diproduksi oleh codec saraf SoundStream, yang menangkap detail bentuk gelombang audio (seperti karakteristik speaker atau kondisi perekaman) dan memungkinkan sintesis berkualitas tinggi. Melatih sistem untuk menghasilkan token semantik dan akustik menghasilkan kualitas audio yang tinggi dan konsistensi jangka panjang secara bersamaan.

Melatih Model Bahasa Audio-Only

AudioLM adalah model audio murni yang dilatih tanpa teks atau representasi simbolis musik. AudioLM memodelkan urutan audio secara hierarkis, dari token semantik hingga token akustik halus, dengan merangkai beberapa Transformator model, satu untuk setiap tahap. Setiap tahap dilatih untuk prediksi token berikutnya berdasarkan token masa lalu, seperti yang akan melatih model bahasa teks. Tahap pertama melakukan tugas ini pada token semantik untuk memodelkan struktur tingkat tinggi dari urutan audio.

See also  Platform Penelitian untuk Robotika Agile – Blog AI Google

Pada tahap kedua, kami menggabungkan seluruh rangkaian token semantik, bersama dengan token akustik kasar sebelumnya, dan memasukkan keduanya sebagai pengkondisian ke model akustik kasar, yang kemudian memprediksi token masa depan. Langkah ini memodelkan sifat akustik seperti karakteristik pembicara dalam ucapan atau timbre dalam musik.

Pada tahap ketiga, kami memproses token akustik kasar dengan model akustik halus, yang menambahkan lebih banyak detail pada audio akhir. Terakhir, kami memasukkan token akustik ke dekoder SoundStream untuk merekonstruksi bentuk gelombang.

Setelah pelatihan, seseorang dapat mengkondisikan AudioLM pada audio beberapa detik, yang memungkinkannya menghasilkan kelanjutan yang konsisten. Untuk menunjukkan penerapan umum kerangka AudioLM, kami mempertimbangkan dua tugas dari domain audio yang berbeda:

  • Kelanjutan pidatodi mana model diharapkan mempertahankan karakteristik pembicara, prosodi dan merekam kondisi prompt sambil memproduksi konten baru yang secara sintaksis benar dan konsisten secara semantik.
  • Lanjutan pianodimana model tersebut diharapkan dapat menghasilkan musik piano yang koheren dengan prompt dalam hal melodi, harmoni dan ritme.

Dalam video di bawah ini, Anda dapat mendengarkan contoh di mana model diminta untuk melanjutkan pidato atau musik dan menghasilkan konten baru yang tidak terlihat selama pelatihan. Saat Anda mendengarkan, perhatikan bahwa semua yang Anda dengar setelah garis vertikal abu-abu dihasilkan oleh AudioLM dan bahwa model tidak pernah melihat teks atau transkripsi musik apa pun, melainkan hanya belajar dari audio mentah. Kami merilis lebih banyak sampel di halaman web ini.

Untuk memvalidasi hasil kami, kami meminta penilai manusia untuk mendengarkan klip audio pendek dan memutuskan apakah itu rekaman asli ucapan manusia atau kelanjutan sintetis yang dihasilkan oleh AudioLM. Berdasarkan peringkat yang dikumpulkan, kami mengamati tingkat keberhasilan 51,2%, yang secara statistik tidak berbeda secara signifikan dari tingkat keberhasilan 50% yang dicapai saat menetapkan label secara acak. Ini berarti bahwa ucapan yang dihasilkan oleh AudioLM sulit dibedakan dari ucapan yang sebenarnya bagi pendengar rata-rata.

See also  Peluncuran NVIDIA Scrubs GeForce RTX 4080 12GB; 16GB Menjadi Satu-satunya Kartu RTX 4080

Pekerjaan kami di AudioLM adalah untuk tujuan penelitian dan kami tidak memiliki rencana untuk merilisnya secara lebih luas saat ini. Sejalan dengan kami Prinsip AI, kami berusaha untuk memahami dan mengurangi kemungkinan bahwa orang dapat salah menafsirkan sampel ucapan pendek yang disintesis oleh AudioLM sebagai ucapan yang sebenarnya. Untuk tujuan ini, kami melatih pengklasifikasi yang dapat mendeteksi ucapan sintetis yang dihasilkan oleh AudioLM dengan akurasi yang sangat tinggi (98,6%). Ini menunjukkan bahwa meskipun (hampir) tidak dapat dibedakan oleh beberapa pendengar, kelanjutan yang dihasilkan oleh AudioLM sangat mudah dideteksi dengan pengklasifikasi audio sederhana. Ini adalah langkah pertama yang penting untuk membantu melindungi dari potensi penyalahgunaan AudioLM, dengan upaya di masa depan yang berpotensi mengeksplorasi teknologi seperti audio “watermarking”.

Kesimpulan

Kami memperkenalkan AudioLM, pendekatan pemodelan bahasa untuk pembuatan audio yang memberikan koherensi jangka panjang dan kualitas audio yang tinggi. Eksperimen pada pembangkitan ucapan tidak hanya menunjukkan bahwa AudioLM dapat menghasilkan ucapan yang koheren secara sintaksis dan semantik tanpa teks apa pun, tetapi juga bahwa kelanjutan yang dihasilkan oleh model hampir tidak dapat dibedakan dari ucapan nyata oleh manusia. Selain itu, AudioLM melampaui ucapan dan dapat memodelkan sinyal audio yang berubah-ubah seperti musik piano. Hal ini mendorong perluasan masa depan untuk jenis audio lainnya (misalnya, pidato multibahasa, musik polifonik, dan acara audio) serta mengintegrasikan AudioLM ke dalam kerangka kerja encoder-decoder untuk tugas-tugas yang dikondisikan seperti text-to-speech atau speech-to-speech terjemahan.

Ucapan Terima Kasih

Karya yang dijelaskan di sini ditulis oleh Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Olivier Teboul, David Grangier, Marco Tagliasacchi, dan Neil Zeghidour. Kami berterima kasih atas semua diskusi dan umpan balik tentang pekerjaan ini yang kami terima dari rekan-rekan kami di Google.

[ad_2]

Facebook
Twitter
Pinterest
WhatsApp
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments